Как получить текст HTML Документа из TWebBrowser без тегов 2
Автор: Фэ
Никто и никогда не видел столько порнографии, сколько видел браузер Internet Explorer.
var
Document: IHTMLDocument2;
begin
Document := WB.Document as IHtmlDocument2;
if Document < > nilthen
Memo1.Text := (Document.all.Item(NULL, 0) as IHTMLElement).OuterHTML;
Here's the translation of the text into Russian:
Путь к извлечению текста HTML из контрола TWebBrowser без тегов!
Ваш код почти готов, но есть slight issue с доступом к свойству OuterHTML. Вот измененная версия, которая должна работать:
var
Document: IHTMLDocument2;
begin
Document := WB.Document as IHtmlDocument2;
if Document <> nil then
Memo1.Text := Document.body.outerHTML;
end;
Вот что изменилось:
Вместо использования all.Item(NULL, 0) as IHTMLElement, мы напрямую доступаемся к свойству body интерфейса IHTMLDocument2. Это дает нам элемент <body>.
Затем мы вызываем свойство outerHTML на элементе <body> для получения содержимого HTML без тегов.
Обратите внимание, что если вы хотите сохранить оригинальную форматирование и отступы, вам может потребоваться более сложный подход,such as using an HTML parser or a regular expression. Однако для простых случаев, как это, код выше должен работать нормально.
Также помните, что IHTMLDocument2 - интерфейс из библиотеки MSHTML, который является специфичным для Internet Explorer. Если вы планируете использовать этот код с другими браузерами (например, Chrome или Firefox), вам может потребоваться изменить ваш подход соответствующим образом.
В статье описывается способ получения текста HTML-документа из компонента TWebBrowser без тегов, используя интерфейс IHTMLDocument2 и метод OuterHTML.
Комментарии и вопросы
Получайте свежие новости и обновления по Object Pascal, Delphi и Lazarus прямо в свой смартфон. Подпишитесь на наш Telegram-канал delphi_kansoftware и будьте в курсе последних тенденций в разработке под Linux, Windows, Android и iOS