在Selenium WebDriver中使用Python获取WebElement的HTML源代码

我使用Python绑定来运行Selenium WebDriver:

from selenium import webdriver
wd = webdriver.Firefox()

我知道我可以像这样抓取一个webelement:

elem = wd.find_element_by_css_selector('#my-id')

我知道我可以得到整页的源代码…

wd.page_source

但是是否有一种获取“元素源”的方法?

elem.source   # <-- returns the HTML as a string

Python的Selenium WebDriver文档基本上不存在，我在代码中没有看到任何支持该功能的东西。

访问一个元素(及其子元素)的HTML的最佳方法是什么?

当前回答

实际上，使用属性方法更简单、更直接。

将Ruby与Selenium和PageObject宝石一起使用，以获得与某个元素相关联的类，行代码为element.attribute(class)。

如果您希望获得与元素绑定的其他属性，同样的概念也适用。例如，如果我想要一个元素的字符串，element.attribute(string)。

2013-03-22 15:46:21

其他回答

实际上，使用属性方法更简单、更直接。

将Ruby与Selenium和PageObject宝石一起使用，以获得与某个元素相关联的类，行代码为element.attribute(class)。

如果您希望获得与元素绑定的其他属性，同样的概念也适用。例如，如果我想要一个元素的字符串，element.attribute(string)。

2013-03-22 15:46:21

使用execute_script get html

bs4(BeautifulSoup)也可以快速访问html标签。

from bs4 import BeautifulSoup
html = adriver.execute_script("return document.documentElement.outerHTML")
bs4_onepage_object=BeautifulSoup(html,"html.parser")
bs4_div_object=bs4_onepage_object.find_all("atag",class_="attribute")

2021-09-11 02:49:56

实际上没有一种直接的方法来获取web元素的HTML源代码。你必须使用JavaScript。我不太确定python绑定，但在Java中可以很容易地这样做。我相信在Python中一定有类似JavascriptExecutor类的东西。

 WebElement element = driver.findElement(By.id("foo"));
 String contents = (String)((JavascriptExecutor)driver).executeScript("return arguments[0].innerHTML;", element);

2011-09-03 03:29:14

我希望这能有所帮助: http://selenium.googlecode.com/svn/trunk/docs/api/java/org/openqa/selenium/WebElement.html

下面介绍Java方法:

java.lang.String    getText()

但不幸的是，它在Python中不可用。因此，您可以将方法名称从Java转换为Python，并尝试使用现有方法的另一种逻辑，而无需获得整个页面的源代码……

E.g.

 my_id = elem[0].get_attribute('my-id')

2011-09-07 14:23:30

InnerHTML将返回所选元素内部的元素，outerHTML将返回所选元素的内部HTML

例子:

现在假设您的Element如下所示

<tr id="myRow"><td>A</td><td>B</td></tr>

innerHTML元素输出

<td>A</td><td>B</td>

outerHTML元素输出

<tr id="myRow"><td>A</td><td>B</td></tr>

生活例子:

http://www.java2s.com/Tutorials/JavascriptDemo/f/find_out_the_difference_between_innerhtml_and_outerhtml_in_javascript_example.htm

下面你会发现语法需要根据不同的绑定。根据需要将innerHTML更改为outerHTML。

Python:

element.get_attribute('innerHTML')

Java:

elem.getAttribute("innerHTML");

如果你想要整个页面的HTML，使用下面的代码:

driver.getPageSource();

2017-09-03 07:18:46

在Selenium WebDriver中使用Python获取WebElement的HTML源代码

推荐文章

最新文章

标签