我使用Python绑定来运行Selenium WebDriver:

from selenium import webdriver
wd = webdriver.Firefox()

我知道我可以像这样抓取一个webelement:

elem = wd.find_element_by_css_selector('#my-id')

我知道我可以得到整页的源代码…

wd.page_source

但是是否有一种获取“元素源”的方法?

elem.source   # <-- returns the HTML as a string

Python的Selenium WebDriver文档基本上不存在,我在代码中没有看到任何支持该功能的东西。

访问一个元素(及其子元素)的HTML的最佳方法是什么?


当前回答

实际上没有一种直接的方法来获取web元素的HTML源代码。你必须使用JavaScript。我不太确定python绑定,但在Java中可以很容易地这样做。我相信在Python中一定有类似JavascriptExecutor类的东西。

 WebElement element = driver.findElement(By.id("foo"));
 String contents = (String)((JavascriptExecutor)driver).executeScript("return arguments[0].innerHTML;", element);

其他回答

当然,我们可以用下面的脚本在Selenium Python中获得所有的HTML源代码:

elem = driver.find_element_by_xpath("//*")
source_code = elem.get_attribute("outerHTML")

如果你想保存到文件:

with open('c:/html_source_code.html', 'w') as f:
f.write(source_code.encode('utf-8'))

我建议保存到一个文件,因为源代码非常非常长。

更新了2022硒检索HTML

首先,下载Selenium WebDriver的Python绑定。

可以从Selenium包的PyPI页面执行此操作。 或者,也可以使用pip来安装Selenium包。Python 3.6在标准库中提供了pip。

方法1

读取innerHTML属性以获得元素内容的源。innerHTML是DOM元素的属性,它的值是开始标记和结束标记之间的HTML。

例如,下面代码中的innerHTML属性包含值" text "

<p>
a text
</p>
element.get_attribute('innerHTML')

方法2

读取outerHTML以获得带有当前元素的源代码。outerHTML是一个元素属性,其值是开始和结束标记之间的HTML以及所选元素本身的HTML。

例如,代码的outerHTML属性携带了一个包含div和span的值。

<div>
<span>Hello there!</span>
</div>
ele.get_atrribute("outerHTML")
WebElement element = driver.findElement(By.id("foo"));
String contents = (String)((JavascriptExecutor)driver).executeScript("return arguments[0].innerHTML;", element); 

这段代码真的可以从源代码获得JavaScript !

在PHPUnit Selenium测试中,它是这样的:

$text = $this->byCssSelector('.some-class-nmae')->attribute('innerHTML');

Java与Selenium 2.53.0

driver.getPageSource();