在Selenium WebDriver中使用Python获取WebElement的HTML源代码

我使用Python绑定来运行Selenium WebDriver:

from selenium import webdriver
wd = webdriver.Firefox()

我知道我可以像这样抓取一个webelement:

elem = wd.find_element_by_css_selector('#my-id')

我知道我可以得到整页的源代码…

wd.page_source

但是是否有一种获取“元素源”的方法?

elem.source   # <-- returns the HTML as a string

Python的Selenium WebDriver文档基本上不存在，我在代码中没有看到任何支持该功能的东西。

访问一个元素(及其子元素)的HTML的最佳方法是什么?

当前回答

这对我来说非常有效。

element.get_attribute('innerHTML')

其他回答

当然，我们可以用下面的脚本在Selenium Python中获得所有的HTML源代码:

elem = driver.find_element_by_xpath("//*")
source_code = elem.get_attribute("outerHTML")

如果你想保存到文件:

with open('c:/html_source_code.html', 'w') as f:
f.write(source_code.encode('utf-8'))

我建议保存到一个文件，因为源代码非常非常长。

如果你对Python中Selenium Remote Control的解决方案感兴趣，下面是如何获取innerHTML:

innerHTML = sel.get_eval("window.document.getElementById('prodid').innerHTML")

实际上，使用属性方法更简单、更直接。

将Ruby与Selenium和PageObject宝石一起使用，以获得与某个元素相关联的类，行代码为element.attribute(class)。

如果您希望获得与元素绑定的其他属性，同样的概念也适用。例如，如果我想要一个元素的字符串，element.attribute(string)。

Java与Selenium 2.53.0

driver.getPageSource();

它看起来过时了，但不管怎样，就让它留在这里吧。在你的情况下，正确的做法是:

elem = wd.find_element_by_css_selector('#my-id')
html = wd.execute_script("return arguments[0].innerHTML;", elem)

html = elem.get_attribute('innerHTML')

两者都适合我(selenium-server-standalone-2.35.0)。

推荐文章