是否有一个针对Ubuntu和/或CentOS的包,它有一个命令行工具,可以执行像foo //element@attribute filename.xml或foo //element@attribute < filename.xml这样的XPath一行程序,并逐行返回结果?

我正在寻找一些东西,这将允许我只是apt-get安装foo或yum安装foo,然后只是开箱即用,没有包装或其他必要的适应。

以下是一些很接近的例子:

Nokogiri。如果我写这个包装器,我可以用上面描述的方式调用包装器:

#!/usr/bin/ruby

require 'nokogiri'

Nokogiri::XML(STDIN).xpath(ARGV[0]).each do |row|
  puts row
end

XML:: XPath。将与此包装工作:

#!/usr/bin/perl

use strict;
use warnings;
use XML::XPath;

my $root = XML::XPath->new(ioref => 'STDIN');
for my $node ($root->find($ARGV[0])->get_nodelist) {
  print($node->getData, "\n");
}

xpath从XML:: xpath返回太多噪音,——NODE——和attribute = "value"。

来自XML::Twig的xml_grep不能处理不返回元素的表达式,因此不能在没有进一步处理的情况下用于提取属性值。

编辑:

Echo cat //element/@attribute | xmllint——shell filename.xml返回类似xpath的噪声。

Xmllint——xpath //element/@attribute filename.xml返回attribute = "value"。

xmllint——xpath 'string(//element/@attribute)' filename.xml返回我想要的,但只对第一个匹配。

对于另一个几乎可以满足这个问题的解决方案,下面是一个可以用于计算任意XPath表达式的XSLT(需要XSLT处理器中的dyn:evaluate支持):

<?xml version="1.0"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0"
    xmlns:dyn="http://exslt.org/dynamic" extension-element-prefixes="dyn">
  <xsl:output omit-xml-declaration="yes" indent="no" method="text"/>
  <xsl:template match="/">
    <xsl:for-each select="dyn:evaluate($pattern)">
      <xsl:value-of select="dyn:evaluate($value)"/>
      <xsl:value-of select="'&#10;'"/>
    </xsl:for-each> 
  </xsl:template>
</xsl:stylesheet>

使用xsltproc——stringparam pattern //element/@attribute——stringparam value运行。arbitrary-xpath。xslt filename.xml。


当前回答

很抱歉又加入了争论。我尝试了这篇文章中的所有工具,但没有一个能满足我的需求,所以我自己编写了一个。你可以在这里找到它:https://github.com/charmparticle/xpe

它已经上传到pypi,所以你可以很容易地用pip3安装它,就像这样:

sudo pip3 install xpe

安装后,您可以使用它对各种输入运行xpath表达式,其灵活性与在selenium或javascript中使用xpath所获得的灵活性相同。你可以用xpaths来对抗HTML。

其他回答

clacke的回答很好,但我认为只有当你的源代码是格式良好的XML,而不是普通的HTML时才有效。

因此,对于正常的Web内容- html文档(不一定是格式良好的XML),也要做同样的事情:

echo "<p>foo<div>bar</div><p>baz" | python -c "from sys import stdin; \
from lxml import html; \
print '\n'.join(html.tostring(node) for node in html.parse(stdin).xpath('//p'))"

而使用html5lib(以确保您获得与Web浏览器相同的解析行为——因为像浏览器解析器一样,html5lib符合HTML规范中的解析要求)。

echo "<p>foo<div>bar</div><p>baz" | python -c "from sys import stdin; \
import html5lib; from lxml import html; \
doc = html5lib.parse(stdin, treebuilder='lxml', namespaceHTMLElements=False); \
print '\n'.join(html.tostring(node) for node in doc.xpath('//p'))

你应该试试这些工具:

xmlstarlet (xmlstarlet page) : can edit, select, transform... Not installed by default, xpath1 xmllint (man xmllint): often installed by default with libxml2-utils, xpath1 (check my wrapper to have --xpath switch on very old releases and newlines delimited output (v < 2.9.9)). Can be used as interactive shell with the --shell switch. xpath : installed via perl's module XML::Xpath, xpath1 xml_grep : installed via perl's module XML::Twig, xpath1 (limited xpath usage) xidel (xidel): xpath3 saxon-lint (saxon-lint): my own project, wrapper over @Michael Kay's Saxon-HE Java library, xpath3: using SaxonHE 9.6 ,XPath 3.x (+retro compatibility)

例子:

xmllint --xpath '//element/@attribute' file.xml
xmlstarlet sel -t -v "//element/@attribute" file.xml
xpath -q -e '//element/@attribute' file.xml
xidel -se '//element/@attribute' file.xml
saxon-lint --xpath '//element/@attribute' file.xml

在我搜索maven pom.xml文件时,我遇到了这个问题。然而,我有以下限制:

必须跨平台运行。 必须存在于所有主要的Linux发行版中,而没有任何额外的模块安装 必须处理复杂的xml文件,如maven pom.xml文件 简单的语法

我尝试了上面的许多方法,但都没有成功:

python lxml。Etree不是标准python发行版的一部分 xml。Etree是,但不能很好地处理复杂的maven pom.xml文件,挖得不够深 python xml。由于未知原因,Etree不处理maven pom.xml文件 Xmllint也不能工作,核心转储通常在ubuntu 12.04 " Xmllint: using libxml version 20708"

我所遇到的解决方案是稳定的,简短的,可以在许多平台上工作,并且是成熟的,是ruby中内置的rexml库:

ruby -r rexml/document -e 'include REXML; 
     puts XPath.first(Document.new($stdin), "/project/version/text()")' < pom.xml

启发我找到这篇文章的是下面的文章:

Ruby/XML, XSLT和XPath教程 IBM: Ruby on Rails和XML

我的Python脚本xgrep.py正是这样做的。为了搜索文件中元素元素的所有属性。xml…,你会这样运行它:

xgrep.py "//element/@attribute" filename.xml ...

有各种用于控制输出的开关,例如-c用于计数匹配,-i用于缩进匹配部分,以及-l仅用于输出文件名。

该脚本没有Debian或Ubuntu包,但它的所有依赖项都是可用的。

类似于Mike和clacke的回答,下面是python一行程序(使用python >= 2.5)从pom.xml文件中获取构建版本,该程序绕过了pom.xml文件通常没有dtd或默认名称空间的事实,因此对libxml来说格式不正确:

python -c "import xml.etree.ElementTree as ET; \
  print(ET.parse(open('pom.xml')).getroot().find('\
  {http://maven.apache.org/POM/4.0.0}version').text)"

在Mac和Linux上测试,并且不需要安装任何额外的包。