pythonxpathhtml
‘壹’ python里的爬虫如何使用xpath 提取script里的元素
xpath也许只能提取html元素?
建议你先把content保存到本地文件,看看需要的内容有没有下载下来。
你这个属于script内容,看看直接正则能获得吗?
‘贰’ python使用xpath(超详细)
使用时先安装 lxml 包
  
 开始使用 # 
  
 和beautifulsoup类似,首先我们需要得到一个文档树
  
 把文本转换成一个文档树对象
  
 from lxml import etreeif __name__ == '__main__':doc='''
把文件转换成一个文档树对象
  
 fromlxmlimportetree# 读取外部文件 index.htmlhtml = etree.parse('./index.html')result = etree.tostring(html, pretty_print=True)#pretty_print=True 会格式化输出print(result)
  
 均会打印出文档内容
  
 节点、元素、属性、内容 # 
  
  xpath 的思想是通过 路径表达 去寻找节点。节点包括元素,属性,和内容 
  
 元素举例
  
 html --->...div --->
这里我们可以看到,这里的元素和html中的标签一个意思。单独的元素是无法表达一个路径的,所以单独的元素不能独立使用
  
 路径表达式 # 
  
 /   根节点,节点分隔符,//  任意位置.   当前节点..  父级节点@   属性
  
 通配符 # 
  
 *   任意元素@*  任意属性node()  任意子节点(元素,属性,内容)
  
 谓语 # 
  
  使用中括号来限定元素,称为谓语 
  
 //a[n] n为大于零的整数,代表子元素排在第n个位置的 元素//a[last()]   last()  代表子元素排在最后个位置的  元素//a[last()-]  和上面同理,代表倒数第二个//a[position()<3] 位置序号小于3,也就是前两个,这里我们可以看出xpath中的序列是从1开始//a[@href]    拥有href的  元素//a[@href='www..com']    href属性值为'www..com'的  元素//book[@price>2]   price值大于2的元素 
  
 多个路径 # 
  
 用| 连接两个表达式,可以进行 或匹配
  
 //book/title | //book/price
  
 函数 # 
  
  xpath内置很多函数。更多函数查看 https://www.w3school.com.cn/xpath/xpath_functions.asp  
  
 contains(string1,string2)
  
 starts-with(string1,string2)
  
 ends-with(string1,string2) #不支持
  
 upper-case(string) #不支持
  
 text()
  
 last()
  
 position()
  
 node()
  
  可以看到last()也是个函数,在前面我们在谓语中已经提到过了 
  
 案例 # 
  
 定位元素 # 
  
  匹配多个元素,返回列表 
  
 fromlxmlimportetreeif__name__ =='__main__':doc='''
【结果为】 
  
 [<Element li at 0x2b41b749848>, <Element li at 0x2b41b749808>, <Element li at 0x2b41b749908>, <Element li at 0x2b41b749948>, <Element li at 0x2b41b749988>][]  #没找到p元素
  
 html = etree.HTML(doc)print(etree.tostring(html.xpath("//li[@class='item-inactive']")[0]))print(html.xpath("//li[@class='item-inactive']")[0].text)print(html.xpath("//li[@class='item-inactive']/a")[0].text)print(html.xpath("//li[@class='item-inactive']/a/text()"))print(html.xpath("//li[@class='item-inactive']/.."))print(html.xpath("//li[@class='item-inactive']/../li[@class='item-0']"))
  
  【结果为】 
  
 b' third item \n                 'None    #因为第三个li下面没有直接text,Nonethird item  #['third item'][<Element ul at 0x19cd8c4c848>][<Element li at 0x15ea3c5b848>, <Element li at 0x15ea3c5b6c8>]
  
 使用函数 # 
  
 contains # 
  
 有的时候,class作为选择条件的时候不合适@class='....' 这个是完全匹配,当王爷样式发生变化时,class或许会增加或减少像active的class。用contains就能很方便
  
 from lxml import etreeif __name__ == '__main__':doc='''
【结果为】 
  
 [<Element p at 0x23f4a9d12c8>, <Element li at 0x23f4a9d13c8>, <Element li at 0x23f4a9d1408>, <Element li at 0x23f4a9d1448>, <Element li at 0x23f4a9d1488>]
  
 starts-with # 
  
 from lxml import etreeif __name__ == '__main__':doc='''
【结果为】 
  
 [<Element ul at 0x23384e51148>, <Element p at 0x23384e51248>, <Element li at 0x23384e51288>, <Element li at 0x23384e512c8>, <Element li at 0x23384e51308>, <Element li at 0x23384e51388>][<Element ul at 0x23384e51148>]
  
 ends-with # 
  
 print(html.xpath("//*[ends-with(@class,'ul')]"))
  
  【结果为】 
  
 Traceback (most recent call last):File"F:/OneDrive/pprojects/shoes-show-spider/test/xp5_test.py",line18,inprint(html.xpath("//*[ends-with(@class,'ul')]"))File"src\lxml\etree.pyx",line1582,inlxml.etree._Element.xpathFile"src\lxml\xpath.pxi",line305,inlxml.etree.XPathElementEvaluator.__call__File"src\lxml\xpath.pxi",line225,inlxml.etree._XPathEvaluatorBase._handle_resultlxml.etree.XPathEvalError: Unregisteredfunction
  
  看来python的lxml并不支持有的xpath函数列表 
  
 upper-case # 
  
  和ends-with函数一样,也不支持。同样报错lxml.etree.XPathEvalError: Unregistered function 
  
 print(html.xpath("//a[contains(upper-case(@class),'ITEM-INACTIVE')]"))
  
 text、last # 
  
 #最后一个li被限定了print(html.xpath("//li[last()]/a/text()"))#会得到所有的`<a>`元素的内容,因为每个<a>标签都是各自父元素的最后一个元素。#本来每个li就只有一个<a>子元素,所以都是最后一个print(html.xpath("//li/a[last()]/text()"))print(html.xpath("//li/a[contains(text(),'third')]"))
  
  【结果为】 
  
 ['fifth item']['second item', 'third item', 'fourth item', 'fifth item'][<Element a at 0x26ab7bd1308>]
  
 position # 
  
 print(html.xpath("//li[position()=2]/a/text()"))#结果为['third item']
  
  上面这个例子我们之前以及讲解过了 
  
 * 这里有个疑问,就是position()函数能不能像text()那样用呢 
  
 print(html.xpath("//li[last()]/a/position()"))#结果  lxml.etree.XPathEvalError: Unregisteredfunction
  
  这里我们得到一个结论,函数不是随意放在哪里都能得到自己想要的结果 
  
 node # 
  
  返回所有子节点,不管这个子节点是什么类型(熟悉,元素,内容) 
  
 print(html.xpath("//ul/li[@class='item-inactive']/node()"))print(html.xpath("//ul/node()"))
  
  【结果为】 
  
 []['\n                 ', , '\n                 ', , '\n                 ', , '\n                 ', , '\n                 ', , ' 闭合标签\n             ']
  
 获取内容 # 
  
 **刚刚已经提到过,可以使用.text和text()的方式来获取元素的内容
  
 from lxml import etreeif __name__ == '__main__':doc='''
【结果为】 
  
 ['first item','second item','third item','fourth item','fifth item']first item18['\n                 ','\n                 ','\n                 ','\n                 ','\n                 ',' 闭合标签\n             ']
  
  看到这里,我们观察到text()和.text的区别。自己总结吧。不太好表达,就不表达了 
  
 获取属性 # 
  
 print(html.xpath("//a/@href"))print(html.xpath("//li/@class"))
  
  【结果为】 
  
 ['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']['item-0active', 'item-1', 'item-inactive', 'item-1', 'item-0']
  
 自定义函数 # 
  
 我们从使用函数的过程中得到结论,就是有的函数不支持,有的支持,那问题来了,到底那些方法支持呢。我们在lxml官网找到了答案。 https://lxml.de/xpathxslt.html 。lxml 支持XPath 1.0 ,想使用其他扩展,使用libxml2,和libxslt的标准兼容的方式。 XPath 1.0官方文档  以及其他版本的XPath文档  https://www.w3.org/TR/xpath/ 
  
 lxml supports XPath1.0, XSLT1.0andthe EXSLT extensions through libxml2andlibxsltina standards compliant way.
  
 除此之外,lxml还提供了自定义函数的方式来扩展xpath的支持度  https://lxml.de/extensions.html 
  
 from lxml import etree#定义函数def ends_with(context,s1,s2):return s1[0].endswith(s2)if __name__ == '__main__':doc='''
【结果为】 
  
 [<Element li at 0x2816ed30548>, <Element li at 0x2816ed30508>]['first item', 'third item']
  
  形参s1会传入xpath中的第一个参数@class,但这里注意@class是个列表 
  
  形参s2会传入xpath中的第二个参数'active','active'是个字符串 
  
 官网例子 https://lxml.de/extensions.html 
  
 defhello(context, a):return"Hello %s"% afromlxmlimportetreens = etree.FunctionNamespace(None)ns['hello'] = helloroot = etree.XML('<a><b>Haegar</b></a>')print(root.xpath("hello('Dr. Falken')"))# 结果为 Hello Dr. Falken
‘叁’ 如何在python中使用xpath
在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息。
首先,我们需要安装一个支持xpath的python库。目前在libxml2的网站上被推荐的python binding是lxml,也有beautifulsoup,不嫌麻烦的话还可以自己用正则表达式去构建,本文以lxml为例讲解。
假设有如下的HTML文档:
1 <html>
2   <body>
3     <form>
4       <div id='leftmenu'>
5         <h3>text</h3>
6         <ul id=’china’><!-- first location -->
7           <li>...</li>
8           <li>...</li>
9              ......
10         </ul>
11         <ul id=’england’><!-- second location-->
12           <li>...</li>
13           <li>...</li>
14              ......
15         </ul>
16       </div>
17     </form>
18   </body>
19 </html>        
直接使用lxml处理:
1 import codecs
2 from lxml import etree
3 f=codecs.open("ceshi.html","r","utf-8")
4 content=f.read()
5 f.close()
6 tree=etree.HTML(content)
etree提供了HTML这个解析函数,现在我们可以直接对HTML使用xpath了,是不是有点小激动,现在就尝试下吧。
在使用xpath之前我们先来看看作为对照的jQuery和RE。
在jQuery里要处理这种东西就很简单,特别是假如那个ul节点有id的话(比如是<ul id=’china’>):
$("#china").each(function(){...});
具体到此处是:
$("#leftmenu").children("h3:contains('text')").next("ul").each(function(){...});
找到id为leftmenu的节点,在其下找到一个内容包含为”text”的h3节点,再取其接下来的一个ul节点。
在python里要是用RE来处理就略麻烦一些:
block_pattern=re.compile(u"<h3>档案</h3>(.*?)<h3>", re.I | re.S)
m=block_pattern.findall(content)
item_pattern=re.compile(u"<li>(.*?)</li>", re.I | re.S)
items=item_pattern.findall(m[0])
for i in items:
print i
那么用xpath要怎么做呢?其实跟jQuery是差不多的:
nodes=tree.xpath("/descendant::ul[@id='china']")
当然,现在没有id的话也就只能用类似于jQuery的方法了。完整的xpath应该是这样写的(注意,原文件中的TAG有大小写的情况,但是在XPATH里只能用小写):
nodes=tree.xpath(u"/html/body/form/div[@id='leftmenu']/h3[text()='text']/following-sibling::ul[1]")
更简单的方法就是像jQuery那样直接根据id定位:
nodes=tree.xpath(u"//div[@id='leftmenu']/h3[text()='text']/following-sibling::ul[1]")
这两种方法返回的结果中,nodes[0]就是那个“text”的h3节点后面紧跟的第一个ul节点,这样就可以列出后面所有的ul节点内容了。
如果ul节点下面还有其他的节点,我们要找到更深节点的内容,如下的循环就是把这些节点的文本内容列出:
nodes=nodes[0].xpath("li/a")
for n in nodes:
print n.text
对比三种方法应该可以看出xpath和jQuery对于页面的解析都是基于XML的语义进行,而RE则纯粹是基于plain text。RE对付简单的页面是没有问题,如果页面结构复杂度较高的时候(比如一堆的DIV来回嵌套之类),设计一个恰当的RE pattern可能会远比写一个xpath要复杂。特别是目前主流的基于CSS的页面设计方式,其中大部分关键节点都会有id――对于使用jQuery的页面来说则更是如此,这时xpath相比RE就有了决定性的优势。
附录:基本XPATH语法介绍,详细请参考XPath的官方文档
XPATH基本上是用一种类似目录树的方法来描述在XML文档中的路径。比如用“/”来作为上下层级间的分隔。第一个“/”表示文档的根节点(注意,不是指文档最外层的tag节点,而是指文档本身)。比如对于一个HTML文件来说,最外层的节点应该是”/html”。
同样的,“..”和“.”分别被用来表示父节点和本节点。
XPATH返回的不一定就是唯一的节点,而是符合条件的所有节点。比如在HTML文档里使用“/html/head/scrpt”就会把head里的所有script节点都取出来。
为了缩小定位范围,往往还需要增加过滤条件。过滤的方法就是用“[”“]”把过滤条件加上。比如在HTML文档里使用“/html/body/div[@id='main']”,即可取出body里id为main的div节点。
其中@id表示属性id,类似的还可以使用如@name, @value, @href, @src, @class….
而 函数text()的意思则是取得节点包含的文本。比如:<div>hello<p>world</p>< /div>中,用”div[text()='hello']“即可取得这个div,而world则是p的text()。
函数position()的意思是取得节点的位置。比如“li[position()=2]”表示取得第二个li节点,它也可以被省略为“li[2]”。
不过要注意的是数字定位和过滤 条件的顺序。比如“ul/li[5][@name='hello']”表示取ul下第五项li,并且其name必须是hello,否则返回空。而如果用 “ul/li[@name='hello'][5]”的意思就不同,它表示寻找ul下第五个name为”hello“的li节点。
此外,“*”可以代替所有的节点名,比如用”/html/body/*/span”可以取出body下第二级的所有span,而不管它上一级是div还是p或是其它什么东东。
而 “descendant::”前缀可以指代任意多层的中间节点,它也可以被省略成一个“/”。比如在整个HTML文档中查找id为“leftmenu”的 div,可以用“/descendant::div[@id='leftmenu']”,也可以简单地使用“ //div[@id='leftmenu']”。
至于“following-sibling::”前缀就如其名所说,表示同一层的下一个节点。”following-sibling::*”就是任意下一个节点,而“following-sibling::ul”就是下一个ul节点。
‘肆’ Python lxml包下面的xpath基本用法
对于网页数据抓取,有BeautifulSoup、lxml以及正则表达式三种方法,其中正则表达式过于复杂,而beautifulsoup和lxml使用起来较为方便。以前简单使用过beautifulsoup(美味汤),后面为了扩展一下,熟悉一下lxml进行数据抓取。
  
 先贴一个lxml的简单框架:
  
 其中,最主要的在于xpath路径的获取和解析,而XPath就是地址,具体地,就是需要知道所要寻找的内容处在哪个地址下。一般而言,我们可以根据开发者工具来定位我们需要的元素,然后右击选择其所在xpath,选择初步的路径,如下图所示,
                                          
 这只是一种简单的方法,更重要的,需要掌握xpath的语法规则,下面分别论述。
  
 使用xpath获取信息,主要包括获取本文和获取属性,基本用法为
  
 对比可以看出,一个是采用text()获取文本,一个是采用@属性获取属性值。而前面标签后面方括号就是来对标签进行筛选的。一般而言,通过选择器可以获取诸如/html/body/div[@class="useful"]/ul/li/text()的信息,但是开头的信息没有标志性,采用//div[@class="useful"]/ul/li/text()即可。
  
 这个地方即涉及到了xpath的语法选择,主要包括以下几点:
  
 而在选择器方面,包括以下几个
  
 除此之外,在获取了一个元素之后,我们需要获取其下面元素的属性,即要对基于xpath获取的元素再次采用xpath,此时的获取方式为:
  
 另外,我们也可以获取节点下面所有的字符串,方法为string(.),示例为:
  
 懒得打字了,下面的截图来自W3Cschool, https://www.w3cschool.cn/lxml/_lxml-98h23fk0.html 
主要的Xpath运算符包括以下:
                                          
 按顺序选择等进一步的内容可以移步 https://www.w3cschool.cn/lxml/_lxml-eh1k3fk6.html 
  
 具体到不同的网页上,需要的其他知识就更多了,慢慢补充吧。不过似乎还是beautifulsoup好用一些,哈哈。
  
 参考资料:
    https://blog.csdn.net/weixin_39851008/article/details/109960957 
    https://www.w3cschool.cn/lxml/_lxml-98h23fk0.html
‘伍’ python中如何将通过xpath提取部分html代码或者有什么其他方法
mport urllib.request
import re
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
html = html.decode('GBK')
return html
def getMeg(html):
reg = re.compile(r'******')
meglist = re.findall(reg,html)
for meg in meglist:
with open('out.txt',mode='a',encoding='utf-8') as file:
file.write('%s\n' % meg)
if __name__ == "__main__":
html = getHtml(url)
getMeg(html)
‘陆’ 如何用Python爬取出HTML指定标签内的文本
你好!
可以通过lxml来获取指定标签的内容。
#安装lxml
pipinstalllxml
importrequests
fromlxmlimporthtml
defgetHTMLText(url):
....
etree=html.etree
root=etree.HTML(getHTMLText(url))
#这里得到一个表格内tr的集合
trArr=root.xpath("//div[@class='news-text']/table/tbody/tr");
#循环显示tr里面的内容
fortrintrArr:
rank=tr.xpath("./td[1]/text()")[0]
name=tr.xpath("./td[2]/div/text()")[0]
prov=tr.xpath("./td[3]/text()")[0]
strLen=22-len(name.encode('GBK'))+len(name)
print('排名:{:<3},学校名称:{:<{}} ,省份:{}'.format(rank,name,strLen,prov))
希望对你有帮助!
