XPath的介绍与配置
•XPath 是一门语言
•XPath可以在XML文档中查找信息
•XPath支持HTML
•XPath通过元素和属性进行导航
•XPath可以用来提取信息
•XPath比正则表达式厉害
•XPath比正则表达式简单
安装使用XPath
•安装lxml库
•from lxml import etree
•Selector = etree.HTML(网页源代码)
•Selector.xpath(一段神奇的符号)
//与安装requests 相同,可以通过pip安装,也可以直接下载后,放到Lib文件夹中
XPath的使用
1、XPath与HTML结构
•树状结构
•逐层展开
•逐层定位
•寻找独立节点
2、获取网页元素的XPath
手动分析法
浏览器分析法
//Firefox需要安装插件
从firefox的官方网站上下载firebug和xpathchecker这两个插件,安装步骤安装就可以了。
firefox插件地址
和
安装好后,进入审查元素。到想看的地方右击,会有ViewXPath
点击就是XPath了
应用XPath提取内容
•//定位根节点
•/往下层寻找
•提取文本内容:/text()
•提取属性内容: /@xxxx