博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
多线程爬虫1
阅读量:7018 次
发布时间:2019-06-28

本文共 580 字,大约阅读时间需要 1 分钟。

hot3.png

XPath的介绍与配置

•XPath 是一门语言

•XPath可以在XML文档中查找信息

•XPath支持HTML

•XPath通过元素和属性进行导航

•XPath可以用来提取信息

•XPath比正则表达式厉害

•XPath比正则表达式简单

安装使用XPath

•安装lxml库

•from lxml import etree

•Selector = etree.HTML(网页源代码)

•Selector.xpath(一段神奇的符号)

//与安装requests 相同,可以通过pip安装,也可以直接下载后,放到Lib文件夹中

XPath的使用

1、XPath与HTML结构

•树状结构

•逐层展开

•逐层定位

•寻找独立节点

2、获取网页元素的XPath

手动分析法

浏览器分析法

//Firefox需要安装插件

从firefox的官方网站上下载firebug和xpathchecker这两个插件,安装步骤安装就可以了。

firefox插件地址

安装好后,进入审查元素。到想看的地方右击,会有ViewXPath

点击就是XPath了

应用XPath提取内容

•//定位根节点

•/往下层寻找

•提取文本内容:/text()

•提取属性内容: /@xxxx

转载于:https://my.oschina.net/u/2615680/blog/610383

你可能感兴趣的文章
Hadoop WordCount改进实现正确识别单词以及词频降序排序
查看>>
MVVM架构~knockoutjs实现简单的购物车
查看>>
ASP.NET图片上传方法总结
查看>>
【Github教程】史上最全github使用方法:github入门到精通
查看>>
一个根据列的范围分组汇总的Sql存储过程
查看>>
支点:技术选择的精髓
查看>>
swiper去除滑动设置
查看>>
Microsoft Enterprise Library 5.0 系列教程(十) Configuration Application Block
查看>>
Silverlight中的Slider控件
查看>>
Redis学习笔记~分布锁的使用
查看>>
C#性能优化:延迟初始化Lazy<T>
查看>>
开源倾情奉献:基于.NET打造IP智能网络视频监控系统(二)基础类库介绍
查看>>
sublime text3 自动编译php 适合用于简单的php文件执行
查看>>
git分支管理
查看>>
玩转Google开源C++单元测试框架Google Test系列(gtest)之七 - 深入解析gtest
查看>>
C#代码生成工具:文本模板初体验 Hello,World!
查看>>
[WinAPI] API 11 [创建目录]
查看>>
(C#)多线程-BackgroundWorker组件
查看>>
设计工作-Axure
查看>>
6.4. branch
查看>>