热搜关键词: 电路基础ADC数字信号处理封装库PLC

pdf

用Python写网络爬虫

  • 1星
  • 2021-05-30
  • 11.19MB
  • 需要1积分
  • 100+ 次下载
标签: python

python

作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站。

《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用AJAX  URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。

《用Python写网络爬虫》介绍了如下内容:

通过跟踪链接来爬取网站;

使用lxml从页面中抽取数据;

构建线程爬虫来并行爬取页面;

将下载的内容进行缓存,以降低带宽消耗;

解析依赖于JavaScript的网站;

与表单和会话进行交互;

解决受保护页面的验证码问题;

对AJAX调用进行逆向工程;

使用Scrapy创建高级爬虫。

本书读者对象

本书是为想要构建可靠的数据爬取解决方案的开发人员写作的,本书假定读者具有一定的Python编程经验。当然,具备其他编程语言开发经验的读者也可以阅读本书,并理解书中涉及的概念和原理。

[澳½ Richard Lawson 著
李斌 译
人民邮电出版社
图书在版编目(CI P)数据
用Python写½络爬虫/(澳大利亚)理查德·劳森
(Richard Lawson)著;李斌译. 一北京:人民邮电出
版社, 2016.9
ISBN 978-7-115-43179一0
I . ①用…II . ①理…②李…III. ①½件工具一程
序设计N. ①TP311. 56
中½版本图书馆CIP数据核宇(2016)第177976号
版权声明
Cop严ight
©
2 1 5 Packt Publishing. First published in the English language under the title Web Scraping with Python.
0
All
Rights Reserved.
本 书 由 英½ Packt Publishing公司授权人民邮电出版社出版 。 未经出版者书面许可, 对本书 的任½部 分 不
得 以任½方式或任½手段复制和传播 。
版权所 有 , 侵权必究 。
’ 著
[澳½ Richard Lawson
李 斌
责任编辑 傅道坤
责任印制 焦志炜
北京市丰台区成寿寺路II号
’ 人民邮电出版社出版发行
邮编
½址
100164
电子邮件 3l 5@ptpress.com.cn
http://www.ptpress.com.cn
三河市海波印务有 限公司印刷
’ 开本:
800x!OOO 1/16
印张: 10.75
字数z 148千字
印数z 1-3000册
2016年9月第l版
2016年9月河北第1次印刷
0
著½权合同登记号
图字:
0 1 -2 1 6 -396 2
读者服务热线: (010) 81055410 印装质量热线:(010) 81055316
反盗版热线:(010) 81055315
0
定价:
45. 0元
内 容提要
本 书 讲解 了 如 ½½用 P川lOil来编 写 ½ 络爬虫程序 , 内 容包括 ½ 络爬虫简
介 , 从 页 面 中 抓取 数 据 的 三 种 方法 , 提 取 缓存 中 的 数据 , ½用 多 个线 程 和 进
程来进行并发抓取 , 如½抓取动 态 页 面 中 的 内 容 , 与 表 单 进行交互 , 处理页
面 中 的 验证码 问 题, 以 及½用 Sca rpy 和 Portia 来进行数据抓取 , 并在最后½
用 本书 介 绍 的 数据抓取技术对几个真实 的 ½ 站进行 了 抓取 , 旨在 帮 助 读者活
学 活用 书 中 介绍 的 技术 。
本 书 适合有一定Python 编 程经验 , 而 且对爬虫技术感兴趣 的 读者阅读 。
欢迎加入非盈利Python编程学习交流QQ群783462347,群里免费提供500+本Python书籍!
关于½者
Richard
Lawson 来 自 澳大利 亚 , 毕 业于墨尔本大学计算机科学专业 。 毕
业后 , 他创办 了 一家专注于 ½ 络爬虫 的 公 司 , 为 超过 50 个 ½ 家 的业务提供远
程 工 ½ 。 他精通于世界语 , 可 以 ½用 汉语和韩语对话 , 并 且积极投 身 于 开源
½件 。 他 目 前在牛津大学 攻读研究生学½ , 并利 用 业½ 时 间 研 发 自 主无人机 。
我要感谢 Timothy Baldwin 教授将我引入这个令人兴奋的领域, 以及
本书编写时在巴黎招待我的ηiara 可 Douc。
展开预览

猜您喜欢

推荐帖子

评论

登录/注册

意见反馈

求资源

回顶部

推荐内容

热门活动

热门器件

随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
×