/
写
[澳½ Richard Lawson 著
李斌 译
人民邮电出版社
北
京
图书在版编目(CI P)数据
用Python写½络爬虫/(澳大利亚)理查德·劳森
(Richard Lawson)著;李斌译. 一北京:人民邮电出
版社, 2016.9
ISBN 978-7-115-43179一0
I . ①用…II . ①理…②李…III. ①½件工具一程
序设计N. ①TP311. 56
中½版本图书馆CIP数据核宇(2016)第177976号
版权声明
Cop严ight
©
2 1 5 Packt Publishing. First published in the English language under the title Web Scraping with Python.
0
All
Rights Reserved.
本 书 由 英½ Packt Publishing公司授权人民邮电出版社出版 。 未经出版者书面许可, 对本书 的任½部 分 不
得 以任½方式或任½手段复制和传播 。
版权所 有 , 侵权必究 。
’ 著
[澳½ Richard Lawson
译
李 斌
责任编辑 傅道坤
责任印制 焦志炜
北京市丰台区成寿寺路II号
’ 人民邮电出版社出版发行
邮编
½址
100164
电子邮件 3l 5@ptpress.com.cn
http://www.ptpress.com.cn
三河市海波印务有 限公司印刷
’ 开本:
800x!OOO 1/16
印张: 10.75
字数z 148千字
印数z 1-3000册
2016年9月第l版
2016年9月河北第1次印刷
0
号
著½权合同登记号
图字:
0 1 -2 1 6 -396 2
读者服务热线: (010) 81055410 印装质量热线:(010) 81055316
反盗版热线:(010) 81055315
0
定价:
45. 0元
内 容提要
本 书 讲解 了 如 ½½用 P川lOil来编 写 ½ 络爬虫程序 , 内 容包括 ½ 络爬虫简
介 , 从 页 面 中 抓取 数 据 的 三 种 方法 , 提 取 缓存 中 的 数据 , ½用 多 个线 程 和 进
程来进行并发抓取 , 如½抓取动 态 页 面 中 的 内 容 , 与 表 单 进行交互 , 处理页
面 中 的 验证码 问 题, 以 及½用 Sca rpy 和 Portia 来进行数据抓取 , 并在最后½
用 本书 介 绍 的 数据抓取技术对几个真实 的 ½ 站进行 了 抓取 , 旨在 帮 助 读者活
学 活用 书 中 介绍 的 技术 。
本 书 适合有一定Python 编 程经验 , 而 且对爬虫技术感兴趣 的 读者阅读 。
欢迎加入非盈利Python编程学习交流QQ群783462347,群里免费提供500+本Python书籍!
关于½者
Richard
Lawson 来 自 澳大利 亚 , 毕 业于墨尔本大学计算机科学专业 。 毕
业后 , 他创办 了 一家专注于 ½ 络爬虫 的 公 司 , 为 超过 50 个 ½ 家 的业务提供远
程 工 ½ 。 他精通于世界语 , 可 以 ½用 汉语和韩语对话 , 并 且积极投 身 于 开源
½件 。 他 目 前在牛津大学 攻读研究生学½ , 并利 用 业½ 时 间 研 发 自 主无人机 。
我要感谢 Timothy Baldwin 教授将我引入这个令人兴奋的领域, 以及
本书编写时在巴黎招待我的ηiara 可 Douc。
评论