当前位置:首页 > 其它 >
《网络爬虫全解析:技术、原理与实践》电子书封面

网络爬虫全解析:技术、原理与实践

  • 发布时间:2020年09月18日 09:24:56
  • 作者:罗刚
  • 大小:440 MB
  • 类别:网络爬虫电子书
  • 格式:PDF
  • 版本:高清版
  • 评分:9.7

    网络爬虫全解析:技术、原理与实践 PDF 高清版

      给大家带来的一篇关于网络爬虫相关的电子书资源,介绍了关于网络爬虫、技术、原理、实践方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小440 MB,罗刚编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.5。

      内容介绍

      《网络爬虫全解析——技术、原理与实践》介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,《网络爬虫全解析——技术、原理与实践》介绍了实现分布式网络爬虫的关键技术。

      另外,《网络爬虫全解析——技术、原理与实践》介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。

      目录

      • 第1章 技术基础 1
      • 1.1 第一个程序 1
      • 1.2 准备开发环境 2
      • 1.2.1 JDK 2
      • 1.2.2 Eclipse 3
      • 1.3 类和对象 4
      • 1.4 常量 5
      • 1.5 命名规范 6
      • 1.6 基本语法 6
      • 1.7 条件判断 7
      • 1.8 循环 8
      • 1.9 数组 9
      • 1.10 位运算 11
      • 1.11 枚举类型 13
      • 1.12 比较器 14
      • 1.13 方法 14
      • 1.14 集合类 15
      • 1.14.1 动态数组 15
      • 1.14.2 散列表 15
      • 1.15 文件 19
      • 1.15.1 文本文件 19
      • 1.15.2 二进制文件 23
      • 1.16 多线程 27
      • 1.16.1 基本的多线程 28
      • 1.16.2 线程池 30
      • 1.17 折半查找 31
      • 1.18 处理图片 34
      • 1.19 本章小结 35
      • 第2章 网络爬虫入门 36
      • 2.1 获取信息 36
      • 2.1.1 提取链接 37
      • 2.1.2 采集新闻 37
      • 2.2 各种网络爬虫 38
      • 2.2.1 信息采集器 40
      • 2.2.2 广度优先遍历 41
      • 2.2.3 分布式爬虫 42
      • 2.3 爬虫相关协议 43
      • 2.3.1 网站地图 44
      • 2.3.2 Robots协议 45
      • 2.4 爬虫架构 48
      • 2.4.1 基本架构 48
      • 2.4.2 分布式爬虫架构 51
      • 2.4.3 垂直爬虫架构 54
      • 2.5 自己写网络爬虫 55
      • 2.6 URL地址查新 57
      • 2.6.1 嵌入式数据库 58
      • 2.6.2 布隆过滤器 60
      • 2.6.3 实现布隆过滤器 61
      • 2.7 部署爬虫 63
      • 2.7.1 部署到Windows 64
      • 2.7.2 部署到Linux 64
      • 2.8 本章小结 65
      • 第3章 定向采集 69
      • 3.1 下载网页的基本方法 69
      • 3.1.1 网卡 70
      • 3.1.2 下载网页 70
      • 3.2 HTTP基础 75
      • 3.2.1 协议 75
      • 3.2.2 URI 77
      • 3.2.3 DNS 84
      • 3.3 使用HttpClient下载网页 84
      • 3.3.1 HttpCore 94
      • 3.3.2 状态码 98
      • 3.3.3 创建 99
      • 3.3.4 模拟浏览器 99
      • 3.3.5 重试 100
      • 3.3.6 抓取压缩的网页 102
      • 3.3.7 HttpContext 104
      • 3.3.8 下载中文网站 105
      • 3.3.9 抓取需要登录的网页 106
      • 3.3.10 代理 111
      • 3.3.11 DNS缓存 112
      • 3.3.12 并行下载 113
      • 3.4 下载网络资源 115
      • 3.4.1 重定向 115
      • 3.4.2 解决套接字连接限制 118
      • 3.4.3 下载图片 119
      • 3.4.4 抓取视频 122
      • 3.4.5 抓取FTP 122
      • 3.4.6 网页更新 122
      • 3.4.7 抓取限制应对方法 126
      • 3.4.8 URL地址提取 131
      • 3.4.9 解析URL地址 134
      • 3.4.10 归一化 135
      • 3.4.11 增量采集 135
      • 3.4.12 iframe 136
      • 3.4.13 抓取JavaScript动态页面 137
      • 3.4.14 抓取即时信息 141
      • 3.4.15 抓取暗网 141
      • 3.5 PhantomJS 144
      • 3.6 Selenium 145
      • 3.7 信息过滤 146
      • 3.7.1 匹配算法 147
      • 3.7.2 分布式过滤 153
      • 3.8 采集新闻 153
      • 3.8.1 网页过滤器 154
      • 3.8.2 列表页 159
      • 3.8.3 用机器学习的方法抓取新闻 160
      • 3.8.4 自动查找目录页 161
      • 3.8.5 详细页 162
      • 3.8.6 增量采集 164
      • 3.8.7 处理图片 164
      • 3.9 遍历信息 164
      • 3.10 并行抓取 165
      • 3.10.1 多线程爬虫 165
      • 3.10.2 垂直搜索的多线程爬虫 168
      • 3.10.3 异步IO 172
      • 3.11 分布式爬虫 176
      • 3.11.1 JGroups 176
      • 3.11.2 监控 179
      • 3.12 增量抓取 180
      • 3.13 管理界面 180
      • 3.14 本章小结 181
      • 第4章 数据存储 182
      • 4.1 存储提取内容 182
      • 4.1.1 SQLite 183
      • 4.1.2 Access数据库 185
      • 4.1.3 MySQL 186
      • 4.1.4 写入维基 187
      • 4.2 HBase 187
      • 4.3 Web图 189
      • 4.4 本章小结 193
      • 第5章 信息提取 194
      • 5.1 从文本提取信息 194
      • 5.2 从HTML文件中提取文本 195
      • 5.2.1 字符集编码 195
      • 5.2.2 识别网页的编码 198
      • 5.2.3 网页编码转换为字符串编码 201
      • 5.2.4 使用正则表达式提取数据 202
      • 5.2.5 结构化信息提取 206
      • 5.2.6 表格 209
      • 5.2.7 网页的DOM结构 210
      • 5.2.8 使用Jsoup提取信息 211
      • 5.2.9 使用XPath提取信息 217
      • 5.2.10 HTMLUnit提取数据 219
      • 5.2.11 网页结构相似度计算 220
      • 5.2.12 提取标题 222
      • 5.2.13 提取日期 224
      • 5.2.14 提取模板 225
      • 5.2.15 提取RDF信息 227
      • 5.2.16 网页解析器原理 227
      • 5.3 RSS 229
      • 5.3.1 Jsoup解析RSS 230
      • 5.3.2 ROME 231
      • 5.3.3 抓取流程 231
      • 5.4 网页去噪 233
      • 5.4.1 NekoHTML 234
      • 5.4.2 Jsoup 238
      • 5.4.3 提取正文 240
      • 5.5 从非HTML文件中提取文本 241
      • 5.5.1 PDF文件 242
      • 5.5.2 Word文件 245
      • 5.5.3 Rtf文件 247
      • 5.5.4 Excel文件 253
      • 5.5.5 PowerPoint文件 254
      • 5.6 提取标题 254
      • 5.6.1 提取标题的一般方法 255
      • 5.6.2 从PDF文件中提取标题 259
      • 5.6.3 从Word文件中提取标题 261
      • 5.6.4 从Rtf文件中提取标题 261
      • 5.6.5 从Excel文件中提取标题 267
      • 5.6.6 从PowerPoint文件中提取标题 270
      • 5.7 图像的OCR识别 270
      • 5.7.1 读入图像 271
      • 5.7.2 准备训练集 272
      • 5.7.3 图像二值化 274
      • 5.7.4 切分图像 279
      • 5.7.5 SVM分类 283
      • 5.7.6 识别汉字 287
      • 5.7.7 训练OCR 289
      • 5.7.8 检测行 290
      • 5.7.9 识别验证码 291
      • 5.7.10 JavaOCR 292
      • 5.8 提取地域信息 292
      • 5.8.1 IP地址 293
      • 5.8.2 手机 315
      • 5.9 提取新闻 316
      • 5.10 流媒体内容提取 317
      • 5.10.1 音频流内容提取 317
      • 5.10.2 视频流内容提取 321
      • 5.11 内容纠错 322
      • 5.11.1 模糊匹配问题 325
      • 5.11.2 英文拼写检查 331
      • 5.11.3 中文拼写检查 333
      • 5.12 术语 336
      • 5.13 本章小结 336
      • 第6章 Crawler4j 338
      • 6.1 使用Crawler4j 338
      • 6.1.1 大众点评 339
      • 6.1.2 日志 342
      • 6.2 crawler4j原理 342
      • 6.2.1 代码分析 343
      • 6.2.2 使用Berkeley DB 344
      • 6.2.3 缩短URL地址 347
      • 6.2.4 网页编码 349
      • 6.2.5 并发 349
      • 6.3 本章小结 352
      • 第7章 网页排重 353
      • 7.1 语义指纹 354
      • 7.2 SimHash 357
      • 7.3 分布式文档排重 367
      • 7.4 本章小结 369
      • 第8章 网页分类 370
      • 8.1 关键词加权法 371
      • 8.2 机器学习的分类方法 378
      • 8.2.1 特征提取 380
      • 8.2.2 朴素贝叶斯 384
      • 8.2.3 支持向量机 393
      • 8.2.4 多级分类 401
      • 8.2.5 网页分类 403
      • 8.3 本章小结 403
      • 第9章 案例分析 404
      • 9.1 金融爬虫 404
      • 9.1.1 中国能源政策数据 404
      • 9.1.2 世界原油现货交易和期货交易数据 405
      • 9.1.3 股票数据 405
      • 9.1.4 从PDF文件中提取表格 408
      • 9.2 商品搜索 408
      • 9.2.1 遍历商品 410
      • 9.2.2 使用HttpClient 415
      • 9.2.3 提取价格 416
      • 9.2.4 水印 419
      • 9.2.5 数据导入ECShop 420
      • 9.2.6 采集淘宝 423
      • 9.3 自动化行业采集 424
      • 9.4 社会化信息采集 424
      • 9.5 微博爬虫 424
      • 9.6 微信爬虫 426
      • 9.7 海关数据 426
      • 9.8 医药数据 427
      • 9.9 本章小结 429
      • 后记 430

      学习笔记

      Python网络爬虫之爬取微博热搜

      微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hotwvr=6 1.分析网页的源代码:右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在 td class="td-02" 的子节点a里 (2)热搜的排名都在 td class=td-01 ranktop 的里(注意置顶微博是没有排名的!) (3)热搜的访问量都在 td class="td-02" 的子节点span里 2.requests获取网页 (1)先设置url地址,然后模拟浏览器(这一步可以不用)防止被认出是爬虫程序。 ###网址url="https://s.weibo.com/top/summary?Refer=top_hotwvr=6"###模拟浏览器,这个请求头windows下都能用header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ……

      Python实现可获取网易页面所有文本信息的网易网络爬虫功能示例

      本文实例讲述了Python实现可获取网易页面所有文本信息的网易网络爬虫功能。分享给大家供大家参考,具体如下: #coding=utf-8#---------------------------------------# 程序:网易爬虫# 作者:ewang# 日期:2016-7-6# 语言:Python 2.7# 功能:获取网易页面中的文本信息并保存到TXT文件中。#---------------------------------------import stringimport urllib2import reimport osclass WangYi_Spider: #申明相关属性 def __init__(self): #给wangyiUrl属性赋值 self.wangyiUrl="http://www.163.com/" #用来保存页面中文字信息 self.pageinfor=[] print u'已经启动网易爬虫,爬爬...' #初始化加载页面并将其转码存储 def wangyi(self): #读取页面的原始信息并将其从gbk转码 Page=urllib2.urlopen(se……

      以上就是本次介绍的网络爬虫电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:SQL经典实例(SQL Cookbook)

      下一篇:Android创意实例详解

      展开 +

      收起 -

      下载地址:百度网盘下载
      读者留言
      严弘文

      严弘文 提供上传

      资源
      17
      粉丝
      43
      喜欢
      170
      评论
      7

      Copyright 2018-2020 www.xz577.com 码农之家

      版权投诉 / 书籍推广 / 赞助:520161757@qq.com