
网络爬虫全解析:技术、原理与实践 PDF 高清版
- 大小:440 MB
- 类型:网络爬虫
- 格式:PDF
- 热度:961
- 作者:罗刚
- 更新:2020-09-18 09:24:56

本站收集了一篇网络爬虫相关的资料,介绍了关于网络爬虫、技术、原理、实践方面,格式为PDF,资源大小440 MB,目前在网络爬虫类资源综合评分为:9.4分。
《网络爬虫全解析技术、原理与实践》 介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,《网络爬虫全解析技术、原理与实践》介绍了实现分布式网络爬虫的关键技术。 另外,《网络爬虫全解析技术、原理与实践》介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。 目录 第1章 技术基础 1 1.1 第一个程序 1 1.2 准备开发环境 2 1.2.1 JDK 2 1.2.2 Eclipse 3 1.3 类和对象 4 1.4 常量 5 1.5 命名规范 6 1.6 基本语法 6 1.7 条件判断 7 1.8 循环 8 1.9 数组 9 1.10 位运算 11 1.11 枚举类型 13 1.12 比较器 14 1.13 方法 14 1.14 集合类 15 1.14.1 动态数组 15 1.14.2 散列表 15 1.15 文件 19 1.15.1 文本文件 19 1.15.2 二进制文件 23 1.16 多线程 27 1.16.1 基本的多线程 28 1.16.2 线程池 30 1.17 折半查找 31 1.18 处理图片 34 1.19 本章小结 35 第2章 网络爬虫入门 36 2.1 获取信息 36 2.1.1 提取链接 37 2.1.2 采集新闻 37 2.2 各种网络爬虫 38 2.2.1 信息采集器 40 2.2.2 广度优先遍历 41 2.2.3 分布式爬虫 42 2.3 爬虫相关协议 43 2.3.1 网站地图 44 2.3.2 Robots协议 45 2.4 爬虫架构 48 2.4.1 基本架构 48 2.4.2 分布式爬虫架构 51 2.4.3 垂直爬虫架构 54 2.5 自己写网络爬虫 55 2.6 URL地址查新 57 2.6.1 嵌入式数据库 58 2.6.2 布隆过滤器 60 2.6.3 实现布隆过滤器 61 2.7 部署爬虫 63 2.7.1 部署到Windows 64 2.7.2 部署到Linux 64 2.8 本章小结 65 第3章 定向采集 69 3.1 下载网页的基本方法 69 3.1.1 网卡 70 3.1.2 下载网页 70 3.2 HTTP基础 75 3.2.1 协议 75 3.2.2 URI 77 3.2.3 DNS 84 3.3 使用HttpClient下载网页 84 3.3.1 HttpCore 94 3.3.2 状态码 98 3.3.3 创建 99 3.3.4 模拟浏览器 99 3.3.5 重试 100 3.3.6 抓取压缩的网页 102 3.3.7 HttpContext 104 3.3.8 下载中文网站 105 3.3.9 抓取需要登录的网页 106 3.3.10 代理 111 3.3.11 DNS缓存 112 3.3.12 并行下载 113 3.4 下载网络资源 115 3.4.1 重定向 115 3.4.2 解决套接字连接限制 118 3.4.3 下载图片 119 3.4.4 抓取视频 122 3.4.5 抓取FTP 122 3.4.6 网页更新 122 3.4.7 抓取限制应对方法 126 3.4.8 URL地址提取 131 3.4.9 解析URL地址 134 3.4.10 归一化 135 3.4.11 增量采集 135 3.4.12 iframe 136 3.4.13 抓取JavaScript动态页面 137 3.4.14 抓取即时信息 141 3.4.15 抓取暗网 141 3.5 PhantomJS 144 3.6 Selenium 145 3.7 信息过滤 146 3.7.1 匹配算法 147 3.7.2 分布式过滤 153 3.8 采集新闻 153 3.8.1 网页过滤器 154 3.8.2 列表页 159 3.8.3 用机器学习的方法抓取新闻 160 3.8.4 自动查找目录页 161 3.8.5 详细页 162 3.8.6 增量采集 164 3.8.7 处理图片 164 3.9 遍历信息 164 3.10 并行抓取 165 3.10.1 多线程爬虫 165 3.10.2 垂直搜索的多线程爬虫 168 3.10.3 异步IO 172 3.11 分布式爬虫 176 3.11.1 JGroups 176 3.11.2 监控 179 3.12 增量抓取 180 3.13 管理界面 180 3.14 本章小结 181 第4章 数据存储 182 4.1 存储提取内容 182 4.1.1 SQLite 183 4.1.2 Access数据库 185 4.1.3 MySQL 186 4.1.4 写入维基 187 4.2 HBase 187 4.3 Web图 189 4.4 本章小结 193 第5章 信息提取 194 5.1 从文本提取信息 194 5.2 从HTML文件中提取文本 195 5.2.1 字符集编码 195 5.2.2 识别网页的编码 198 5.2.3 网页编码转换为字符串编码 201 5.2.4 使用正则表达式提取数据 202 5.2.5 结构化信息提取 206 5.2.6 表格 209 5.2.7 网页的DOM结构 210 5.2.8 使用Jsoup提取信息 211 5.2.9 使用XPath提取信息 217 5.2.10 HTMLUnit提取数据 219 5.2.11 网页结构相似度计算 220 5.2.12 提取标题 222 5.2.13 提取日期 224 5.2.14 提取模板 225 5.2.15 提取RDF信息 227 5.2.16 网页解析器原理 227 5.3 RSS 229 5.3.1 Jsoup解析RSS 230 5.3.2 ROME 231 5.3.3 抓取流程 231 5.4 网页去噪 233 5.4.1 NekoHTML 234 5.4.2 Jsoup 238 5.4.3 提取正文 240 5.5 从非HTML文件中提取文本 241 5.5.1 PDF文件 242 5.5.2 Word文件 245 5.5.3 Rtf文件 247 5.5.4 Excel文件 253 5.5.5 PowerPoint文件 254 5.6 提取标题 254 5.6.1 提取标题的一般方法 255 5.6.2 从PDF文件中提取标题 259 5.6.3 从Word文件中提取标题 261 5.6.4 从Rtf文件中提取标题 261 5.6.5 从Excel文件中提取标题 267 5.6.6 从PowerPoint文件中提取标题 270 5.7 图
相关资源
-
Java程序设计教程与实训(第2版) 课后答案
《Java程序设计教程与实训》是1995年北京大学出版社出版的书籍,作者是许文宪、董子建。 本书按照基本够用、适当扩展的原则,前10章介绍Java的运行环境、语言基础、类、对象、数组、继承、多态、Java类库、异常处理、数据流、Java Applet、图形用户界面等内容,并在第11章提供若干典型实训项目,便于实践教学。本书以高职高专学生为主要对象,可以作为高职高专计算机类和信息管理类专业的专科教材,也可作为其他专业的选学教材。 目录 第1章 Jav
大小:1.22 MBJava课后答案
-
《基于Docker的Redis入门与实战》源代码,音视频
本书围绕高并发大数据的项目需求,全面讲述分布式缓存组件Redis的基本语法、核心技术和实战技能。 本书分为13章,第1~7章主要介绍Redis入门知识、Redis基本数据类型、Redis常用命令、Redis服务器和客户端实践技巧、Redis数据库操作技巧、Redis AOF和RDB持久化操作技巧、Redis集群的搭建方式,第8~11章主要介绍Redis同MySQL和MyCAT集群的整合技巧、Redis同lua的整合技巧等,第12、13章主要介绍Redis、Spring Boot和Spring Cloud如
大小:900 MBDocker配套资源
-
运筹学的原理和方法(第2版) 课后答案
在人类进入21世纪之际,随着我国现代化建设事业的蓬勃发展,管理现代化已是摆在我们面前的一项紧迫任务。 为满足广大从事经济管理的实际工作者学习现代化管理方法的需要,本书选编了在经济管理工作中常用的一些数学内容,主要有线性代数、概率论与数理统计、线性规划等。在介绍了一些必要的数学基本概念、基本原理之后,本书着重叙述了这些数学方法的计算步骤和应注意的问题,同时主要介绍了这些方法在经济管理工作中的应用。本书力求
大小:805 KB运筹学课后答案
-
实变函数论(第3版) 课后答案
《实变函数论(第3版)》第三版是作者经多年教学实践,吸收国内高等学校使用《实变函数论(第3版)》的教师的很多宝贵意见,在第二版基础上修订而成的。第三版保持了第二版的体系和特色,部分章节作了调整,增加了部分习题。为了体现科研中从特殊到一般,从具体到抽象的思维方式,在第三章测度理论中增加了一节开集的体积,对第三章原前三节的内容进行了整合,在外测度的引进方面作了适当的改变。此外,为了与第三章呼应,第四章可测函数的
大小:1.02 MB实变函数课后答案
-
《2020年全国计算机等级考试一本通:二级Access》电子资源
编辑推荐 1.直击考点,一本速通。 (1)本书将二级Access的无纸化考点讲解、经典真题分析、套题演练等融为一体,真正贯彻一本通的理念。 (2)分析、总结了上机试题的命题规律、考点,能帮助考生快速掌握上机考试的解题方法。 (3) 与真考题库同步更新,完全覆盖无纸化考试要点,命中率极高。 (4) 名师解析:本书的所有试题答案及解析均有名师编写,权威可信 。 2.书盘结合,通过无忧 (1)模拟考场:完全模拟真考环境,限时做题,自动评分
大小:61 MBAccess配套资源
-
Oracle11g官方文档中英对照PDF版 + Oracle 11g R2官方public最新文档chm版
Oracle 11R2文档 是一套Oracle11g官方帮助文档中英对照版,文档中准确描述了Oracle的体系结构、索引,详细全面的介绍,另外还包含Oracle 11R2的官方public最新文档chm版,需要的朋友可下载试试! 目录 第 1 章 Oracle 数据库简介 第一部分 Oracle 关系数据结构 第 2 章 表和表簇 第 3 章 索引和索引组织表 第 4 章 分区、 视图和其它模式对象 第 5 章 数据完整性 第 6 章 数据字典和动态性能视图 第二部分 Oracle 数据访问 第 7 章
大小:175 MBOracle11g
-
Visual Basic程序设计教程(第3版) 课后答案
本书主要内容包括:程序设计语言、算法与数据结构、多媒体及其应用开发、操作系统、计算机网络技术、关系数据库系统等软件基本知识点。 《计算机软件技术基础(第3版)》为面向21世纪课程教材,并获教育部高校科技进步一等奖;第二版被评为普通高等教育十五国家级规划教材。为软件技术入门教材,旨在集中讲授计算机软件的基础知识。涵盖的知识全面、精练、实用,反映了新概念、新工具、新方法和新的软件工程知识体系。配备有教学课件和
大小:867 KBVB课后答案
-
现代数值计算 课后答案
《现代数值计算》是2009年10月人民邮电出版社出版的图书,作者是同济大学计算数学教研室。本书内容涉及数值计算的基本内容,如函数插值与函数逼近、线性与非线性方程(组)的求解、数值积分与微分、矩阵的特征值与特征向量的计算、微分方程的近似数值解,还阐述了当今科学与工程研究中遇到的数值计算问题求解的新方法,如快速傅里叶变换、多重积分的蒙特卡罗方法、数值求导的稳定算法、大型线性方程组的分块迭代算法等;在介绍一些重要
大小:27.6 KB数值计算课后答案
下载地址
相关声明: