当前位置:首页 > 程序设计 >
《Python3爬虫、数据清洗与可视化实战》电子书封面

Python3爬虫、数据清洗与可视化实战

  • 发布时间:2019年05月09日 10:38:57
  • 作者:零一
  • 大小:232.8 MB
  • 类别:Python3电子书
  • 格式:PDF
  • 版本:含源码版
  • 评分:7.5

    Python3爬虫、数据清洗与可视化实战 PDF 含源码版

      给大家带来的一篇关于Python3相关的电子书资源,介绍了关于Python3、爬虫、数据清洗、可视化方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小232.8 MB,零一编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.8。

      内容介绍

      Python3爬虫、数据清洗与可视化实战

      Python3爬虫、数据清洗与可视化实战 电子书封面

      读者评价

      Python爬虫技术应用实战 从数据收集 数据分析到数据可视化、数据建模,很期待

      前面基础知识过于基础,然后进入到大型爬虫案例后的知识点过于跳跃,某些章节排版不是很好

      内容介绍

      本书是一本通过实战教初学者学习采集数据、清洗和组织数据进行分析及可视化的 Python 读物。书中案例均经过实战检验,笔者在实践过程中深感采集数据、清洗和组织数据的重要性,作为一名数据行业的“码农”,数据就是沃土,没有数据,我们将无田可耕。
      本书共分 11 章, 6 个核心主题:其一是 Python 基础入门,包括环境配置、基本操作、数据类型、语句和函数;其二是 Python 爬虫的构建,包括网页结构解析、爬虫流程设计、代码优化、效率优化、容错处理、 反防爬虫、 表单交互和模拟页面点击; 其三是 Python 数据库应用, 包括 MongoDB、 MySQL 在 Python中的连接与应用;其四是数据清洗和组织,包括 NumPy 数组知识、 pandas 数据的读写、分组变形、缺失值异常值处理、时序数据处理和正则表达式的使用;其五是综合应用案例,帮助读者贯穿爬虫、数据清洗与组织的过程;*后是数据可视化,包括 Matplotlib 和 Pyecharts 两个库的使用,涉及饼图、柱形图、线图、词云图、地图等图形,帮助读者进入可视化的殿堂。
      本书以实战为主,适合 Python 初学者及高等院校的相关专业学生,也适合 Python 培训机构作为实验教材使用。

      目录

      • 第 1 章 Python 基础 /1
      • 1.1 安装 Python 环境 /1
      • 1.1.1 Python 3.6.2 安装与配置 /1
      • 1.1.2 使用 IDE 工具——PyCharm /4
      • 1.1.3 使用 IDE 工具——Anaconda / 4
      • 1.2 Python 操作入门/6
      • 1.2.1 编写第一个 Python 代码/6
      • 1.2.2 Python 基本操作/9
      • 1.2.3 变量/10
      • 1.3 Python 数据类型/10
      • 1.3.1 数字/10
      • 1.3.2 字符串/11
      • 1.3.3 列表/13
      • 1.3.4 元组/14
      • 1.3.5 集合/15
      • 1.3.6 字典/15
      • 1.4 Python 语句与函数/16
      • 1.4.1 条件语句/16
      • 1.4.2 循环语句/16
      • 1.4.3 函数/17
      • 第 2 章 写一个简单的爬虫/18
      • 2.1 关于爬虫的合法性/18
      • 2.2 了解网页/20
      • 2.2.1 认识网页结构/ 21
      • 2.2.2 写一个简单的 HTML/21
      • 2.3 使用 requests 库请求网站/23
      • 2.3.1 安装requests 库/23
      • 2.3.2 爬虫的基本原理/25
      • 2.3.3 使用 GET 方式抓取数据/26
      • 2.3.4 使用 POST 方式抓取数据/27
      • 2.4 使用 Beautiful Soup 解析网页/30
      • 2.5 清洗和组织数据/34
      • 2.6 爬虫攻防战/35
      • 第 3 章用 API 爬取天气预报数据/38
      • 3.1 注册免费 API 和阅读技术文档/38
      • 3.2 获取 API 数据/40
      • 3.3 存储数据到 MongoDB /45
      • 3.3.1 下载并安装 MongoDB/ 45
      • 3.3.2 在 PyCharm 中安装 MongoPlugin/ 46
      • 3.3.3 将数据存入 MongoDB/49
      • 3.4 MongoDB 数据库查询/52
      • 第 4 章大型爬虫案例:抓取某电商网站的商品数据/55
      • 4.1 观察页面特征和解析数据/55
      • 4.2 工作流程分析/64
      • 4.3 构建类目树/65
      • 4.4 获取产品列表/ 68
      • 4.5 代码优化/70
      • 4.6 爬虫效率优化/74
      • 4.7 容错处理/77
      • 第 5 章 Scrapy 爬虫/78
      • 5.1 Scrapy 简介/78
      • 5.2 Scrapy 安装/79
      • 5.3 案例:用 Scrapy 抓取股票行情/ 80
      • 第 6 章 Selenium 爬虫/88
      • 6.1 Selenium 简介/88
      • 6.2 案例:用 Selenium 抓取电商网站数据/90
      •  
      • 第 7 章数据库连接和查询/100
      • 7.1 使用 PyMySQL/100
      • 7.1.1 连接数据库/100
      • 7.1.2 案例:某电商网站女装行业 TOP100 销量数据/102
      • 7.2 使用 SQLAlchemy/104
      • 7.2.1 SQLAlchemy 基本介绍/104
      • 7.2.2 SQLAlchemy 基本语法/105
      • 7.3 MongoDB/107
      • 7.3.1 MongoDB 基本语法/107
      • 7.3.2 案例:在某电商网站搜索“连衣裙”的商品数据/107
      • 第 8 章 NumPy/109
      • 8.1 NumPy 简介/109
      • 8.2 一维数组/110
      • 8.2.1 数组与列表的异同/110
      • 8.2.2 数组的创建/111
      • 8.3 多维数组/111
      • 8.3.1 多维数组的高效性能/112
      • 8.3.2 多维数组的索引与切片/113
      • 8.3.3 多维数组的属性/113
      • 8.4 数组的运算/115
      • 第 9 章 pandas 数据清洗/117
      • 9.1 数据读写、选择、整理和描述/117
      • 9.1.1 从 CSV 中读取数据/119
      • 9.1.2 向 CSV 写入数据/120
      • 9.1.3 数据选择/120
      • 9.1.4 数据整理/122
      • 9.1.5 数据描述/123
      • 9.2 数据分组、分割、合并和变形/124
      • 9.2.1 数据分组/124
      • 9.2.2 数据分割/127
      • 9.2.3 数据合并/128
      • 9.2.4 数据变形/134
      • 9.2.5 案例:旅游数据的分析与变形/136
      • 9.3 缺失值、异常值和重复值处理/140
      • 9.3.1 缺失值处理/140
      • 9.3.2 检测和过滤异常值/144
      • 9.3.3 移除重复数据/147
      • 9.3.4 案例:旅游数据的值检查与处理/149
      • 9.4 时序数据处理/152
      • 9.4.1 日期/时间数据转换/152
      • 9.4.2 时序数据基础操作/153
      • 9.4.3 案例:天气数据分析与处理/155
      • 9.5 数据类型转换/158
      • 9.6 正则表达式/ 160
      • 9.6.1 元字符与限定符/161
      • 9.6.2 案例:用正则表达式提取网页文本信息/162
      • 第 10 章综合应用实例/164
      • 10.1 按性价比给用户推荐旅游产品/164
      • 10.1.1 数据采集/165
      • 10.1.2 数据清洗、建模/169
      • 10.2 通过热力图分析为用户提供出行建议/172
      • 10.2.1 某旅游网站热门景点爬虫代码(qunaer_sights.py)/175
      • 10.2.2 提取 CSV 文件中经纬度和销量信息/178
      • 10.2.3 创建景点门票销量热力地图 HTML 文件/179
      • 第 11 章数据可视化/182
      • 11.1 matplotlib/183
      • 11.1.1 画出各省份平均价格、各省份平均成交量柱状图/183
      • 11.1.2 画出各省份平均成交量折线图、柱状图、箱形图和饼图/184
      • 11.1.3 画出价格与成交量的散点图/185
      • 11.2 pyecharts/186
      • 11.2.1 Echarts 简介/186
      • 11.2.2 pyecharts 简介/187
      • 11.2.3 初识 pyecharts,玫瑰相送/187
      • 11.2.4 pyecharts 基本语法/188
      • 11.2.5 基于商业分析的 pyecharts 图表绘制/190
      • 11.2.6 使用 pyecharts 绘制其他图表/199
      • 11.2.7 pyecharts 和 Jupyter/203

      以上就是本次介绍的Python3电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:PHP5权威编程

      下一篇:DevOps实践指南

      展开 +

      收起 -

      • 《Python3爬虫、数据清洗与可视化实战》PDF下载

      Python3相关电子书
      Python3.7从零开始学
      Python3.7从零开始学 全书影印版

      本书专门针对Python新手量身定做,是编者学习和使用Python开发过程中的体会和经验总结,涵盖实际开发中重要的知识点,内容详尽,代码可读性及可操作性强。

      立即下载
      Python3程序开发指南
      Python3程序开发指南 中文第2版

      本书全面深入地讲解了Python语言,讲述了构成Python语言的8个关键要素,包含数据类型、控制结构与函数、模块、正则表达式、GUI程序设计等各个方面

      立即下载
      Python3.6零基础入门与实战
      Python3.6零基础入门与实战 带源码视频版

      这是一本Python 3.6入门教材,包括内容包括开发环境、数据结构、函数、面向对象、多线程等,内容详尽、示例丰富,特别适合广大Python入门读者和Python开发人员阅读

      立即下载
      Python3网络爬虫开发实战
      Python3网络爬虫开发实战 超清影印版

      本书教你学会如何用Python 3开发爬虫,通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式爬虫等

      立即下载
      Python3面向对象编程
      Python3面向对象编程 全书英文版

      本书讲解了类、数据封装、继承、多态、抽象和异常,更新了大量的内容,以反映出近来核心Python库的变化,帮助读者能够深入学习如何正确地使用Python面向对象编程技术来设计软件

      立即下载
      Python数据可视化
      Python数据可视化 影印中文版

      本书介绍了利用Python实现数据可视化。并介绍了数据、信息与知识之间的关系,想要学习Python数据可视化的同学可以下载参考一下

      立即下载
      读者留言
      网友NO.26334
      网友NO.26334

      我是从python3开始做爬虫的,首先,python3的语法必须知道,不过python3并不难,语法也非常简洁。但是,写着发现有个毛病,就是比如一个形参,由于不确定类型,.无法像java那样补全,导致你如果忘了一个函数,必须查看代码或手册。。。不过这也是动态语言都有的问题,但好的IDE会帮你记录,所以使用好的编译器很有必要。。哈哈。
      然后是学习python的各种库,为了打好基础,从基础的库开始学习会比较好,比如urlib,然后学习requests,这种是用来发请求的。返回的数据又是各种各样的类型,有html,js,json,字符串等,针对每种格式,当然都需要合适的解析器,当然,正则都能做。。。这里,解析html用到xpath,beautifulsoup,pyquery等库,js代码需要js引擎来运行和分析,例如nodejs,v8,json的解析要用到json库,字符串就看具体情况了。
      做完这些,基本上可以开始爬取一些数据了。。。但是,如果爬虫真的就这么简单的话,,那就好了哈
      然后你会想提高爬取的速度,你了解到requests库是同步请求,也就是从发出请求到收到响应,线程一直在等,你当然啊会想到多线程,但python单进程只能跑满一个核。。。并且多线程也没那么好写吧,同步控制,分配任务也需要挺多事的。所以,从python3.5开始,新增了一个aiohttp--异步请求库,它可以发送一批请求,以事件驱动,根据回调函数来实现单线程异步。或许你会觉得这还是不够方便,开始使用爬虫框架,例如scrapy,这下速度突飞猛进,瓶颈在带宽或io上了!

      网友NO.48422
      网友NO.48422

      由于我是采用python3.6开发的,然后从上文的介绍中,也该知道了一只爬虫是需要从HTML中提取内容,以及需要和网页做交互等。
      如果不采用爬虫框架的话,我建议采用:
      BeautifulSoup 库 ,一款优秀的HTML/XML解析库,采用来做爬虫,
      不用考虑编码,还有中日韩文的文档,其社区活跃度之高,可见一斑。
      [注] 这个在解析的时候需要一个解析器,在文档中可以看到,推荐lxml
      Requests 库,一款比较好用的HTTP库,当然python自带有urllib以及urllib2等库,
      但用起来是绝对没有这款舒服的,哈哈
      Fiddler. 工具,这是一个HTTP抓包软件,能够截获所有的HTTP通讯。
      如果爬虫运行不了,可以从这里寻找答案,官方链接可能进不去,可以直接百度下载
      爬虫的辅助开发工具还有很多,比如Postman等,这里只用到了这三个,相信有了这些能减少不少开发阻碍。

      码农之家

      码农之家 提供上传

      资源
      48
      粉丝
      12
      喜欢
      312
      评论
      4

      Copyright 2018-2020 xz577.com 码农之家

      本站所有电子书资源不再提供下载地址,只分享来路

      版权投诉 / 书籍推广 / 赞助:QQ:520161757