当前位置：主页 > 计算机电子书 > Python > Python3实战电子书下载

Python3爬虫、数据清洗与可视化实战（含源码）

更新：2024-03-20
大小：232.8 MB
类别：Python3实战
作者：零一
出版：电子工业出版社
版本：PDF 高清版

资源介绍
相关推荐

这本《Python3爬虫、数据清洗与可视化实战》是一本非常实用的Python读物，它以Python爬虫技术应用实战为主题，适合初学者和高等院校的相关专业学生学习，通过这本书，读者可以学习如何使用Python进行数据采集，并且学习如何清洗和组织这些数据，以便进行进一步的数据分析和可视化处理，这本书的实战案例非常丰富，让初学者能够直接应用所学知识解决实际问题，这本书内容丰富，结构清晰，对于想要学习Python爬虫、数据清洗和可视化的读者来说是一本非常不错的学习资源。

Python3爬虫、数据清洗与可视化实战

Python3爬虫、数据清洗与可视化实战电子书封面

读者评价

Python爬虫技术应用实战从数据收集数据分析到数据可视化、数据建模，很期待

前面基础知识过于基础，然后进入到大型爬虫案例后的知识点过于跳跃，某些章节排版不是很好

内容介绍

本书是一本通过实战教初学者学习采集数据、清洗和组织数据进行分析及可视化的 Python 读物。书中案例均经过实战检验，笔者在实践过程中深感采集数据、清洗和组织数据的重要性，作为一名数据行业的“码农”，数据就是沃土，没有数据，我们将无田可耕。

本书共分 11 章， 6 个核心主题：其一是 Python 基础入门，包括环境配置、基本操作、数据类型、语句和函数；其二是 Python 爬虫的构建，包括网页结构解析、爬虫流程设计、代码优化、效率优化、容错处理、反防爬虫、表单交互和模拟页面点击；其三是 Python 数据库应用，包括 MongoDB、 MySQL 在 Python中的连接与应用；其四是数据清洗和组织，包括 NumPy 数组知识、 pandas 数据的读写、分组变形、缺失值异常值处理、时序数据处理和正则表达式的使用；其五是综合应用案例，帮助读者贯穿爬虫、数据清洗与组织的过程；*后是数据可视化，包括 Matplotlib 和 Pyecharts 两个库的使用，涉及饼图、柱形图、线图、词云图、地图等图形，帮助读者进入可视化的殿堂。

本书以实战为主，适合 Python 初学者及高等院校的相关专业学生，也适合 Python 培训机构作为实验教材使用。

第 1 章 Python 基础 /1
第 2 章写一个简单的爬虫/18
第 3 章用 API 爬取天气预报数据/38
第 4 章大型爬虫案例：抓取某电商网站的商品数据/55
第 5 章 Scrapy 爬虫/78
第 6 章 Selenium 爬虫/88
第 7 章数据库连接和查询/100
第 8 章 NumPy/109
第 9 章 pandas 数据清洗/117
第 10 章综合应用实例/164
第 11 章数据可视化/182

资源获取

高速下载

网友留言

厉欣然 2019-05-09 10:40:45

我是从python3开始做爬虫的，首先，python3的语法必须知道，不过python3并不难，语法也非常简洁。但是，写着发现有个毛病，就是比如一个形参，由于不确定类型，.无法像java那样补全，导致你如果忘了一个函数，必须查看代码或手册。。。不过这也是动态语言都有的问题，但好的IDE会帮你记录，所以使用好的编译器很有必要。。哈哈。然后是学习python的各种库，为了打好基础，从基础的库开始学习会比较好，比如urlib，然后学习requests，这种是用来发请求的。返回的数据又是各种各样的类型，有html，js，json，字符串等，针对每种格式，当然都需要合适的解析器，当然，正则都能做。。。这里，解析html用到xpath，beautifulsoup，pyquery等库，js代码需要js引擎来运行和分析，例如nodejs，v8，json的解析要用到json库，字符串就看具体情况了。做完这些，基本上可以开始爬取一些数据了。。。但是，如果爬虫真的就这么简单的话，，那就好了哈然后你会想提高爬取的速度，你了解到requests库是同步请求，也就是从发出请求到收到响应，线程一直在等，你当然啊会想到多线程，但python单进程只能跑满一个核。。。并且多线程也没那么好写吧，同步控制，分配任务也需要挺多事的。所以，从python3.5开始，新增了一个aiohttp--异步请求库，它可以发送一批请求，以事件驱动，根据回调函数来实现单线程异步。或许你会觉得这还是不够方便，开始使用爬虫框架，例如scrapy，这下速度突飞猛进，瓶颈在带宽或io上了！

何英哲 2019-05-09 10:39:58

由于我是采用python3.6开发的，然后从上文的介绍中，也该知道了一只爬虫是需要从HTML中提取内容，以及需要和网页做交互等。如果不采用爬虫框架的话，我建议采用: BeautifulSoup 库，一款优秀的HTML/XML解析库，采用来做爬虫，不用考虑编码，还有中日韩文的文档，其社区活跃度之高，可见一斑。 [注] 这个在解析的时候需要一个解析器，在文档中可以看到，推荐lxml Requests 库，一款比较好用的HTTP库，当然python自带有urllib以及urllib2等库，但用起来是绝对没有这款舒服的，哈哈 Fiddler. 工具，这是一个HTTP抓包软件，能够截获所有的HTTP通讯。如果爬虫运行不了，可以从这里寻找答案，官方链接可能进不去，可以直接百度下载爬虫的辅助开发工具还有很多，比如Postman等，这里只用到了这三个，相信有了这些能减少不少开发阻碍。