当前位置:首页 > 大数据分析 >
《Python数据分析基础》电子书封面

Python数据分析基础

  • 发布时间:2020年11月24日 16:20:52
  • 作者:克林顿·布朗利
  • 大小:11.3M
  • 类别:Python电子书
  • 格式:PDF
  • 版本:中文超清版
  • 评分:8.1

    Python数据分析基础 PDF 中文超清版

      给大家带来的一篇关于Python相关的电子书资源,介绍了关于Python数据、数据分析、Python方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小11.3M,克林顿·布朗利编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.7分

      Tags:python 数据分析 Python数据 

      内容介绍

      Python数据分析基础

      Python数据分析基础电子书封面

      读者评价

      适合数据分析新手,但需要掌握一定的python语法基础才可以。不然因为作者很粗心,文中有很多小bug。比如,明明说是python3编程,但书中很多代码print没加括号。。。另外,明明是讲解pandas的,但是里面涉及的新函数,语法讲解不清,或者根本就不给介绍。读者要么就得囫囵吞枣,要么就得一遍读,一遍查阅资料才可以。。不然真会把你搞晕。。 唯一的好处就是书中代码都是一遍基础python编,一遍pandas编,让你能明显体会到pandas的好处。这三星是给思路的。 但是作者的责任心真是“呵呵哒。”

      可以作为python数据分析入门的第一本书,书中主要讲了csv和excel文件的导入处理,基础内容

      想深入应用手中的数据?还是想在上千份文件上重复同样的分析过程?没有编程经验的非程序员们如何能在最短的时间内学会用当今炙手可热的Python语言进行数据分析?

      来自Facebook的数据专家Clinton Brownley可以帮您解决上述问题。在他的这本书里,读者将能掌握基本Python编程方法,学会编写出处理电子表格和数据库中的数据的脚本,并了解使用Python模块来解析文件、分组数据和生成统计量的方法。学习基础语法,创建并运行自己的Python脚本,读取和解析CSV文件,读取多个Excel工作表和工作簿,执行数据库操作,搜索特定记录、分组数据和解析文本文件,建立统计图并绘图,生成描述性统计量并估计回归模型和分类模型,在Windows和Mac环境下按计划自动运行脚本。

      第一章说实话对于零基础的人来说容易被吓到,成功的从入门到放弃,可以跳过第一章,书内容不错,但是并没有一种循序渐进的感觉。

      专业评价

      “这本书对于那些使用数据的Python新手来说,是非常有用的学习资源。它的教学风格和附带的例子会帮助用户尽快熟悉Python语言、编程环境和Python生态系统中zui常用的几个软件包。” ——Wes McKinney,pandas库之父

      想深入应用手中的数据?还是想在上千份文件上重复同样的分析过程?没有编程经验的非程序员们如何能在zui短的时间内学会用当今炙手可热的Python语言进行数据分析? 

      来自Facebook的数据专家Clinton Brownley可以帮您解决上述问题。在他的这本书里,读者将能掌握基本Python编程方法,学会编写出处理电子表格和数据库中的数据的脚本,并了解使用Python模块来解析文件、分组数据和生成统计量的方法。 

      - 学习基础语法,创建并运行自己的Python脚本 

      - 读取和解析CSV文件 

      - 读取多个Excel工作表和工作簿 

      - 执行数据库操作 

      - 搜索特定记录、分组数据和解析文本文件 

      - 建立统计图并绘图 

      - 生成描述性统计量并估计回归模型和分类模型 

      - 在Windows和Mac环境下按计划自动运行脚本

      内容介绍

      本书展示如何用Python程序将不同格式的数据处理和分析任务规模化和自动化。主要内容包括:Python基础知识介绍、CSV文件和Excel文件读写、数据库的操作、示例程序演示、图表的创建,等等。

      内容精选

      很多关于Python 的图书和在线教程都展示了如何在Python shell 中运行代码。要以这种形式运行Python 代码,需要先打开一个命令行窗口(Windows 系统)或终端窗口(macOS 系统),输入“python”,按回车键之后会看见Python 提示符(就是>>>)。然后,只需一个一个地输入命令,Python 就会依次执行。

      >>> 4 + 5 9 
      >>> print("I'm excited to learn Python.") I'm excited to learn Python.

      这种运行代码的方法简捷有趣,但是当代码的行数不断增加时,就不太合适了。当你的任务需要多行代码才能完成时,一种更简便的方式是将所有的代码写在一个称为Python 脚本的文本文件中,然后运行这个脚本。下面就说明创建Python 脚本的方法。

      1.1  创建Python脚本

      要创建一个Python 脚本,需执行下列步骤。

      (1) 打开Spyder IDE 或一个文本编辑器(例如:Windows 系统可以使用Notepad、Notepad++ 或Sublime Text;macOS 系统可以使用TextMate、TextWrangler 或Sublime Text)。

      (2) 将下面两行代码写在文本文件中:

      #!/usr/bin/env python3 print("Output #1: I'm excited to learn Python.")

      第一行比较特殊,称为shebang 行,在Python 脚本中,你应该一直将它作为第一行。请注意行中的第一个字符是井号(#)。以# 开头的行为单行注释,所以安装了Windows 系统的计算机不读取也不执行这行代码。但是,安装了Unix 系统的计算机使用这一行来找到执行文件中代码的Python 版本。因为Windows 系统忽略这一行,像macOS 这样的基于Unix 的系统使用这一行,所以加入这一行可以使脚本在不同操作系统的计算机之间具有可移植性。

      第二行是一个简单的打印语句。这一行会将双引号之间的文本打印在命令行窗口(Windows)或终端窗口(macOS)上。

      (3) 打开Save As 对话框。

      (4) 在location 栏中切换到桌面,使文件可以保存到桌面上。

      (5) 在format 栏中,选择All Files,使对话框不自动选择文件类型。

      (6) 在Save As 或File Name 栏中,输入“first_script.py”。以前,你可能会将这个文本文件保存为.txt 文件,但是在这个示例中,你应该把它保存为.py 文件,来创建一个Python 脚本。

      (7) 点击Save。

      作者简介

      Clinton W. Brownley博士,Facebook数据科学家,负责大数据流水线、统计建模和数据可视化项目,并为大型基础设施建设提供数据驱动的决策建议。

      目录

      • 前言 xi
      • 第 1 章 Python 基础 1
      • 1.1 创建 Python 脚本 1
      • 1.2 运行 Python 脚本 3
      • 1.3 与命令行进行交互的几项技巧 6
      • 1.4 Python 语言基础要素 10
      • 1.4.1 数值 10
      • 1.4.2 字符串 12
      • 1.4.3 正则表达式与模式匹配 16
      • 1.4.4 日期 19
      • 1.4.5 列表 21
      • 1.4.6 元组 26
      • 1.4.7 字典 27
      • 1.4.8 控制流 30
      • 1.5 读取文本文件 35
      • 1.5.1 创建文本文件 36
      • 1.5.2 脚本和输入文件在同一位置 38
      • 1.5.3 读取文件的新型语法 38
      • 1.6 使用 glob 读取多个文本文件 39
      • 1.7 写入文本文件 42
      • 1.7.1 向 first_script.py 添加代码 42
      • 1.7.2 写入 CSV 文件 45
      • 1.8 print 语句 46
      • 1.9 本章练习 47
      • 第 2 章 CSV文件 48
      • 2.1 基础 Python 与 pandas 50
      • 2.1.1 读写 CSV 文件(第 1 部分)50
      • 2.1.2 基本字符串分析是如何失败的 56
      • 2.1.3 读写 CSV 文件(第 2 部分)57
      • 2.2 筛选特定的行 58
      • 2.2.1 行中的值满足某个条件 59
      • 2.2.2 行中的值属于某个集合 60
      • 2.2.3 行中的值匹配于某个模式 正则表达式 62
      • 2.3 选取特定的列 64
      • 2.3.1 列索引值 64
      • 2.3.2 列标题 65
      • 2.4 选取连续的行 67
      • 2.5 添加标题行 69
      • 2.6 读取多个 CSV 文件 71
      • 2.7 从多个文件中连接数据 75
      • 2.8 计算每个文件中值的总和与均值 78
      • 2.9 本章练习 81
      • 第 3 章 Excel 文件 82
      • 3.1 内省 Excel 工作簿 84
      • 3.2 处理单个工作表 88
      • 3.2.1 读写 Excel 文件 88
      • 3.2.2 筛选特定行 92
      • 3.2.3 选取特定列 98
      • 3.3 读取工作簿中的所有工作表 101
      • 3.3.1 在所有工作表中筛选特定行 102
      • 3.3.2 在所有工作表中选取特定列 104
      • 3.4 在 Excel 工作簿中读取一组工作表 106
      • 3.5 处理多个工作簿 108
      • 3.5.1 工作表计数以及每个工作表中的行列计数 110
      • 3.5.2 从多个工作簿中连接数据 111
      • 3.5.3 为每个工作簿和工作表计算总数和均值 113
      • 3.6 本章练习 117
      • 第 4 章 数据库 118
      • 4.1 Python 内置的 sqlite3 模块 119
      • 4.1.1 向表中插入新记录 124
      • 4.1.2 更新表中记录 128
      • 4.2 MySQL 数据库 131
      • 4.2.1 向表中插入新记录 135
      • 4.2.2 查询一个表并将输出写入 CSV 文件 140
      • 4.2.3 更新表中记录 142
      • 4.3 本章练习 146
      • 第 5 章 应用程序 147
      • 5.1 在一个大文件集合中查找一组项目 147
      • 5.2 为 CSV 文件中数据的任意数目分类计算统计量 158
      • 5.3 为文本文件中数据的任意数目分类计算统计量 167
      • 5.4 本章练习 174
      • 第 6 章 图与图表 175
      • 6.1 matplotlib 175
      • 6.1.1 条形图 175
      • 6.1.2 直方图 177
      • 6.1.3 折线图 178
      • 6.1.4 散点图 180
      • 6.1.5 箱线图 181
      • 6.2 pandas 183
      • 6.3 ggplot 184
      • 6.4 seaborn 186
      • 第 7 章 描述性统计与建模 192
      • 7.1 数据集 192
      • 7.1.1 葡萄酒质量 192
      • 7.1.2 客户流失 193
      • 7.2 葡萄酒质量 194
      • 7.2.1 描述性统计 194
      • 7.2.2 分组、直方图与 t 检验 195
      • 7.2.3 成对变量之间的关系和相关性 196
      • 7.2.4 使用最小二乘估计进行线性回归 198
      • 7.2.5 系数解释 200
      • 7.2.6 自变量标准化 200
      • 7.2.7 预测 202
      • 7.3 客户流失 203
      • 7.3.1 逻辑斯蒂回归 205
      • 7.3.2 系数解释 207
      • 7.3.3 预测 208
      • 第 8 章 按计划自动运行脚本 209
      • 8.1 任务计划程序(Windows 系统)209
      • 8.2 cron 工具(macOS 系统和 Unix 系统)215
      • 8.2.1 cron 表文件:一次性设置 216
      • 8.2.2 向 cron 表文件中添加 cron 任务 216
      • 第 9 章 从这里启航 220
      • 9.1 更多的标准库模块和内置函数 221
      • 9.1.1 Python 标准库(PSL):更多的标准模块 221
      • 9.1.2 内置函数 222
      • 9.2 Python 包索引(PyPI):更多的扩展模块 222
      • 9.2.1 NumPy 223
      • 9.2.2 SciPy 227
      • 9.2.3 Scikit-Learn 230
      • 9.2.4 更多的扩展包 232
      • 9.3 更多的数据结构 232
      • 9.3.1 栈 233
      • 9.3.2 队列 233
      • 9.3.3 图 233
      • 9.3.4 树 234
      • 9.4 从这里启航 234
      • 附录A 下载指南 236
      • 附录B 练习答案 245
      • 作者介绍 247
      • 封面介绍 247

      读书笔记

      R vs. Python数据分析详解

      R和Python两者谁更适合数据分析领域?在某些特定情况下谁会更有优势?还是一个天生在各方面都比另一个更好?

      当我们想要选择一种编程语言进行数据分析时,相信大多数人都会想到R和Python——但是从这两个非常强大、灵活的数据分析语言中二选一是非常困难的。

      我承认我还没能从这两个数据科学家喜爱的语言中选出更好的那一个。因此,为了使事情变得有趣,本文将介绍一些关于这两种语言的详细信息,并将决策权留给读者。值得一提的是,有多种途径可以了解这两种语言各自的优缺点。然而在我看来,这两种语言之间其实有很强的关联。

      Stack Overflow趋势对比

      R vs. Python数据分析详解

      上图显示了自从2008年(Stack Overflow 成立)以来,这两种语言随着时间的推移而发生的变化。

      R和Python在数据科学领域展开激烈竞争,我们来看看他们各自的平台份额,并将2016与2017年进行比较:

      R vs. Python数据分析详解

      接下来我们将从适用场景、数据处理能力、任务、安装难度以及开放工具等方面详细了解这两种语言。

      适用场景

      R适用于数据分析任务需要独立计算或单个服务器的应用场景。Python作为一种粘合剂语言,在数据分析任务中需要与Web应用程序集成或者当一条统计代码需要插入到生产数据库中时,使用Python更好。

      任务

      在进行探索性统计分析时,R胜出。它非常适合初学者,统计模型仅需几行代码即可实现。Python作为一个完整而强大的编程语言,是部署用于生产使用的算法的有力工具。

      数据处理能力

      有了大量针对专业程序员以及非专业程序员的软件包和库的支持,不管是执行统计测试还是创建机器学习模型,R语言都得心应手。

      Python最初在数据分析方面不是特别擅长,但随着NumPy、Pandas以及其他扩展库的推出,它已经逐渐在数据分析领域获得了广泛的应用。

      开发环境

      对于R语言,需要使用R Studio。对于Python,有很多Python IDE可供选择,其中Spyder和IPython Notebook是最受欢迎的。

      热门软件包和库

      下面罗列了R和Python推出的针对专业以及非专业程序员的最热门的软件包和库。

      R:针对专业程序员的热门软件包

      用于数据操作的 dplyr、plyr和 data table
      用于字符串操作的 stringr
      定期和不定期时间序列 zoo
      数据可视化工具 ggvis、lattice 和 ggplot2
      用于机器学习的 caret

      R:针对非专业程序员的热门软件包

      Rattle
      R Commander
      Deducer

      这些完整的GUI包可以实现强大的数据统计和建模功能。

      Python:针对专业程序员的热门库

      用于数据分析的 pandas
      用于科学计算的 SciPy NumPy
      用于机器学习的 scikit-learn
      图表库 matplotlib
      statsmodels
      用来探索数据,估算统计模型,并执行统计测试和单元测试

      Python:针对非专业程序员的热门库

      Orange Canvas 3.0是遵循GPL协议的开源软件包。它使用一些常用的Python开源库进行科学计算,包括numpy、scipy和scikit-learn。

      R 和 Python 详细对比

      R vs. Python数据分析详解

      正如本文开头提到的,R和Python之间有很强的关联,并且这两种语言日益普及。很难说哪一种更好,它们两者的整合在数据科学界激起了许多积极和协作的波澜。

      总结

      事实上,日常用户和数据科学家可以同时利用这两者语言,因为R用户可以在R中通过 rPython包来运行R中的Python代码,而Python用户可以通过RPy2库在Python环境中运行R代码。

      以上就是R vs. Python数据分析详解的详细内容,更多请关注码农之家其它相关文章!

      以上就是本次介绍的Python电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:Java编程的逻辑

      下一篇:Python机器学习经典实例

      展开 +

      收起 -

      下载地址:百度网盘下载
      Python 相关电子书
      Python数据抓取技术与实战
      Python数据抓取技术与实战 PDF 清晰影印版

      这本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细的描述数据抓取、分析、展示的整个流程,而且每一篇自成一体,可以单独学习掌握

      立即下载
      Python数据分析:基于Plotly的动态可视化绘图
      Python数据分析:基于Plotly的动态可视化绘图 PDF 含源码版 立即下载
      Python数据可视化之matplotlib实践
      Python数据可视化之matplotlib实践 PDF 超清完整版

      全方位解读应用matplotlib绘图各种各样数据图表的方式,并灵便设定图型 选用很多实例,使用户能够 依据本身要求灵便应用matplotlib中的涵数、面向对象方法和制图句子 这书依靠Matplotlib解读进

      立即下载
      Python数据科学指南
      Python数据科学指南 PDF 清晰扫描版

      本书是Python数据分析编程入门,详细介绍了Python在数据科学中的应用,60多个实用的开发技巧,帮你探索Python及其强大的数据科学能力

      立即下载
      Python数据挖掘入门与实践
      Python数据挖掘入门与实践 PDF

      在统计数据经营规模极速澎涨的互联网时代,大数据挖掘此项鉴别关键统计数据的关键技术正充分发挥愈来愈关键的功效。它将授予你处理具体难题的战斗力:分折体育比赛結果、广告投放、

      立即下载
      Python数据科学:技术详解与商业实践
      Python数据科学:技术详解与商业实践 PDF 影印版

      本书共19章,第1章介绍数据科学中涉及的基本领域;第2~3章介绍与数据工作紧密相关的Python语言基础;第4章讲解描述性统计分析在宏观业务领域的分析;

      立即下载
      读者心得
      23小时53分钟前回答

      python数据分析用什么软件

      Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性,这里就为大家分享几个不错的数据分析工具。 Python数据分析需要安装的第三方扩展库有:Numpy、Pandas、SciPy、Matplotlib、Scikit-Learn、Keras、Gensim、Scrapy等,以下是第三方扩展库的简要介绍:(推荐学习:Python视频教程) 1. Pandas Pandas是Python强大、灵活的数据分析和探索工具,包含Series、DataFrame等高级数据结构和工具,安装Pandas可使Python中处理数据非常快速和简单。 Pandas是Python的一个数据分析包,Pandas最初被用作金融数据分析工具而开发出来,因此Pandas为时间序列分析提供了……

      130小时27分钟前回答

      PowerBI和Python关于数据分析的对比

      前言 如果你对数据分析有一定的了解,那你一定听说过一些亲民好用的数据分析的工具,如Excel、Tableau、PowerBI等等等等,它们都是数据分析的得力助手。像经常使用这些根据的伙伴肯定也有苦恼的时候,不足之处也是显而易见:操作繁琐,复用性差,功能相对局限单一。 很多经常会用到数据分析的伙伴会问有没有一款便捷好用的工具!肯定有啊,Python的出现和普及,很容易就能改变这些窘境! 怎么解决呢?——Python Python有很多优点,如果你能很好的运用到工作中,会发现工作效率大大提升,涨薪也是再正常不过的事情。 Python优点一: “流程可控,工作高效” 举个例子,Excel做分析的过程:定位空……

      网友NO.30028
      网友NO.30028

      各种和数据分析相关python库的介绍 1.Numpy: Numpy是python科学计算的基础包,它提供以下功能(不限于此): (1)快速高效的多维数组对象naarray (2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数 (3)用于读写硬盘上基于数组的数据集的工具 (4)线性代数运算、傅里叶变换,以及随机数生成 (5)用于将C、C++、Fortran代码集成到python的工具 2.pandas pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。 对于金融行业的用户,pandas提供了大量适用于金融数据的高性能时间序列功能和工具。 DataFrame是pandas的一个对象,它是一个面向列的二维表结构,且含有行标和列标。 ps.引用一段网上的话说明DataFrame的强大之处: Excel 2007及其以后的版本的最大行数是1048576,最大列数是16384,超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本,无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的事情,同时随后我们也将看到它比SQL有更强的表达能力,可以做很多复杂的操作,要写的code也更少。 说了一大堆它的好处,要实际感触还得动手码代码。 3.matplotlib matplotlib是最流行的用于绘制数据图表的python库。 4.Scipy Scipy是一组专门解决科学计算中各种标准问题域的包的集合。 5.statsmodels: 各种模型 ****待学习 6.scikit-learn: machine learning模块,很全 ****待学习

      网友NO.46578
      网友NO.46578

      有许多优秀的Python书籍和在线课程,然而我不并不推荐它们中的一些,因为,有些是给大众准备的而不是给那些用来数据分析的人准备的。同样也有许多书是“用Python科学编程”的,但它们是面向各种数学为导向的主题的,而不是成为为了数据分析和统计。不要浪费浪费你的时间去阅读那些为大众准备的Python书籍。

      网友NO.20248
      网友NO.20248

      在开始使用Python之前,我对用Python进行数据分析有一个误解:我必须不得不对Python编程特别精通。因此,我参加了Udacity的Python编程入门课程,完成了code academy上的Python教程,同时阅读了若干本Python编程书籍。就这样持续了3个月(平均每天3个小时),我那会儿通过完成小的软件项目来学习Python。敲代码是快乐的事儿,但是我的目标不是去成为一个Python开发人员,而是要使用Python数据分析。之后,我意识到,我花了很多时间来学习用Python进行软件开发,而不是数据分析。

      码农之家

      张梅风 提供上传

      资源
      39
      粉丝
      37
      喜欢
      958
      评论
      17

      Copyright 2018-2021 www.xz577.com 码农之家

      版权投诉 / 书籍推广:520161757@qq.com