标签分类 热门分类
当前位置:首页 > 程序设计电子书 > 数据挖掘电子书网盘下载
从零开始学Python数据分析与挖掘 从零开始学Python数据分析与挖掘
控制器开发

控制器开发 提供上传

资源
20
粉丝
41
喜欢
269
评论
6

    从零开始学Python数据分析与挖掘 PDF 影印版

    数据挖掘电子书
    • 发布时间:

    给大家带来的一篇关于数据挖掘相关的电子书资源,介绍了关于Python、数据分析、挖掘方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小67.8 MB,刘顺祥编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.5,更多相关的学习资源可以参阅 程序设计电子书Python电子书Python视频、等栏目。

  • 从零开始学Python数据分析与挖掘 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1lI6HuZJ2JDW9TLnwXZU2u
  • 分享码:npa8
  • 从零开始学Python数据分析与挖掘

    从零开始学Python数据分析与挖掘

    内容介绍

    本书以Python 3版本作为数据分析与挖掘实战的应用工具,从Pyhton的基础语法开始,陆续介绍有关数值计算的Numpy、数据处理的Pandas、数据可视化的Matplotlib和数据挖掘的Sklearn等内容。全书共涵盖15种可视化图形以及10个常用的数据挖掘算法和实战项目,通过本书的学习,读者可以掌握数据分析与挖掘的理论知识和实战技能。本书适于统计学、数学、经济学、金融学、管理学以及相关理工科专业的本科生、研究生使用,也能够提高从事数据咨询、研究或分析等人士的专业水平和技能。

    目录

    • 第1章 数据分析与挖掘概述 1
    • 第2章 从收入的预测分析开始 10
    • 第3章 Python快速入门 29
    • 第4章 Python数值计算工具——Numpy 56
    • 第5章 Python数据处理工具——Pandas 76
    • 第6章 Python数据可视化 110
    • 第7章 线性回归预测模型 150
    • 第8章 岭回归与LASSO回归模型 174
    • 第9章 Logistic回归分类模型 190
    • 第10章 决策树与随机森林 208
    • 第11章 KNN模型的应用 233
    • 第12章 朴素贝叶斯模型 253
    • 第13章 SVM模型的应用 272
    • 第14章 GBDT模型的应用 296
    • 第15章 Kmeans聚类分析 326
    • 第16章 DBSCAN与层次聚类分析 345 

    上一篇:Python编程无师自通  下一篇:美团机器学习实践

    展开 +

    收起 -

    数据挖掘 相关电子书
    关于数据挖掘的学习笔记
    网友NO.515227

    python微信好友数据分析详解

    基于微信开放的个人号接口python库itchat,实现对微信好友的获取,并对省份、性别、微信签名做数据分析。 效果: 直接上代码,建三个空文本文件stopwords.txt,newdit.txt、unionWords.txt,下载字体simhei.ttf或删除字体要求的代码,就可以直接运行。 #wxfriends.py 2018-07-09import itchatimport sysimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']#绘图时可以显示中文plt.rcParams['axes.unicode_minus']=False#绘图时可以显示中文import jiebaimport jieba.posseg as psegfrom scipy.misc import imreadfrom wordcloud import WordCloudfrom os import path#解决编码问题non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd) #获取好友信息def getFriends(): friends = itchat.get_friends(update=True)[0:] flists = [] for i in friends: fdict={} fdict['NickName']=i['NickName'].translate(non_bmp_map) if i['Sex'] == 1: fdict['Sex']='男' elif i['Sex'] == 2: fdict['Sex']='女' else: fdict['Sex']='雌雄同体' if i['Province'] == '': fdict['Province'] ='未知' else: fdict['Province']=i['Province'] fdict['City']=i['City'] fdict['Signature']=i['Signature'] flists.append(fdict) return flists #将好友信息保存成CSVdef saveCSV(lists): df = pd.DataFrame(lists) try: df.to_csv("wxfriends.csv",index = True,encoding='gb18030') except Exception as ret: print(ret) return df #统计性别、省份字段 def anysys(df): df_sex = pd.DataFrame(df['Sex'].value_……

    网友NO.999663

    Python实现的大数据分析操作系统日志功能示例

    本文实例讲述了Python实现的大数据分析操作系统日志功能。分享给大家供大家参考,具体如下: 一 代码 1、大文件切分 import osimport os.pathimport timedef FileSplit(sourceFile, targetFolder): if not os.path.isfile(sourceFile): print(sourceFile, ' does not exist.') return if not os.path.isdir(targetFolder): os.mkdir(targetFolder) tempData = [] number = 1000 fileNum = 1 linesRead = 0 with open(sourceFile, 'r') as srcFile: dataLine = srcFile.readline().strip() while dataLine: for i in range(number): tempData.append(dataLine) dataLine = srcFile.readline() if not dataLine: break desFile = os.path.join(targetFolder, sourceFile[0:-4] + str(fileNum) + '.txt') with open(desFile, 'a+') as f: f.writelines(tempData) tempData = [] fileNum = fileNum + 1if __name__ == '__main__': #sourceFile = input('Input the source file to split:') #targetFolder = input('Input the target folder you want to place the split files:') sourceFile = 'test.txt' targetFolder = 'test' FileSplit(sourceFile, targetFolder) 2、Mapper代码 import osimport reimport threadingimport timedef Map(sourceFile): if not os.path.exists(sourceFile): print(sourceFile, ' does not exist.') return pattern = re.compile(r'[0-9]{1,2}/[0-9]{1,2}/[0-9]{4}') result = {} with open(sourceFile, 'r') as srcFile: for dataLine in srcFile: r = pattern.findall(dataLine) if r: t = result.get(r[0], 0) t += 1 result[r[0]] = t desFile = sourceFile[0:-4] + '_map.txt' with open(desFile, 'a+') as fp: for k, v in……

    网友NO.827268

    详解Python数据分析--Pandas知识点

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘 1. 重复值的处理 利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID. import pandas as pd df = pd.DataFrame({"ID": ["A1000","A1001","A1002", "A1002"], "departmentId": [60001,60001, 60001, 60001]}) df.drop_duplicates() 2. 缺失值的处理 缺失值是数据中因缺少信息而造成的数据聚类, 分组, 截断等 2.1 缺失值产生的原因 主要原因可以分为两种: 人为原因和机械原因. 1) 人为原因: 由于人的主观失误造成数据的缺失, 比如数据录入人员的疏漏; 2) 机械原因: 由于机械故障导致的数据收集或者数据保存失败从而造成数据的缺失. 2.2 缺失值的处理方式 缺失值的处理方式通常有三种: 补齐缺失值, 删除缺失值, 删除缺失值, 保留缺失值. 1) 补齐缺失值: 使用计算出来的值去填充缺失值, 例如样本平均值. 使用fillna()函数对缺失值进行填充, 使用mean()函数计算样本平均值. import pandas as pdimport numpy as npdf = pd.DataFrame({'ID':['A10001', 'A10002', 'A10003', 'A10004'], "Salary":[11560, np.NaN, 12988,12080]})#用Salary字段的样本均值填充缺失值df["Salary"] = df["Salary"].fillna(df["Salary"].mean())df 2) 删除缺失值: 当数据量大时且缺失值占比较小可选用删除缺失值的记录. 示例: 删除entrytime中缺失的值,采用dropna函数对缺失值进行删除……

    网友NO.988467

    Python数据分析:手把手教你用Pandas生成可视化图表的教程

    大家都知道,Matplotlib 是众多 Python 可视化包的鼻祖,也是Python最常用的标准可视化库,其功能非常强大,同时也非常复杂,想要搞明白并非易事。但自从Python进入3.0时代以后,pandas的使用变得更加普及,它的身影经常见于市场分析、爬虫、金融分析以及科学计算中。 作为数据分析工具的集大成者,pandas作者曾说,pandas中的可视化功能比plt更加简便和功能强大。实际上,如果是对图表细节有极高要求,那么建议大家使用matplotlib通过底层图表模块进行编码。当然,我们大部分人在工作中是不会有这样变态的要求的,所以一句import pandas as pd就足够应付全部的可视化工作了。 下面,我们总结一下PD库的一些使用方法和入门技巧。 一、线型图 对于pandas的内置数据类型,Series 和 DataFrame 都有一个用于生成各类 图表 的 plot 方法。 默认情况下, 它们所生成的是线型图。其实Series和DataFrame上的这个功能只是使用matplotlib库的plot()方法的简单包装实现。参考以下示例代码 - import pandas as pdimport numpy as np df = pd.DataFrame(np.random.randn(10,4),index=pd.date_range('2018/12/18', periods=10), columns=list('ABCD')) df.plot() 执行上面示例代码,得到以下结果 - 如果索引由日期组成,则调用gct().autofmt_xdate()来格式化x轴,如上图所示。 我们可以使用x和y关键字绘制一列与另一……

    Copyright 2018-2020 xz577.com 码农之家

    电子书资源由网友、会员提供上传,本站记录提供者的基本信息及资源来路

    鸣谢: “ 码小辫 ” 公众号提供回调API服务、“ 脚本CDN ”提供网站加速(本站寻求更多赞助支持)

    版权投诉 / 书籍推广 / 赞助:520161757@qq.com

    上传资源(网友、会员均可提供)

    查看最新会员资料及资源信息