数据预处理从入门到实战:基于SQL、R、Python PDF 高清中文版

  • 更新时间:
  • 7060人关注
  • 点击下载

数据预处理从入门到实战:基于SQL、R、Python》是一本关于数据处理相关的电子书资源,介绍了关于数据处理、SQL、R语言、Python方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小126 MB,本桥智光编写,目前豆瓣、亚马逊、当当、京东等综合评分为:7.5分,一起来看下具体内容。

资源详情相关推荐
《数据预处理从入门到实战:基于SQL、R、Python》封面
  • 出版社:人民邮电出版社
  • 作者:本桥智光
  • 大小:126 MB
  • 类别:数据处理
  • 热度:804
  • Hadoop大数据处理技术基础与实践
  • 大数据处理之道
  • Spark大数据处理技术
  • 大数据处理系统:Hadoop源代码情景分析
  • Hadoop大数据处理
  • 一本书掌握大数据、人工智能时代需要的数据预处理技术

    ·KDD CUP 2015亚军得主多行业实战经验总结;
    ·54道例题,涵盖常见数据预处理技术;
    ·3个实战案例,快速提升应用能力;
    ·3种语言实现对比,代码优化关键点一目了然;
    ·配套数据 源码可下载;
    ·SQL的版本为Redshift,Pyhton的版本为3.6,R的版本的3.4;
    ·双色印刷。

    数据提取/数据聚合/数据连接/数据拆分/数据生成/数据扩展

    数值型/分类型/日期时间型/字符型/位置信息型

    1.习题式结构,带着问题思考、学习,效果更好
    本书采用问题驱动式,先抛出常见预处理任务,引导读者思考如何实现。像这样带着问题学习,可以大大提高学习效果,让理解更深入。
    2.对比3种不同语言的实现,把握每种语言的特长
    用SQL、R、Python对比解决相同的案例问题,可以让读者了解各语言在处理各种预处理问题时有哪些优缺点,从而根据情况选择合适的语言,提升预处理效率。
    3.同时给出一般代码与理想代码,优化处理的关键一目了然
    对于每道例题,都同时给出一般代码与理想代码,读者不仅可以边阅读边思考如何修改一般代码,还可以通过与理想代码的对比明白如何优化代码。

    在大数据、人工智能时代,数据分析必不可少。本书以数据分析中至关重要的数据预处理为主题,通过54道例题具体介绍了基于SQL、R、Python的处理方法和相关技巧。全书共4个部分:第1部分介绍预处理的基础知识;第2部分介绍以数据结构为对象的预处理,包括数据提取、数据聚合、数据连接、数据拆分、数据生成和数据扩展;第3部分介绍以数据内容为对象的预处理,涉及数值型、分类型、日期时间型、字符型和位置信息型;第4部分为预处理实战,介绍与实际业务相同的预处理流程。

    本书适合新手数据科学家、系统工程师、具备编程及数理基础的技术人才,以及对数据挖掘和数据分析等感兴趣的人阅读。

    目录

    • 第 1部分 预处理入门 1
    • 第 1章 什么是预处理 2
    • 1-1 数据 2
    • 记录数据 2
    • 数据类型 3
    • 1-2 预处理的作用 3
    • 机器学习 4
    • 无监督学习和有监督学习 4
    • 用于数据分析的3种预处理 5
    • 1-3 预处理的流程 6
    • 对数据结构的预处理 7
    • 对数据内容的预处理 7
    • 预处理的步骤 7
    • 1-4 3种编程语言 9
    • 正确使用编程语言 9
    • 1-5 包和库 10
    • 用于数据分析的包和库 10
    • 1-6 数据集 11
    • 酒店预订记录 12
    • 工厂产品记录 13
    • 月度指标记录 14
    • 文本数据集 14
    • 1-7 读取数据 14
    • 第 2部分 对数据结构的预处理 19
    • 第 2章 数据提取 20
    • 2-1 提取指定的列 20
    • Q 提取列 21
    • 2-2 按指定条件提取 26
    • Q 按条件提取数据行 28
    • Q 间接利用索引提取数据行 33
    • 2-3 不基于数据值的采样 35
    • Q 随机采样 35
    • 2-4 基于聚合ID的采样 38
    • Q 按ID采样 39
    • 第3章 数据聚合 43
    • 3-1 计算数据条数和类型数 43
    • Q 计数和唯一值计数 44
    • 3-2 计算合计值 48
    • Q 合计值 48
    • 3-3 计算最值、代表值 50
    • Q 代表值 51
    • 3-4 计算离散程度 54
    • Q 方差和标准差 54
    • 3-5 计算众数 57
    • Q 众数 58
    • 3-6 排序 61
    • 排序函数 61
    • Q 为时序数据添加编号 62
    • Q 排序 66
    • 第4章 数据连接 69
    • 4-1 主表的连接 69
    • Q 主表的连接 70
    • 4-2 切换按条件连接的表 77
    • Q 切换按条件连接的主表 77
    • 4-3 连接历史数据 84
    • Q 获取往前数第n条记录的数据 85
    • Q 前n条记录的合计值 88
    • Q 前n条记录的平均值 92
    • Q 过去n天的合计值 95
    • 4-4 交叉连接 99
    • Q 交叉连接处理 99
    • 第5章 数据拆分 105
    • 5-1 记录数据中模型验证数据的拆分 105
    • Q 交叉验证 107
    • 5-2 时序数据中模型验证数据的拆分 111
    • Q 准备时序数据中的训练数据和验证数据 113
    • 第6章 数据生成 117
    • 6-1 通过欠采样调整不平衡数据 118
    • 6-2 通过过采样调整不平衡数据 119
    • Q 过采样 120
    • 第7章 数据扩展 124
    • 7-1 转换为横向显示 124
    • Q 转换为横向显示 125
    • 7-2 转换为稀疏矩阵 128
    • Q 稀疏矩阵 128
    • 第3部分 对数据内容的预处理 131
    • 第8章 数值型 132
    • 8-1 转换为数值型 132
    • Q 各种数据类型的转换 132
    • 8-2 通过对数化实现非线性变换 135
    • Q 对数化 137
    • 8-3 通过分类化实现非线性变换 139
    • Q 数值型的分类化 140
    • 8-4 归一化 142
    • Q 归一化 143
    • 8-5 删除异常值 146
    • Q 根据标准差删除异常值 146
    • 8-6 用主成分分析实现降维 148
    • Q 用主成分分析实现降维 149
    • 8-7 数值填充 152
    • Q 删除缺失记录 153
    • Q 用常数填充 155
    • Q 均值填充 157
    • Q 用PMM实现多重插补 160
    • 第9章 分类型 164
    • 9-1 转换为分类型 164
    • Q 分类型的转换 165
    • 9-2 哑变量化 168
    • Q 哑变量化 169
    • 9-3 分类值的聚合 171
    • Q 分类值的聚合 172
    • 9-4 分类值的组合 175
    • Q 分类值的组合 175
    • 9-5 分类型的数值化 177
    • Q 分类型的数值化 178
    • 9-6 分类型的填充 181
    • Q 用KNN填充 182
    • 第 10章 日期时间型 185
    • 10-1 转换为日期时间型、日期型 185
    • Q 日期时间型、日期型的转换 185
    • 10-2 转换为年、月、日、时、分、秒、星期 189
    • Q 获取各日期时间元素 190
    • 10-3 转换为日期时间差 194
    • Q 计算日期时间差 195
    • 10-4 日期时间型的增减 200
    • Q 日期时间的增减处理 200
    • 10-5 转换为季节 203
    • Q 转换为季节 204
    • 10-6 转换为时间段 208
    • 10-7 转换为工作日、休息日 209
    • Q 添加休息日标志 209
    • 第 11章 字符型 212
    • 11-1 通过形态分析进行分解 213
    • Q 提取名词和动词 213
    • 11-2 转换为单词的集合数据 215
    • Q 创建词袋 216
    • 11-3 用TF-IDF调整单词权重 220
    • Q 创建使用TF-IDF的词袋 221
    • 第 12章 位置信息型 224
    • 12-1 从日本坐标系到世界坐标系的转换以及从度、分、秒到度的转换 224
    • Q 从日本坐标系转换为世界坐标系 224
    • 12-2 两点间距离、方向的计算 228
    • Q 计算距离 228
    • 第4部分 预处理实战 233
    • 第 13章 实战练习 234
    • 13-1 聚合分析的预处理 234
    • Q 聚合分析的准备工作 234
    • 13-2 用于推荐的预处理 238
    • Q 生成推荐矩阵 238
    • 13-3 预测建模的预处理 243
    • Q 用于预测建模的预处理 243
    • 结语 254
    • 参考文献 255
    展开阅读
    精选笔记1:python数据处理之如何选取csv文件中某几行的数据

    5小时49分钟前回答

    前言

    有些人看到这个问题觉得不是问题,是嘛,不就是df.col[]函数嘛,其实忽略了一个重点,那就是我们要省去把csv文件全部读取这个过程,因为如果在面临亿万级别的大规模数据,得到的结果就是boom,boom,boom。

    我们要使用一下现成的函数里面的参数nrows,和skiprows,一个代表你要读几行,一个代表你从哪开始读,这就可以了,比如从第3行读取4个

    示例代码

    import pandas as pd
    df = pd.DataFrame({'a':[1,2,3,4,5,6,7,8,9],'b':[22,33,44,55,66,77,88,99,10]})
    df.to_csv('test.csv')
    dt = pd.read_csv('test.csv',skiprows=5,nrows=3)
     
    print(dt)
     
     
    out:
     4 5 66
    0 5 6 77
    1 6 7 88
    2 7 8 99
    3 8 9 10

    就可以了,不过这个列头不知道是怎么回事,顺便如果想根据列值找index,可以参考下面的

    然后

    df = pd.DataFrame({'BoolCol': [1, 2, 3, 3, 4],'attr': [22, 33, 22, 44, 66]},
      index=[10,20,30,40,50])
    print(df)
    a = df[(df.BoolCol==3)&(df.attr==22)].index.tolist()
    print(a)
     
     
    df = pd.DataFrame({'BoolCol': [1, 2, 3, 3, 4],'attr': [22, 33, 22, 44, 66]},
      index=[10,20,30,40,50])
    print(df)
    a = df[(df.BoolCol==3)&(df.attr==22)].index.tolist()
    print(a)

    问题得到了解决

    总结

    以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对码农之家的支持。

    展开阅读

    数据处理相关资源

    学习笔记

    5小时7分钟前回答

    vue2.0 axios前后端数据处理实例代码

    目前主流的 Vue 项目,都选择 axios 来完成 ajax 请求,而大型项目都会使用 Vuex 来管理数据。 前言: 使用 cnpm 安装 axios cnpm install axios -S 安装其他插件的时候,可以直接在 main.js 中引入并 Vue.use(),但是 axios 并不能 use,只能每个需要发送请求的组件中即时 引入 为了解决这个问题,是在引入 axios 之后,修改原型链具体的实施请往下看~ 改写原型链 首先在 main.js 中引入 axios import axios from 'axios' 这时候如果在其它的组件中,是无法使用 axios 命令的。但如果将 axios 改写为 Vue 的原型属性,就能解决这个问题 Vue.prototype.$ajax = axios 在 main.js 中添加了这两行代码之后,就能直接在组件的 methods 中使用 $ajax 命令 me……

    5小时51分钟前回答

    python数据处理实战(必看篇)

    一、运行环境 1、python版本 2.7.13 博客代码均是这个版本 2、系统环境:win7 64位系统 二、需求 对杂乱文本数据进行处理 部分数据截图如下,第一个字段是原字段,后面3个是清洗出的字段,从数据库中聚合字段观察,乍一看数据比较规律,类似(币种 金额 万元)这样,我想着用sql写条件判断,统一转换为‘万元人民币' 单位,用sql脚本进行字符串截取即可完成,但是后面发现数据并不规则,条件判断太多清洗质量也不一定,有的前面不是左括号,有的字段里面没有币种,有的数字并不是整数,有的没有万字,这样如果存储成数字和‘万元人民币'单位两个字段写sql脚本复杂了,mysql我也没找到能从文本中……