轻松学大数据挖掘:算法、场景与数据产品 PDF 全书完整版

  • 更新时间:
  • 8340人关注
  • 点击下载

轻松学大数据挖掘:算法、场景与数据产品》是一本关于大数据相关的电子书资源,介绍了关于大数据挖掘、算法、场景、数据产品方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小75.5 MB,汪榕编写,目前豆瓣、亚马逊、当当、京东等综合评分为:7.7分,我们还提供了PDF格式内容下载,一起来看下具体内容。

轻松学大数据挖掘:算法、场景与数据产品 PDF

伴随着大数据时代的发展,数据价值的挖掘以及产品化逐渐被重视起来。《轻松学大数据挖掘:算法、场景与数据产品》作为该领域的入门教程,打破以往的数据工具与技术的介绍模式,凭借作者在大数据价值探索过程中的所感所悟,以故事的形式和读者分享一个又一个的数据经历,引人深思、耐人寻味。《轻松学大数据挖掘:算法、场景与数据产品》共9章,第1~2章介绍数据情怀与数据入门;第3~6章讨论大数据挖掘相关的一系列学习体系;第7~9章为实践应用与数据产品的介绍。让所有学习大数据挖掘的朋友清楚如何落地,以及在整个数据生态圈所需要扮演的角色,全面了解数据的上下游。

《轻松学大数据挖掘:算法、场景与数据产品》可作为相关工作经验在3年以内的数据挖掘工程师、转型入门做大数据挖掘的人士或者对数据感兴趣的追逐者的轻松学习教程,引导大家有一个正确的学习方向,也可供对数据产品感兴趣的产品经理和数据挖掘工程师阅读参考。

目录

  • 第1章 数据情怀篇 1
  • 1.1 数据之禅 1
  • 1.2 数据情怀 1
  • 1.2.1 数据情怀这股劲 2
  • 1.2.2 对数据情怀的理解 2
  • 1.3 大数据时代的我们 4
  • 1.4 成为DT时代的先驱者 6
  • 1.4.1 数据没有寒冬 6
  • 1.4.2 数据生态问题 7
  • 1.4.3 健康的数据生态 8
  • 1.4.4 结尾 8
  • 第2章 数据入门 9
  • 2.1 快速掌握SQL的基础语法 9
  • 2.1.1 初识SQL 9
  • 2.1.2 学会部署环境 10
  • 2.1.3 常用的SQL语法(上篇) 13
  • 2.1.4 常用的SQL语法(下篇) 17
  • 2.2 在Windows 7操作系统上搭建IPython Notebook 25
  • 2.2.1 学习Python的初衷 25
  • 2.2.2 搭建IPython Notebook 26
  • 2.2.3 IPython.exe Notebook的使用说明 27
  • 2.2.4 配置IPython Notebook远程调用 27
  • 2.3 快速掌握Python的基本语法 30
  • 2.4 用Python搭建数据分析体系 38
  • 2.4.1 构建的初衷 38
  • 2.4.2 构建思路 39
  • 2.4.3 开发流程 39
  • 2.5 Python学习总结 44
  • 2.5.1 关于Python 45
  • 2.5.2 Python其他知识点 45
  • 第3章 大数据工具篇 48
  • 3.1 Hadoop伪分布式的安装配置 48
  • 3.1.1 部署CentOS环境 48
  • 3.1.2 部署Java环境 50
  • 3.1.3 部署Hadoop伪分布式环境 51
  • 3.2 数据挖掘中的MapReduce编程 54
  • 3.2.1 学习MapReduce编程的目的 54
  • 3.2.2 MapReduce的代码规范 55
  • 3.2.3 简单的案例 58
  • 3.3 利用MapReduce中的矩阵相乘 60
  • 3.3.1 矩阵的概念 60
  • 3.3.2 不同场景下的矩阵相乘 61
  • 3.4 数据挖掘中的Hive技巧 67
  • 3.4.1 面试心得 67
  • 3.4.2 用Python执行HQL命令 67
  • 3.4.3 必知的HQL知识 69
  • 3.5 数据挖掘中的HBase技巧 75
  • 3.5.1 知晓相关依赖包 75
  • 3.5.2 从HBase中获取数据 76
  • 3.5.3 往HBase中存储数据 77
  • 第4章 大数据挖掘基础篇 81
  • 4.1 MapReduce和Spark做大数据挖掘的差异 81
  • 4.1.1 初识Hadoop生态系统 81
  • 4.1.2 知晓Spark的特点 83
  • 4.1.3 编程的差异性 85
  • 4.1.4 它们之间的灵活转换 88
  • 4.1.5 选择合适的工具 89
  • 4.2 搭建大数据挖掘开发环境 90
  • 4.3 动手实现算法工程 99
  • 4.3.1 知晓Spark On Yarn的运作模式 101
  • 4.3.2 创作第一个数据挖掘算法 102
  • 4.3.3 如何理解“朴素”二字 103
  • 4.3.4 如何动手实现朴素贝叶斯算法 103
  • 第5章 大数据挖掘认知篇 107
  • 5.1 理论与实践的差异 107
  • 5.2 数据挖掘中的数据清洗 110
  • 5.2.1 数据清洗的那些事 110
  • 5.2.2 大数据的必杀技 111
  • 5.2.3 实践中的数据清洗 112
  • 5.3 数据挖掘中的工具包 120
  • 5.3.1 业务模型是何物 120
  • 5.3.2 想做一个好的模型 121
  • 第6章 大数据挖掘算法篇 123
  • 6.1 时间衰变算法 123
  • 6.1.1 何为时间衰变 123
  • 6.1.2 如何理解兴趣和偏好 124
  • 6.1.3 时间衰变算法的抽象 124
  • 6.1.4 采用Spark实现模型 126
  • 6.2 熵值法 130
  • 6.2.1 何为信息熵 130
  • 6.2.2 熵值法的实现过程 130
  • 6.2.3 业务场景的介绍 132
  • 6.2.4 算法逻辑的抽象 133
  • 6.3 预测响应算法 136
  • 6.3.1 业务场景的介绍 136
  • 6.3.2 构建模型的前期工作 137
  • 6.3.3 常用的预测模型 138
  • 6.4 层次分析算法 140
  • 6.5 工程能力的培养与实践 142
  • 6.5.1 工程能力的重要性 142
  • 6.5.2 利用Python实现层次分析法 144
  • 第7章 用户画像实践 148
  • 7.1 用户画像的应用场景 148
  • 7.1.1 背景描述 148
  • 7.1.2 需求调研 149
  • 7.2 用户画像的标签体系 150
  • 7.2.1 需求分析 151
  • 7.2.2 标签的构建 151
  • 7.3 用户画像的模块化思维 152
  • 7.3.1 何为模块化思维 152
  • 7.3.2 用户画像与模块化思维 153
  • 7.4 用户画像的工程开发 154
  • 7.4.1 对于开发框架的选择 154
  • 7.4.2 模块化功能的设计 156
  • 7.5 用户画像的智能营销 158
  • 7.5.1 业务营销 158
  • 7.5.2 营销构思 159
  • 7.5.3 技术难点 160
  • 第8章 反欺诈实践篇 162
  • 8.1 “羊毛党”监控的业务 162
  • 8.1.1 “羊毛党”的定义与特点 162
  • 8.1.2 “羊毛”存在的必然性 163
  • 8.1.3 “羊毛党”的进化 164
  • 8.1.4 “羊毛党”存在的利与弊 165
  • 8.1.5 “羊毛党”监控平台的意义 165
  • 8.2 “羊毛党”监控的设备指纹 166
  • 8.2.1 何为设备指纹 166
  • 8.2.2 底层参数 167
  • 8.2.3 应用场景 168
  • 8.2.4 移动端的数据持久化 169
  • 8.2.5 设备指纹生成算法 169
  • 8.3 “羊毛党”监控的数据驱动 170
  • 8.3.1 监控的目的 170
  • 8.3.2 数据如何“食用” 172
  • 8.4 “羊毛党”监控的实践分享 173
  • 第9章 大数据挖掘践行篇 178
  • 9.1 如何从0到1转型到大数据圈子 178
  • 9.2 数据挖掘从业者综合能力评估 180
  • 9.2.1 度量的初衷 180
  • 9.2.2 综合能力评估 181
  • 9.2.3 个人指标体系(大数据挖掘) 182
  • 9.3 给想要进入数据挖掘圈子的新人一点建议 183
  • 9.3.1 诚信与包装 184
  • 9.3.2 筹备能力 185
  • 9.3.3 投好简历 186
  • 9.3.4 把握面试 186
  • 9.3.5 结尾 187
  • 后记 数据价值探索与数据产品实践 188
展开阅读

大数据相关资源

学习笔记

7小时47分钟前回答

MySQL中使用innobackupex、xtrabackup进行大数据的备份和还原教程

大数据量备份与还原,始终是个难点。当MYSQL超10G,用mysqldump来导出就比较慢了。在这里推荐xtrabackup,这个工具比mysqldump要快很多。 一、Xtrabackup介绍 1、Xtrabackup是什么 Xtrabackup是一个对InnoDB做数据备份的工具,支持在线热备份(备份时不影响数据读写),是商业备份工具InnoDB Hotbackup的一个很好的替代品。 Xtrabackup有两个主要的工具:xtrabackup、innobackupex 1、xtrabackup只能备份InnoDB和XtraDB两种数据表,而不能备份MyISAM数据表 2、 innobackupex是参考了InnoDB Hotbackup的innoback脚本修改而来的.innobackupex是一个perl脚本封装,封装了xtrabackup。主要是为了方便的 同时备份InnoDB和MyISAM引擎的表,但在处理myisam时需要加一个读锁。……

23小时31分钟前回答

JQuery中使用ajax传输超大数据的解决方法

直接说问题,在一个页面用了Jquery(1.6)的Ajax请求,用的post,传递显示的数组有500多条.php端却只能接受到50条左右。刚开始以为是web服务器设置的问题,把,max_upload_size这类的都改了。但是没有效果,后来尝试用max_input_vars这个是新玩艺,刚开始还有点作用。后来,客户的数据超过2000的时候,还是一样,php端还是不能完全接受到ajax发送过来的数据。最后,在国外的一网站上,找到了解决方案。 在post发送前,将要发送的变量用JSON.stringify处理下,就ok了.JSON.stringify是什么呢???请移步这里://www.jb51.net/article/29893.htm ……

1小时15分钟前回答

Python中大数据处理详解

分享 知识要点: lubridate包拆解时间 | POSIXlt 利用决策树分类,利用随机森林预测 利用对数进行fit,和exp函数还原 训练集来自Kaggle华盛顿自行车共享计划中的自行车租赁数据,分析共享自行车与天气、时间等关系。数据集共11个变量,10000多行数据。 首先看一下官方给出的数据,一共两个表格,都是2011-2012年的数据,区别是Test文件是每个月的日期都是全的,但是没有注册用户和随意用户。而Train文件是每个月只有1-20天,但有两类用户的数量。 求解:补全Train文件里21-30号的用户数量。评价标准是预测与真实数量的比较。 1.png 首先加载文件和包 library(lubridate)library(randomForest)library(readr)setwd(E:)data-read_csv(t……

19小时28分钟前回答

在大数据情况下MySQL的一种简单分页优化方法

通常应用需要对表中的数据进行翻页,如果数据量很大,往往会带来性能上的问题: root@sns 07:16:25select count(*) from reply_0004 where thread_id = 5616385 and deleted = 0;+———-+| count(*) |+———-+| 1236795 |+———-+1 row in set (0.44 sec)root@sns 07:16:30select idfrom reply_0004 where thread_id = 5616385 and deleted = 0order by id asc limit 1236785, 10 ;+———–+| id |+———–+| 162436798 || 162438180 || 162440102 || 162442044 || 162479222 || 162479598 || 162514705 || 162832588 || 162863394 || 162899685 |+———–+10 rows in set (1.32 sec) 索引:threa_id+deleted+id(gmt_Create) 10 rows in set (1.32 sec) 这两条sql是为查询最后一页的翻页sql查询用的。由于一次翻页往往只需要查询较小的数据,如……