标签分类
当前位置:首页 > 数据库电子书 > 大数据电子书网盘下载
轻松学大数据挖掘:算法、场景与数据产品 轻松学大数据挖掘:算法、场景与数据产品
码小辫

码小辫 提供上传

资源
14
粉丝
45
喜欢
386
评论
4

    轻松学大数据挖掘:算法、场景与数据产品 PDF 全书完整版

    大数据电子书
    • 发布时间:

    给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据挖掘、算法、场景、数据产品方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小75.5 MB,汪榕编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.3,更多相关的学习资源可以参阅 数据库电子书、等栏目。

    轻松学大数据挖掘:算法、场景与数据产品 PDF 下载

    下载地址:https://pan.baidu.com/s/1P5ObrzBR4xG_VpA3JHK04

    分享码:6135

    轻松学大数据挖掘:算法、场景与数据产品 PDF

    伴随着大数据时代的发展,数据价值的挖掘以及产品化逐渐被重视起来。《轻松学大数据挖掘:算法、场景与数据产品》作为该领域的入门教程,打破以往的数据工具与技术的介绍模式,凭借作者在大数据价值探索过程中的所感所悟,以故事的形式和读者分享一个又一个的数据经历,引人深思、耐人寻味。《轻松学大数据挖掘:算法、场景与数据产品》共9章,第1~2章介绍数据情怀与数据入门;第3~6章讨论大数据挖掘相关的一系列学习体系;第7~9章为实践应用与数据产品的介绍。让所有学习大数据挖掘的朋友清楚如何落地,以及在整个数据生态圈所需要扮演的角色,全面了解数据的上下游。

    《轻松学大数据挖掘:算法、场景与数据产品》可作为相关工作经验在3年以内的数据挖掘工程师、转型入门做大数据挖掘的人士或者对数据感兴趣的追逐者的轻松学习教程,引导大家有一个正确的学习方向,也可供对数据产品感兴趣的产品经理和数据挖掘工程师阅读参考。

    目录

    • 第1章 数据情怀篇 1
    • 1.1 数据之禅 1
    • 1.2 数据情怀 1
    • 1.2.1 数据情怀这股劲 2
    • 1.2.2 对数据情怀的理解 2
    • 1.3 大数据时代的我们 4
    • 1.4 成为DT时代的先驱者 6
    • 1.4.1 数据没有寒冬 6
    • 1.4.2 数据生态问题 7
    • 1.4.3 健康的数据生态 8
    • 1.4.4 结尾 8
    • 第2章 数据入门 9
    • 2.1 快速掌握SQL的基础语法 9
    • 2.1.1 初识SQL 9
    • 2.1.2 学会部署环境 10
    • 2.1.3 常用的SQL语法(上篇) 13
    • 2.1.4 常用的SQL语法(下篇) 17
    • 2.2 在Windows 7操作系统上搭建IPython Notebook 25
    • 2.2.1 学习Python的初衷 25
    • 2.2.2 搭建IPython Notebook 26
    • 2.2.3 IPython.exe Notebook的使用说明 27
    • 2.2.4 配置IPython Notebook远程调用 27
    • 2.3 快速掌握Python的基本语法 30
    • 2.4 用Python搭建数据分析体系 38
    • 2.4.1 构建的初衷 38
    • 2.4.2 构建思路 39
    • 2.4.3 开发流程 39
    • 2.5 Python学习总结 44
    • 2.5.1 关于Python 45
    • 2.5.2 Python其他知识点 45
    • 第3章 大数据工具篇 48
    • 3.1 Hadoop伪分布式的安装配置 48
    • 3.1.1 部署CentOS环境 48
    • 3.1.2 部署Java环境 50
    • 3.1.3 部署Hadoop伪分布式环境 51
    • 3.2 数据挖掘中的MapReduce编程 54
    • 3.2.1 学习MapReduce编程的目的 54
    • 3.2.2 MapReduce的代码规范 55
    • 3.2.3 简单的案例 58
    • 3.3 利用MapReduce中的矩阵相乘 60
    • 3.3.1 矩阵的概念 60
    • 3.3.2 不同场景下的矩阵相乘 61
    • 3.4 数据挖掘中的Hive技巧 67
    • 3.4.1 面试心得 67
    • 3.4.2 用Python执行HQL命令 67
    • 3.4.3 必知的HQL知识 69
    • 3.5 数据挖掘中的HBase技巧 75
    • 3.5.1 知晓相关依赖包 75
    • 3.5.2 从HBase中获取数据 76
    • 3.5.3 往HBase中存储数据 77
    • 第4章 大数据挖掘基础篇 81
    • 4.1 MapReduce和Spark做大数据挖掘的差异 81
    • 4.1.1 初识Hadoop生态系统 81
    • 4.1.2 知晓Spark的特点 83
    • 4.1.3 编程的差异性 85
    • 4.1.4 它们之间的灵活转换 88
    • 4.1.5 选择合适的工具 89
    • 4.2 搭建大数据挖掘开发环境 90
    • 4.3 动手实现算法工程 99
    • 4.3.1 知晓Spark On Yarn的运作模式 101
    • 4.3.2 创作第一个数据挖掘算法 102
    • 4.3.3 如何理解“朴素”二字 103
    • 4.3.4 如何动手实现朴素贝叶斯算法 103
    • 第5章 大数据挖掘认知篇 107
    • 5.1 理论与实践的差异 107
    • 5.2 数据挖掘中的数据清洗 110
    • 5.2.1 数据清洗的那些事 110
    • 5.2.2 大数据的必杀技 111
    • 5.2.3 实践中的数据清洗 112
    • 5.3 数据挖掘中的工具包 120
    • 5.3.1 业务模型是何物 120
    • 5.3.2 想做一个好的模型 121
    • 第6章 大数据挖掘算法篇 123
    • 6.1 时间衰变算法 123
    • 6.1.1 何为时间衰变 123
    • 6.1.2 如何理解兴趣和偏好 124
    • 6.1.3 时间衰变算法的抽象 124
    • 6.1.4 采用Spark实现模型 126
    • 6.2 熵值法 130
    • 6.2.1 何为信息熵 130
    • 6.2.2 熵值法的实现过程 130
    • 6.2.3 业务场景的介绍 132
    • 6.2.4 算法逻辑的抽象 133
    • 6.3 预测响应算法 136
    • 6.3.1 业务场景的介绍 136
    • 6.3.2 构建模型的前期工作 137
    • 6.3.3 常用的预测模型 138
    • 6.4 层次分析算法 140
    • 6.5 工程能力的培养与实践 142
    • 6.5.1 工程能力的重要性 142
    • 6.5.2 利用Python实现层次分析法 144
    • 第7章 用户画像实践 148
    • 7.1 用户画像的应用场景 148
    • 7.1.1 背景描述 148
    • 7.1.2 需求调研 149
    • 7.2 用户画像的标签体系 150
    • 7.2.1 需求分析 151
    • 7.2.2 标签的构建 151
    • 7.3 用户画像的模块化思维 152
    • 7.3.1 何为模块化思维 152
    • 7.3.2 用户画像与模块化思维 153
    • 7.4 用户画像的工程开发 154
    • 7.4.1 对于开发框架的选择 154
    • 7.4.2 模块化功能的设计 156
    • 7.5 用户画像的智能营销 158
    • 7.5.1 业务营销 158
    • 7.5.2 营销构思 159
    • 7.5.3 技术难点 160
    • 第8章 反欺诈实践篇 162
    • 8.1 “羊毛党”监控的业务 162
    • 8.1.1 “羊毛党”的定义与特点 162
    • 8.1.2 “羊毛”存在的必然性 163
    • 8.1.3 “羊毛党”的进化 164
    • 8.1.4 “羊毛党”存在的利与弊 165
    • 8.1.5 “羊毛党”监控平台的意义 165
    • 8.2 “羊毛党”监控的设备指纹 166
    • 8.2.1 何为设备指纹 166
    • 8.2.2 底层参数 167
    • 8.2.3 应用场景 168
    • 8.2.4 移动端的数据持久化 169
    • 8.2.5 设备指纹生成算法 169
    • 8.3 “羊毛党”监控的数据驱动 170
    • 8.3.1 监控的目的 170
    • 8.3.2 数据如何“食用” 172
    • 8.4 “羊毛党”监控的实践分享 173
    • 第9章 大数据挖掘践行篇 178
    • 9.1 如何从0到1转型到大数据圈子 178
    • 9.2 数据挖掘从业者综合能力评估 180
    • 9.2.1 度量的初衷 180
    • 9.2.2 综合能力评估 181
    • 9.2.3 个人指标体系(大数据挖掘) 182
    • 9.3 给想要进入数据挖掘圈子的新人一点建议 183
    • 9.3.1 诚信与包装 184
    • 9.3.2 筹备能力 185
    • 9.3.3 投好简历 186
    • 9.3.4 把握面试 186
    • 9.3.5 结尾 187
    • 后记 数据价值探索与数据产品实践 188

    上一篇:App架构师实践指南  下一篇:区块链2.0实战:以太坊+Solidity编程从入门到精通

    展开 +

    收起 -

    大数据 相关电子书
    关于大数据的学习笔记
    网友NO.285723

    MySQL中使用innobackupex、xtrabackup进行大数据的备份和还原教程

    大数据量备份与还原,始终是个难点。当MYSQL超10G,用mysqldump来导出就比较慢了。在这里推荐xtrabackup,这个工具比mysqldump要快很多。 一、Xtrabackup介绍 1、Xtrabackup是什么 Xtrabackup是一个对InnoDB做数据备份的工具,支持在线热备份(备份时不影响数据读写),是商业备份工具InnoDB Hotbackup的一个很好的替代品。 Xtrabackup有两个主要的工具:xtrabackup、innobackupex 1、xtrabackup只能备份InnoDB和XtraDB两种数据表,而不能备份MyISAM数据表 2、 innobackupex是参考了InnoDB Hotbackup的innoback脚本修改而来的.innobackupex是一个perl脚本封装,封装了xtrabackup。主要是为了方便的 同时备份InnoDB和MyISAM引擎的表,但在处理myisam时需要加一个读锁。并且加入了一些使用的选项。如slave-info可以记录备份恢 复后,作为slave需要的一些信息,根据这些信息,可以很方便的利用备份来重做slave。 2、Xtrabackup可以做什么 : 在线(热)备份整个库的InnoDB、 XtraDB表 在xtrabackup的上一次整库备份基础上做增量备份(innodb only) 以流的形式产生备份,可以直接保存到远程机器上(本机硬盘空间不足时很有用) MySQL数据库本身提供的工具并不支持真正的增量备份,二进制日志恢复是point-in-time(时间点)的恢复而不是增量备份。 Xtrabackup工具支持对InnoDB存储引擎的增量备份,工作原理如下: (1)首先完成……

    网友NO.139990

    JQuery中使用ajax传输超大数据的解决方法

    直接说问题,在一个页面用了Jquery(1.6)的Ajax请求,用的post,传递显示的数组有500多条.php端却只能接受到50条左右。刚开始以为是web服务器设置的问题,把,max_upload_size这类的都改了。但是没有效果,后来尝试用max_input_vars这个是新玩艺,刚开始还有点作用。后来,客户的数据超过2000的时候,还是一样,php端还是不能完全接受到ajax发送过来的数据。最后,在国外的一网站上,找到了解决方案。 在post发送前,将要发送的变量用JSON.stringify处理下,就ok了.JSON.stringify是什么呢???请移步这里://www.jb51.net/article/29893.htm ……

    网友NO.616879

    Python中大数据处理详解

    分享 知识要点: lubridate包拆解时间 | POSIXlt 利用决策树分类,利用随机森林预测 利用对数进行fit,和exp函数还原 训练集来自Kaggle华盛顿自行车共享计划中的自行车租赁数据,分析共享自行车与天气、时间等关系。数据集共11个变量,10000多行数据。 首先看一下官方给出的数据,一共两个表格,都是2011-2012年的数据,区别是Test文件是每个月的日期都是全的,但是没有注册用户和随意用户。而Train文件是每个月只有1-20天,但有两类用户的数量。 求解:补全Train文件里21-30号的用户数量。评价标准是预测与真实数量的比较。 1.png 首先加载文件和包 library(lubridate)library(randomForest)library(readr)setwd(E:)data-read_csv(train.csv)head(data) 这里我就遇到坑了,用r语言缺省的read.csv死活读不出来正确的文件格式,换成xlsx更惨,所有时间都变成43045这样的怪数字。本来之前试过as.Date可以正确转换,但这次因为有时分秒,就只能用时间戳,但结果也不行。 最后是下载了readr包,用read_csv语句,顺利解读。 因为test比train日期完整,但缺少用户数,所以要把train和test合并。 test$registered=0test$casual=0test$count=0data-rbind(train,test) 摘取时间:可以用时间戳,这里的时间比较简单,就是小时数,所以也可以直接截字符串。 data$hour1-substr(data$datetime,12,13)table(data$hour1) 统……

    网友NO.340655

    在大数据情况下MySQL的一种简单分页优化方法

    通常应用需要对表中的数据进行翻页,如果数据量很大,往往会带来性能上的问题: root@sns 07:16:25select count(*) from reply_0004 where thread_id = 5616385 and deleted = 0;+———-+| count(*) |+———-+| 1236795 |+———-+1 row in set (0.44 sec)root@sns 07:16:30select idfrom reply_0004 where thread_id = 5616385 and deleted = 0order by id asc limit 1236785, 10 ;+———–+| id |+———–+| 162436798 || 162438180 || 162440102 || 162442044 || 162479222 || 162479598 || 162514705 || 162832588 || 162863394 || 162899685 |+———–+10 rows in set (1.32 sec) 索引:threa_id+deleted+id(gmt_Create) 10 rows in set (1.32 sec) 这两条sql是为查询最后一页的翻页sql查询用的。由于一次翻页往往只需要查询较小的数据,如10条,但需要向后扫描大量的数据,也就是越往后的翻页查询,扫描的数据量会越多,查询的速度也就越来越慢。 由于查询的数据量大小是固定的,如果查询速度不受翻页的页数影响,或者影响最低,那么这样是最佳的效果了(查询最后最几页的速度和开始几页的速度一致)。 在翻页的时候,往往需要对其中的某个字段做排序(这个字段在索引中),升序排序。那么可不可以利用索引的有序性来解决上面遇到的问题喃,答案是肯定的。比如有10000条数据需要做分页,那么前5000条做asc排序,后5000条desc排序,在limit startnum,page……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明