R与Hadoop大数据分析实战 PDF 超清版

  • 更新时间:
  • 4486人关注
  • 点击下载

给大家带来的一篇关于大数据分析相关的电子书资源,介绍了关于R语言、Hadoop、大数据分析方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小18.68MB,Vignesh Prajapati编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.8分

资源详情相关推荐
R与Hadoop大数据分析实战
  • 出版社:机械工业出版社
  • 作者:Vignesh、Prajapati
  • 大小:18.68MB
  • 类别:大数据分析
  • 热度:615
  • 数据科学与大数据分析
  • 云端时代杀手级应用:大数据分析
  • Spark大数据分析:核心概念、技术及实践
  • Python金融大数据分析(第2版)
  • 基于Python的大数据分析基础及实战
  • 本书讲述R语言与Hadoop技术结合应用的权威书籍,由资深大数据分析师撰写,不仅系统且深入地阐释了R与Hadoop集成技术的工具、方法、原则和最佳实践,而且对各种常见问题进行深入分析,包含大量实践案例,可操作性强,能为用户高效利用R语言与Hadoop技术提供有效指导。全书共7章,分为四部分:第一部分(基础概念),包括第1~2章,主要讲解R语言以及Hadoop的安装过程、计算原理和基础概念;第二部分(初级应用),包括第3~4章,主要讲解RHIPE、RHadoop以及streaming三种实现方案;第三部分(高级实例),包括第5~6章,主要以RHadoop为技术背景,讲解多个实际应用案例;第四部分(数据库连接),包括第7章,主要讲解在RHadoop下如何同各类数据库进行连接。

    目录

    • 译者序
    • 前言
    • 审校者简介
    • 致谢
    • 第1章R和Hadoop入门 1
    • 1.1安装R 2
    • 1.2安装RStudio 3
    • 1.3R语言的功能特征 3
    • 1.3.1使用R程序包 3
    • 1.3.2执行数据操作 3
    • 1.3.3日渐增多的社区支持 4
    • 1.3.4R语言数据建模 4
    • 1.4Hadoop的安装 5
    • 1.4.1不同的Hadoop模式 6
    • 1.4.2Hadoop的安装步骤 6
    • 1.5Hadoop的特点 12
    • 1.5.1HDFS简介 13
    • 1.5.2MapReduce简介 13
    • 1.6HDFS和MapReduce架构 14
    • 1.6.1HDFS架构 14
    • 1.6.2MapReduce架构 15
    • 1.6.3通过图示了解HDFS和MapReduce架构 15
    • 1.7Hadoop的子项目 16
    • 1.8小结 19
    • 第2章编写Hadoop MapReduce程序 20
    • 2.1MapReduce基础概念 20
    • 2.2Hadoop MapReduce技术简介 22
    • 2.2.1MapReduce中包含的实体 22
    • 2.2.2MapReduce中的主要执行进程 23
    • 2.2.3MapReduce的局限 25
    • 2.2.4MapReduce 可以解决的问题 26
    • 2.2.5使用Hadoop编程时用到不同的Java概念 26
    • 2.3Hadoop MapReduce原理 27
    • 2.3.1MapReduce对象 27
    • 2.3.2MapReduce中实现Map阶段的执行单元数目 28
    • 2.3.3MapReduce中实现Reduce阶段的执行单元数目 28
    • 2.3.4MapReduce的数据流 28
    • 2.3.5深入理解HadoopMapReduce 30
    • 2.4编写Hadoop MapReduce示例程序 32
    • 2.4.1MapReduce job运行的步骤 33
    • 2.4.2MapReduce可解决的商业问题 38
    • 2.5在R环境中编写Hadoop MapReduce程序的方式 39
    • 2.5.1RHadoop 39
    • 2.5.2RHIPE 40
    • 2.5.3Hadoop streaming 40
    • 2.6小结 40
    • 第3章集成R和Hadoop 41
    • 3.1RHIPE 42
    • 3.1.1安装RHIPE 42
    • 3.1.2RHIPE架构 44
    • 3.1.3RHIPE实例 45
    • 3.1.4RHIPE参考函数 48
    • 3.2RHadoop 51
    • 3.2.1RHadoop架构 51
    • 3.2.2安装RHadoop 52
    • 3.2.3RHadoop案例 53
    • 3.2.4RHadoop参考函数 56
    • 3.3小结 58
    • 第4章Hadoop Streaming中使用R 59
    • 4.1Hadoop Streaming基础概念 59
    • 4.2使用R运行Hadoop streaming 62
    • 4.2.1MapReduce应用程序基础 63
    • 4.2.2如何编写MapReduce应用程序 65
    • 4.2.3如何运行MapReduce应用程序 67
    • 4.2.4如何浏览MapRecuce应用程序的输出 69
    • 4.2.5Hadoop MapReduce脚本的基础R函数 70
    • 4.2.6管理Hadoop MapReduce任务 71
    • 4.3R语言扩展包HadoopStreaming介绍 72
    • 4.3.1hsTableReader函数 73
    • 4.3.2hsKeyValReader函数 75
    • 4.3.3hasLineReader函数 75
    • 4.3.4运行Hadoop streaming任务 78
    • 4.3.5执行Hadoop Streaming任务 79
    • 4.4小结 79
    • 第5章利用R和Hadoop学习数据分析 80
    • 5.1数据分析项目生命周期 80
    • 5.1.1问题定义 81
    • 5.1.2设计数据需求 81
    • 5.1.3数据预处理 81
    • 5.1.4数据分析 82
    • 5.1.5数据可视化 82
    • 5.2数据分析问题 83
    • 5.2.1展示网页分类 83
    • 5.2.2计算股市变动频率 92
    • 5.2.3案例研究:预测推土机售价 98
    • 5.3小结 107
    • 第6章应用机器学习做大数据分析 108
    • 6.1机器学习介绍 108
    • 6.2有监督机器学习算法 109
    • 6.2.1线性回归 109
    • 6.2.2logistic回归 115
    • 6.3无监督机器学习算法 118
    • 6.4推荐算法 123
    • 6.4.1在R中产生推荐商品的步骤 125
    • 6.4.2使用R和Hadoop产生推荐商品 128
    • 6.5小结 131
    • 第7章从各种数据库中导入与导出数据 132
    • 7.1文件型数据库 134
    • 7.1.1不同类型的文件 134
    • 7.1.2安装R包 134
    • 7.1.3将数据导入R 134
    • 7.1.4从R导出数据 135
    • 7.2MySQL 135
    • 7.2.1安装MySQL 135
    • 7.2.2安装RMySQL 136
    • 7.2.3列出数据表及其结构 136
    • 7.2.4导入数据进R 136
    • 7.2.5数据操纵 137
    • 7.3Excel 137
    • 7.3.1安装Excel 138
    • 7.3.2导入数据进R 138
    • 7.3.3R和Excel的数据操纵 138
    • 7.3.4导出数据到Excel 138
    • 7.4MongoDB 138
    • 7.4.1安装MongoDB 139
    • 7.4.2安装rmongodb 141
    • 7.4.3导入数据进R 141
    • 7.4.4数据操纵 142
    • 7.5SQLite 143
    • 7.5.1SQLite的特性 143
    • 7.5.2安装SQLite 144
    • 7.5.3安装RSQLite 144
    • 7.5.4将数据导师入R 144
    • 7.5.5数据操纵 145
    • 7.6PostgreSQL 145
    • 7.6.1PostgreSQL的特性 145
    • 7.6.2安装PostgreSQL 145
    • 7.6.3安装RPostgreSQL 146
    • 7.6.4从R导出数据 146
    • 7.7Hive 147
    • 7.7.1Hive的特性 147
    • 7.7.2安装Hive 147
    • 7.7.3安装RHive 149
    • 7.7.4RHive操作 149
    • 7.8HBase 150
    • 7.8.1HBase的特性 150
    • 7.8.2安装HBase 151
    • 7.8.3安装Thrift 152
    • 7.8.4安装RHBase 153
    • 7.8.5导入数据进R 153
    • 7.8.6数据操纵 153
    • 7.9小结 154
    • 附录参考资源 155
    展开阅读
    精选笔记:python怎么做大数据分析

    1小时50分钟前回答

    数据获取:公开数据、Python爬虫

    python怎么做大数据分析

    外部数据的获取方式主要有以下两种。(推荐学习:Python视频教程)

    第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。

    另一种获取外部数据的方式就是爬虫。

    比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。

    在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数………

    以及,如何用 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。

    掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、使用cookie信息、模拟用户登录、抓包分析、搭建代理池等等,来应对不同网站的反爬虫限制。

    数据存取:SQL语言

    在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据。

    SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。你需要掌握以下技能:

    提取特定情况下的数据

    数据库的增、删、查、改

    数据的分组聚合、如何建立多个表之间的联系

    数据预处理:Python(pandas)

    很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。

    对于数据预处理,学会 pandas (Python包)的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:

    选择:数据访问

    缺失值处理:对缺失数据行进行删除或填充

    重复值处理:重复值的判断与删除

    异常值处理:清除不必要的空格和极端、异常数据

    相关操作:描述性统计、Apply、直方图等

    合并:符合各种逻辑关系的合并操作

    分组:数据划分、分别执行函数、数据重组

    Reshaping:快速生成数据透视表

    概率论及统计学知识

    需要掌握的知识点如下:

    基本统计量:均值、中位数、众数、百分位数、极值等

    其他描述性统计量:偏度、方差、标准差、显著性等

    其他统计知识:总体和样本、参数和统计量、ErrorBar

    概率分布与假设检验:各种分布、假设检验流程

    其他概率论知识:条件概率、贝叶斯等

    有了统计学的基本知识,你就可以用这些统计量做基本的分析了。你可以使用 Seaborn、matplotlib 等(python包)做一些可视化的分析,通过各种可视化统计图,并得出具有指导意义的结果。

    Python 数据分析

    掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。这部分需要掌握的知识点如下:

    回归分析:线性回归、逻辑回归

    基本的分类算法:决策树、随机森林……

    基本的聚类算法:k-means……

    特征工程基础:如何用特征选择优化模型

    调参方法:如何调节参数优化模型

    Python 数据分析包:scipy、numpy、scikit-learn等

    在数据分析的这个阶段,重点了解回归分析的方法,大多数的问题可以得以解决,利用描述性的统计分析和回归分析,你完全可以得到一个不错的分析结论。

    当然,随着你实践量的增多,可能会遇到一些复杂的问题,你就可能需要去了解一些更高级的算法:分类、聚类。

    然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,你需要去了解如何通过特征提取、参数调节来提升预测的精度。

    你可以通过 Python 中的 scikit-learn 库来实现数据分析、数据挖掘建模和分析的全过程。

    更多Python相关技术文章,请访问Python教程栏目进行学习!

    以上就是python怎么做大数据分析的详细内容,更多请关注码农之家其它相关文章!

    展开阅读

    资源下载

    相关资源

    • 大数据分析:方法与应用

      大数据分析:方法与应用

      这书详细介绍大数据挖掘、统计分析学习培训和系统识别中与数据分析有关的基础理论、方式及专用工具。方式学习培训的总体目标是使学员可以依照实证分析的标准和大数据挖掘的流程开展互

      大小:98.6 MB大数据分析

      立即下载
    • 大数据分析Excel Power BI全方位应用

      大数据分析Excel Power BI全方位应用

      随著电脑技术的发展,资料存储量呈现倍增成长,以资料採矿为核心的Business Intelligence(BI)显然成为IT和其他行业的必争之地,同时市场潮流Big Data让巨量资料分析变得更重要,商业智慧也顺理成

      大小:231.4 MB大数据

      立即下载
    • Spark与Hadoop大数据分析

      Spark与Hadoop大数据分析

      这本书系统讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,配套详细的实现示例,是快速掌握大数据分析基础架构及其实施方法的详实参考

      大小:28.5 MB数据分析

      立即下载
    • 基于Apache Kylin 构建大数据分析平台

      基于Apache Kylin 构建大数据分析平台

      大小:89.9 MB大数据

      立即下载
    • Spark大数据分析实战

      Spark大数据分析实战

      本书首先从技术层面讲解了Spark的机制、生态系统与开发相关的内容;然后从应用角度讲解了日志分析、推荐系统、情感分析、协同过滤、搜索引擎、社交网络分析、新闻数据分析等多个常见的

      大小:31.9 MBSpark

      立即下载

    学习笔记

    15小时21分钟前回答

    Python实现的大数据分析操作系统日志功能示例

    本文实例讲述了Python实现的大数据分析操作系统日志功能。分享给大家供大家参考,具体如下: 一 代码 1、大文件切分 import osimport os.pathimport timedef FileSplit(sourceFile, targetFolder): if not os.path.isfile(sourceFile): print(sourceFile, ' does not exist.') return if not os.path.isdir(targetFolder): os.mkdir(targetFolder) tempData = [] number = 1000 fileNum = 1 linesRead = 0 with open(sourceFile, 'r') as srcFile: dataLine = srcFile.readline().strip() while dataLine: for i in range(number): tempData.append(dataLine) dataLine = srcFile.readline() if not dataLine: break desFile = os.path.join(targetFolder, sourceFile[0:-4] + str(fileNum) + '.txt') with open(desFile, 'a+') as f: f.writelines(tempData) tempData = [] fileNum = fileNum + 1if __name_……

    20小时55分钟前回答

    python金融大数据分析有用吗

    《Python金融大数据分析 》是人民邮电出版社2015年12月出版的中译图书,作者[德]伊夫·希尔皮斯科,译者姚军。 《Python金融大数据分析》,唯一一本详细讲解使用Python分析处理金融大数据的专业图书;金融应用开发领域从业人员必读。适合对使用Python进行大数据分析、处理感兴趣的金融行业开发人员阅读。 (推荐学习:Python视频教程) 内容介绍 Python凭借其简单、易读、可扩展性以及拥有巨大而活跃的科学计算社区,在需要分析、处理大量数据的金融行业得到了广泛而迅速的应用,并且成为该行业开发核心应用的首选编程语言。 《Python金融大数据分析》提供了使用Python进行数据分析,以及开发相关应用……