当前位置:首页 > 程序设计 >
《数据算法:Hadoop/Spark大数据处理技巧》电子书封面

数据算法:Hadoop/Spark大数据处理技巧

  • 发布时间:2019年08月14日 22:20:04
  • 作者:饶琛琳
  • 大小:34.1 MB
  • 类别:大数据电子书
  • 格式:PDF
  • 版本:高清版
  • 评分:8.5

    数据算法:Hadoop/Spark大数据处理技巧 PDF 高清版

      给大家带来的一篇关于大数据相关的电子书资源,介绍了关于数据算法、Hadoop、Spark、大数据处理方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小34.1 MB,饶琛琳编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.4。

      内容介绍

      数据算法:Hadoop/Spark大数据处理技巧 PDF

      数据算法:Hadoop/Spark大数据处理技巧介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。

      本书主要内容包括:
      ■ 完成超大量交易的购物篮分析。
      ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。
      ■ 使用超大基因组数据完成DNA和RNA测序。
      ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。
      ■ 推荐算法和成对文档相似性。
      ■ 线性回归、Cox回归和皮尔逊(Pearson)相关分析。

      目录

      • 第1章二次排序:简介 19
      • 第2章二次排序:详细示例 42
      • 第3章 Top 10 列表 54
      • 第4章左外连接 96
      • 第5章反转排序 127
      • 第6章移动平均 137
      • 第7章购物篮分析 155
      • 第8章共同好友 182
      • 第9章使用MapReduce实现推荐引擎 201
      • 第10章基于内容的电影推荐 225
      • 第11章使用马尔可夫模型的智能邮件营销 .253
      • 第12章 K-均值聚类 282
      • 第13章 k-近邻 296
      • 第14章朴素贝叶斯 315
      • 第15章情感分析 349
      • 第16章查找、统计和列出大图中的所有三角形 354
      • 第17章 K-mer计数 375
      • 第18章 DNA测序 390
      • 第19章 Cox回归 413
      • 第20章 Cochran-Armitage趋势检验 426
      • 第21章等位基因频率 443
      • 第22章 T检验 468
      • 第23章皮尔逊相关系数 488
      • 第24章 DNA碱基计数 520
      • 第25章 RNA测序 543
      • 第26章基因聚合 553
      • 第27章线性回归 586
      • 第28章 MapReduce和幺半群 600
      • 第29章小文件问题 622
      • 第30章 MapReduce的大容量缓存 635
      • 第31章 Bloom过滤器 651Bloom

      学习笔记

      Hadoop的安装与环境搭建教程图解

      一、 Hadoop 的安装 1. 下载地址:https://archive.apache.org/dist/hadoop/common/我下载的是hadoop-2.7.3.tar.gz版本。 2. 在/usr/local/ 创建文件夹zookeeper mkdir hadoop 3.上传文件到Linux上的/usr/local/source目录下 3.解压缩 运行如下命令: tar -zxvf hadoop-2.7.3.tar.gz-C /usr/local/hadoop 4. 修改配置文件 进入到 cd /usr/local/hadoop/hadoop-2.7.3/etc/hadoop/ , 修改 hadoop-env.sh 运行 vimhadoop-env.sh ,修改JAVA_HOME 5.将Hadoop的执行命令加入到我们的环境变量里 在/etc/profile文件中加入: export PATH=$PATH:/usr/local/hadoop/hadoop-2.7.3/bin:/usr/local/hadoop/hadoop-2.7.3/sbin 执行/etc/profile文件: source /etc/profile 6. 将npfdev1机器上的hadoop复制到npfdev2和npfdev3和npfdev4机器上。使用下面的命令:……

      Hadoop2.8.1完全分布式环境搭建过程

      前言 本文搭建了一个由三节点(master、slave1、slave2)构成的Hadoop完全分布式集群(区别单节点伪分布式集群),并通过Hadoop分布式计算的一个示例测试集群的正确性。 本文集群三个节点基于三台虚拟机进行搭建,节点安装的操作系统为Centos7(yum源),Hadoop版本选取为2.8.0。作者也是初次搭建Hadoop集群,其间遇到了很多问题,故希望通过该博客让读者避免。 实验过程 1、基础集群的搭建 目的:获得一个可以互相通信的三节点集群 下载并安装VMware WorkStation Pro(支持快照,方便对集群进行保存)下载地址,产品激活序列号网上自行查找。 下载CentOS7镜像,下载地址。 使用VMware安装master节点(稍后其他两个……

      在Hadoop集群环境中为MySQL安装配置Sqoop的教程

      Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。 一、安装sqoop 1、下载sqoop压缩包,并解压 压缩包分别是:sqoop-1.2.0-CDH3B4.tar.gz,hadoop-0.20.2-CDH3B4.tar.gz, Mysql JDBC驱动包mysql-connector-java-5.1.10-bin.jar [root@node1 ~]# ll drwxr-xr-x 15 root root 4096 Feb 22 2011 hadoop-0.20.2-CDH3B4-rw-r--r-- 1 root root 724225 Sep 15 06:46 mysql-connector-java-5.1.10-bin.jardrwxr-xr-x 11 root root 4096 Feb 22 2011 sqoop-1.2.0-CDH3B4 2、将sqoop-1.2.0-……

      以上就是本次介绍的大数据电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:Python编程

      下一篇:ELK stack权威指南

      展开 +

      收起 -

      下载地址:百度网盘下载
      大数据相关电子书
      精通Hadoop
      精通Hadoop 高清版

      精通Hadoop 是一本循序渐进的指导手册,重点介绍了Hadoop的高级概念和特性。内容涵盖了Hadoop 2.X版的改进,MapReduce、Pig和Hive等的优化及其高级特性,Hadoop 2.0的专属特性(如YARN和HDFS联合),以

      立即下载
      Hadoop应用架构
      Hadoop应用架构 高清版

      本书就使用Apache Hadoop端到端数据管理方案提供专业架构指导。其他书籍大多针对Hadoop生态系统中的软件,讲解较为单一的使用方法,而本书偏重实践,在架构的高度详细阐释诸多工具如何相互

      立即下载
      Hadoop集群程序设计与开发
      Hadoop集群程序设计与开发 清晰扫描版

      本书系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、Hadoop的I/O操作、MapReduce编程基础、MapReduce不错编

      立即下载
      Hadoop深度学习
      Hadoop深度学习 中文扫描版

      本书用Hadoop在深度神经网络中部署大数据 deeplearning 深度学习,处理很多深度学习应用的热点问题并向读者披露解决方案的细节,欢迎下载

      立即下载
      深入理解Hadoop
      深入理解Hadoop 扫描第2版

      深入理解Hadoop(原书第2版) 作者基于对Hadoop系统的实践,深入浅出地对Hadoop进行了详细的讲解,包含大量的实例和技巧,可帮助有一定基础的开发者快速掌握分布式系统。 本书主要内容包括:第

      立即下载
      基于Hadoop与Spark的大数据开发实战
      基于Hadoop与Spark的大数据开发实战 原书影印版

      1、选取知识点核心实用,以互联网 实现终身学习 2、以企业需求为设计导向,以任务驱动为讲解方式 3、以案例为主线组织知识点,以实战项目来提升技术 4、充分考虑学习者的认知曲线,由浅入深,边讲边练

      立即下载
      Elasticsearch集成Hadoop最佳实践
      Elasticsearch集成Hadoop最佳实践 中文高清版

      ElasticSearch是一个开源的分布式搜索引擎,具有高可靠性,支持非常多的企业级搜索用例。本书全面介绍Elasticsearch Hadoop技术用于大数据分析以及数据可视化的方法,感兴趣的小伙伴们可以参考一下

      立即下载
      读者留言
      小样Yao

      小样Yao 提供上传

      资源
      37
      粉丝
      45
      喜欢
      265
      评论
      20

      Copyright 2018-2020 www.xz577.com 码农之家

      版权投诉 / 书籍推广 / 赞助:520161757@qq.com