当前位置:首页 > 数据库 >
《大数据平台基础架构指南》电子书封面

大数据平台基础架构指南

  • 发布时间:2020年07月07日 10:24:04
  • 作者:刘旭晖
  • 大小:137.7 MB
  • 类别:大数据电子书
  • 格式:PDF
  • 版本:影印版
  • 评分:9.7

    大数据平台基础架构指南 PDF 影印版

      给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据、架构方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小137.7 MB,刘旭晖编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.7。

      内容介绍

      大数据平台基础架构指南 pdf

      当今不无互联网大数据具体技术模块的书藉,但却非常少有从数据管理平台整体建设和产品形态的宏观经济多角度下手来诠释的。一本书重点介绍大数据开发平台服务搭建的整体构思和解决方法,内容涵盖一个成熟的大数据开发平台不可或缺的各种核心模块:工作流引擎调度系统、集成化开发环境、元数据管理系统、数据传输服务、信息可视化服务、数据质量管理服务,以及测试环境的建设等。书中还凝固了创作者很多年数据平台的实践证明,以及对互联网大数据相关从业者能力建设和职业生涯规划的难能可贵建议。一本书适合广大志在深层次了解数据管理平台建设、研发和应用的在职员工及本科学校老师与学生。

      目录

      • 第1章 大数据平台整体建设思想 1
      • 第2章 服务意识和产品思想的培养 17
      • 第3章 工作流(作业)调度系统 39
      • 第4章 集成开发环境门户建设 81
      • 第5章 数据采集、传输、交换、同步服务 101
      • 第6章 数据可视化平台 130
      • 第7章 安全与权限管控 149
      • 第8章 数据质量管理 175
      • 第9章 大数据集群迁移经验谈 195
      • 第10章 谈谈大数据码农的职业发展问题 210

      读书笔记

      大数据用什么语言?

      大数据是这近年来一直比较火的一个词语,让很多人都情不自禁走入大数据的学习中。可是你知道大数据用什么语言吗?

      大数据用什么语言?

      1、Python语言
      十多年来,Python在学术界当中一直很流行,尤其是在自然语言处理(NLP)等领域。因而,如果你有一个需要NLP处理的项目,就会面临数量多得让人眼花缭乱的选择,包括经典的NTLK、使用GenSim的主题建模,或者超快、准确的spaCy。同样,说到神经网络,Python同样游刃有余,有Theano和Tensorflow;随后还有面向机器学习的scikit-learn,以及面向数据分析的NumPy和Pandas。
      还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式,将代码、图形以及几乎任何对象混合起来。这一直是Python的杀手级功能之一,不过这年头,这个概念证明大有用途,以至于出现在了奉行读取-读取-输出-循环(REPL)概念的几乎所有语言上,包括Scala和R。
      Python往往在大数据处理框架中得到支持,但与此同时,它往往又不是“一等公民”。比如说,Spark中的新功能几乎总是出现在Scala/Java绑定的首位,可能需要用PySpark编写面向那些更新版的几个次要版本(对Spark Streaming/MLLib方面的开发工具而言尤为如此)。
      与R相反,Python是一种传统的面向对象语言,所以大多数开发人员用起来会相当得心应手,而初次接触R或Scala会让人心生畏惧。一个小问题就是你的代码中需要留出正确的空白处。这将人员分成两大阵营,一派觉得“这非常有助于确保可读性”,另一派则认为,我们应该不需要就因为一行代码有个字符不在适当的位置,就要迫使解释器让程序运行起来。
      2、R语言
      在过去的几年时间中,R语言已经成为了数据科学的宠儿——数据科学现在不仅仅在书呆子一样的统计学家中人尽皆知,而且也为华尔街交易员,生物学家,和硅谷开发者所家喻户晓。各种行业的公司,例如Google,Facebook,美国银行,以及纽约时报都使用R语言,R语言正在商业用途上持续蔓延和扩散。
      R语言有着简单而明显的吸引力。使用R语言,只需要短短的几行代码,你就可以在复杂的数据集中筛选,通过先进的建模函数处理数据,以及创建平整的图形来代表数字。它被比喻为是Excel的一个极度活跃版本。
      R语言最伟大的资本是已围绕它开发的充满活力的生态系统:R语言社区总是在不断地添加新的软件包和功能到它已经相当丰富的功能集中。据估计,超过200万的人使用R语言,并且最近的一次投票表明,R语言是迄今为止在科学数据中最流行的语言,被61%的受访者使用(其次是Python,39%)。
      3、JAVA
      Java,以及基于Java的框架,被发现俨然成为了硅谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter,LinkedIn和Facebook,那么你会发现,Java是它们所有数据工程基础设施的基础语言,”Driscoll说。
      Java不能提供R和Python同样质量的可视化,并且它并非统计建模的最佳选择。但是,如果你移动到过去的原型制作并需要建立大型系统,那么Java往往是你的最佳选择。

      以上就是大数据用什么语言?的详细内容,更多请关注码农之家其它相关文章!

       

      学习笔记

      大数据用什么语言?

      大数据是这近年来一直比较火的一个词语,让很多人都情不自禁走入大数据的学习中。可是你知道大数据用什么语言吗? 1、Python语言 十多年来,Python在学术界当中一直很流行,尤其是在自然语言处理(NLP)等领域。因而,如果你有一个需要NLP处理的项目,就会面临数量多得让人眼花缭乱的选择,包括经典的NTLK、使用GenSim的主题建模,或者超快、准确的spaCy。同样,说到神经网络,Python同样游刃有余,有Theano和Tensorflow;随后还有面向机器学习的scikit-learn,以及面向数据分析的NumPy和Pandas。 还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式,将代码、图形以及几乎任……

      python使用pandas处理大数据节省内存技巧(推荐)

      一般来说,用pandas处理小于100兆的数据,性能不是问题。当用pandas来处理100兆至几个G的数据时,将会比较耗时,同时会导致程序因内存不足而运行失败。 当然,像Spark这类的工具能够胜任处理100G至几个T的大数据集,但要想充分发挥这些工具的优势,通常需要比较贵的硬件设备。而且,这些工具不像pandas那样具有丰富的进行高质量数据清洗、探索和分析的特性。对于中等规模的数据,我们的愿望是尽量让pandas继续发挥其优势,而不是换用其他工具。 本文我们讨论pandas的内存使用,展示怎样简单地为数据列选择合适的数据类型,就能够减少dataframe近90%的内存占用。 处理棒球比赛记录数据 我们将处理13……

      以上就是本次介绍的大数据电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:Elasticsearch实战

      下一篇:ExtJS实战

      展开 +

      收起 -

      下载地址:百度网盘下载
      读者留言
      cheng1483

      cheng1483 提供上传

      资源
      26
      粉丝
      30
      喜欢
      88
      评论
      16

      Copyright 2018-2020 www.xz577.com 码农之家

      版权投诉 / 书籍推广 / 赞助:520161757@qq.com