《Mahout实践指南》源代码

《Mahout实践指南》源代码

  • 大小:1.96 MB
  • 类型:Mahout
  • 格式:PDF
  • 热度:656
  • 作者:Piero、Giacomelli
  • 更新:2022-04-11 09:05:42
vip 立即下载( 1.96 MB )
关注公众号免费下载
版权投诉 / 资源反馈(本资源由用户 司萧玉 投稿)

本站收集了一篇Mahout类书籍配套资源,介绍了关于Mahout、Mahout指南、Mahout方面的内容,本书是由机械工业出版社出版,已被181人关注,由古任真测试纠错,目前本书在Mahout类综合评分为:9.9分。

机器学习是人工智能领域里的一个重要分支,是进行复杂数据分析和构建智能系统的一个十分重要的研究方向。互联网数据不断地爆炸性增长标志着大数据时代的来临,机器学习领域在处理大规模数据时将面临新的挑战。研究者除了从软件方面发明新的时间复杂度更低的可扩展的算法之外,还应积极地从硬件架构方面进行改进,其中值得关注的方向有两个:将并行计算和分布式计算引入机器学习。

并行计算当前的热门方向是GPU计算,将传统上同时运行在多台机器上的任务交给单台机器上的图形处理器处理,这使得并行计算的费用大大降低。Shane Cook撰写的《CUDA并行程序设计:GPU编程指南》是这方面的经典参考书。GPU的技巧已经大规模地应用到机器学习领域以改进传统的算法,两个有代表性的GPU机器学习库是Theano和GPUMLib。

分布式方面最有代表性的工作是Apache Hadoop。它支持在大型集群中运行应用程序。最为重要的是,该架构是Java语言编写的开源软件框架,它实现了Google的Map/Reduce框架,可供商业或科研免费使用。Mahout库就是在这样的背景下产生的。它建立在Hadoop的基础上,主要用于处理大规模的机器学习问题,其中核心算法有聚类、分类、协同过滤。同样,该库是开源免费的,且支持商业级别的机器学习方面的应用。

针对从事机器学习应用方面的开发人员以及机器学习理论研究方面的科研人员使用Mahout,本书提供了非常有价值的参考。作者在将Mahout用于商业领域方面经验丰富,本书旨在降低Mahout初学者的入门门槛。本书特点如下:
通过分析大量的实例,展示了如何更好地使用Mahout算法,主要有分类算法、聚类算法以及遗传算法。
由浅入深讲解实例,帮助读者逐步掌握Mahout的应用方法。
图文并茂,让读者及时了解每一步操作之后的效果,帮助读者更好地检验学习进度。
写作方式独特,通过编码的方式帮助读者了解代码的目标及含义,避开代码背后复杂的机理。
避开烦琐的数学表述,通过具体而形象的描述,让读者直观了解机器学习技术。
值得一提的是,Mahout主要用在Linux平台上,但是对于使用Windows系统的大部分读者来说,这并不是一个障碍。本书通过详尽的描述,让不熟悉Linux的读者也可以学到Linux的基本使用技巧。实际上,本书中所有的代码都是在Windows系统下编写的,作者通过在Windows上安装Virtual Box软件来使用Linux平台,这种方式为那些Windows系统下的开发者使用Mahout库提供了一个良好的建议。
为了方便读者正确、迅速地理解本书,译者对本书的一些错误进行了修正,并在某些表述不太清楚的地方添加了注释,希望对读者理解本书内容有所帮助。然而,不得不承认,尽管译者从事的研究方向是机器学习,但由于水平有限,本书难免存在错误。欢迎读者及时向出版社指出,便于再版时予以更正。
特别感谢机械工业出版社编辑为本书出版所付出的辛勤劳动。
最后,感谢夫人靖莹以及耿光刚博士在文字校稿方面给予的支持和帮助。
靳小波

封面图

目录

  • 译者序
  • 前言
  • 关于评阅者
  • 致谢
  • 第1章Mahout入门 / 1
  • 秘笈1安装Java和Hadoop / 1
  • 秘笈2设置Maven和NetBeans开发环境 / 6
  • 秘笈3编写一个基本的推荐系统 / 9
  • 第2章使用序列文件——什么时候和为什么 / 19
  • 秘笈4从命令行创建序列文件 / 20
  • 秘笈5编写代码创建序列文件 / 23
  • 秘笈6编码实现读取序列文件 / 28
  • 第3章将Mahout和外部资源整合 / 33
  • 秘笈7导入外部资源到HDFS / 34
  • 秘笈8将数据从HDFS导入到RDBMS / 43
  • 秘笈9创建一个Sqoop作业来处理RDBMS / 45
  • 秘笈10使用Sqoop API导入数据 / 47
  • 第4章实现朴素贝叶斯分类器 / 49
  • 秘笈11使用Mahout文本分类器演示基本的使用样例 / 50
  • 秘笈12编码实现朴素贝叶斯分类器 / 60
  • 秘笈13通过命令行使用互补朴素贝叶斯 / 64
  • 秘笈14编码使用互补朴素贝叶斯分类器 / 65
  • 第5章股市预测 / 67
  • 秘笈15为logistic回归准备数据 / 67
  • 秘笈16使用logistic预测GOOG股票动态 / 71
  • 秘笈17通过Java编码使用自适应的logistic回归 / 76
  • 秘笈18在大规模的数据集上使用logistic回归 / 79
  • 秘笈19使用随机森林预测市场动态 / 83
  • 第6章顶棚聚类 / 87
  • 秘笈20基于命令行的顶棚聚类 / 87
  • 秘笈21基于带参数命令行的顶棚聚类 / 91
  • 秘笈22通过Java代码使用顶棚聚类 / 95
  • 秘笈23编写你自己的距离估计 / 98
  • 第7章频谱聚类 / 101
  • 秘笈24通过命令行使用EigenCuts / 101
  • 秘笈25在Java代码中使用EigenCuts / 104
  • 秘笈26从原始数据创建相似度矩阵 / 108
  • 秘笈27使用频谱聚类进行图像分割 / 114
  • 第8章K-均值聚类 / 119
  • 秘笈28在Java代码中使用K-均值聚类 / 119
  • 秘笈29使用K-均值聚类对交通事故进行聚类 / 124
  • 秘笈30使用MapReduce进行K-均值聚类 / 128
  • 秘笈31命令行方式使用K-均值聚类 / 132
  • 第9章软计算 / 139
  • 秘笈32使用Mahout进行频繁模式挖掘 / 139
  • 秘笈33为频繁模式挖掘创建评价准则 / 142
  • 秘笈34在Java代码中使用频繁模式挖掘 / 147
  • 秘笈35使用LDA创建主题 / 153
  • 第10章实现遗传算法 / 159
  • 秘笈36设置Mahout以便使用遗传算法 / 159
  • 秘笈37在图上使用遗传算法 / 163
  • 秘笈38在Java代码中使用遗传算法 / 167

以上就是本次关于配套资源的介绍和部分内容,我们还整理了以往更新的其它相关电子书资源内容,可以在下方直接下载,关于相关的资源我们在下方做了关联展示,需要的朋友们也可以参考下。

相关资源

  • 离散数学(第4版)

    离散数学(第4版) 课后答案

    本书包括以下6个方面的内容: (1)数理逻辑; (2)集合论; (3)代数结构; (4)图论; (5)组合分析初步; (6)形式语言与自动机初步. 书中概念论述清楚,讲解翔实,通俗易懂,并且着重于概念的应用,而不着重于定理的证明.每章后均附有习题.建议学时60~80. 本书可以作为计算机及信息管理等相关专业本科生的教材,也可以作为计算机软件专业水平考试的参考书.同时还可以供从事计算机软件、硬件开发和应用的人员使用.另有配套教材《离散数学题解》(第三

    大小:5.18 MB离散数学课后答案

  • LeetCode题解手册:Java语言实现

    LeetCode题解答案(基于Java实现) 是一本基于Java语言实现的LeetCode题解,格式为PDF,可作为刷题的辅助和参考,方便阅读,也方便打印出来学习。需要的朋友可下载试试! 这本书是英文版的所以阅读起来比较麻烦,但是也不能影响这是一本好书! 内容 1 Rotate Array in Java 2 Evaluate Reverse Polish Notation 3Solution of Longest Palindromic Substring in Java 4Solution Word

    大小:1.3 MBLeetCode手册

  • 现代操作系统(第3版)

    现代操作系统(第3版) 课后答案

    《现代操作系统》内容为:Tanenbaum教授作为三个操作系统的设计师或联合设计师,具有长期设计开发操作系统的经验,从而把其对理论的深入理解和具体实践融入书中,使《现代操作系统(英文版第3版)》成为操作系统领域的经典之作。在《现代操作系统(英文版第3版)》第3版中,作者深入讨论了许多主题,包括:进程,线程,存储管理,文件系统,I/O死锁,接口设计,多媒体,性能权衡。以及有关操作系统设计的最新趋势。书中不仅涵盖了现代操作系统的

    大小:18.2 MB操作系统课后答案

  • 图论

    图论 课后答案

    《21世纪高等院校教材:图论》系统阐述图论与算法图论的基本概念、理论、算法及其应用,建立图的重要矩阵与线性空间,论述计算复杂度理论中的NP完全性理论和的一些NPC问题等。《21世纪高等院校教材:图论》概念明确、立论严谨,语言流畅生动,注重算法分析及其有效性;内容全面深入,可读与可教性强,是一部理想的图论基础性著作。 目录 章 图 1.1 从哥尼斯堡七桥问题谈起 1.2 图的基本概念 1.3 轨道和圈 1.4 Brouwer不动点定理 1.5 求短轨长度的算

    大小:723 KB图论课后答案

  • TCP/IP网络与协议

    TCP/IP网络与协议 课后答案

    《普通高校本科计算机专业特色教材精选网络与通信:TCP/IP网络与协议》共分21章,以自底向上的方法,全面系统地介绍了TCP/IP的层次结构和协议的基本原理。本书的内容主要包括因特网的体系结构、IP地址、地址与解析、IP协议、差错与控制报文协议、IP路由、传输层协议、域名系统、引导协议与动态主机配置协议、IP组播、文件传输协议、邮件传输协议、远程登录协议、超文本传输协议、简单网络管理协议、移动IP、因特网服务质量、多协议标签交换

    大小:535 KBTCP/IP课后答案

  • 《网络营销与策划》教案,习题答案

    《网络营销与策划》教案,习题答案

    内容介绍 本书是普通高等教育十一五规划教材,每章内容由理论知识、实训和习题三部分组成。本书内容和收集的案例都是目前较为流行的,特别是移动营销是当前网络营销技术中最为先进的一种营销方式。在编写时采取理论知识与实际案例相结合的方式,由浅入深、循序渐进,易看懂、易操作,易被广大读者所接受。 本书包括:网络营销概述、网络营销的理论框架、网络市场调研与策划、网络营销战略分析与策划、网络营销的信息搜索策略、E-mail营

    大小:3.59 MB网络营销配套资源

  • 《中文版Dreamweaver CC基础培训教程(移动学习版)》PPT,素材

    《中文版Dreamweaver CC基础培训教程(移动学习版)》PPT,素材

    编辑推荐 1.配移动学习平台,方便学生随时学习。通过扫描封面二维码,添加人邮云课公众号,即可将课程添加到我的课程里,随时可以移动学习。 2.配套丰富的教学资源,提供素材文件,PPT课件,教学教案等资源,方便老师教学。 3.双色印刷,成品质量好。 内容简介 Dreamweaver 是用户需求量*大、*受个人和企业青睐的网页制作软件之一。本书以目前 广泛流行的 Dreamweaver CC 为蓝本,讲解使用 Dreamweaver 制作网页的方法。首先对网页的 基础知识进行详细介

    大小:650 MBDreamweaver配套资源

  • 《深入浅出Docker》随书源码资源

    《深入浅出Docker》随书源码资源

    作者: 【英】Nigel Poulton(奈吉尔 波尔顿) 译者: 李瑞丰 ,刘康 编辑: 陈聪聪 这书是一本Docker新手入门书籍,共分成17章,将每一原素分为不一样的一部分,随后将这种一部分溶解为简洁明了的引言,深层次的解析及其有关的指令。假如您仅仅在找寻备考课程内容,这能够出示更强的了解和迅速参照手册。新版本在內容上开展了丰富和健全,协助阅读者更为刻骨铭心地了解Docker。这书合适开源系统器皿服务项目Docker很感兴趣的开发工作人员、Docker的新

    大小:7 MBDocker配套资源

下载地址

相关声明:

学习笔记