当前位置:首页 > 网络与数据通信 >
《大数据架构和算法实现之路:电商系统的技术实战》电子书封面

大数据架构和算法实现之路:电商系统的技术实战

  • 发布时间:2020年01月04日 16:50:31
  • 作者:黄申
  • 大小:138 MB
  • 类别:大数据电子书
  • 格式:PDF
  • 版本:高清版
  • 评分:9.4

    大数据推荐

    大数据架构和算法实现之路:电商系统的技术实战 PDF 高清版

      给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据架构、算法、电商系统方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小138 MB,黄申编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.5分

      Tags:

      内容介绍

      本书介绍了一些主流技术在商业项目中的应用,包括机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念及常用的消息和缓存机制。在这个过程中,我们有机会实践R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系统。如前所述,本书最大的特色就是,从商业需求出发演变到合理的技术方案和实现,因此根据不同的应用场景、不同的数据集合、不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。

      目录

      • 目录
      • 推荐序
      • 前言
      • 引子 1
      • 第一篇 支持高效的运营
      • 第1章 方案设计和技术选型:分类 5
      • 1.1 分类的基本概念 6
      • 1.2 分类任务的处理流程 7
      • 1.3 算法:朴素贝叶斯和K最近邻 8
      • 1.3.1 朴素贝叶斯 8
      • 1.3.2 K最近邻 9
      • 1.4 分类效果评估 10
      • 1.5 相关软件:R和Mahout 12
      • 1.5.1 R简介 12
      • 1.5.2 Mahout简介 13
      • 1.5.3 Hadoop简介 14
      • 1.6 案例实践 17
      • 1.6.1 实验环境设置 17
      • 1.6.2 中文分词 18
      • 1.6.3 使用R进行朴素贝叶斯分类 22
      • 1.6.4 使用R进行K最近邻分类 37
      • 1.6.5 单机环境使用Mahout运行朴素贝叶斯分类 39
      • 1.6.6 多机环境使用Mahout运行朴素贝叶斯分类 47
      • 1.7 更多的思考 58
      • 第2章 方案设计和技术选型:聚类 60
      • 2.1 聚类的基本概念 60
      • 2.2 算法:K均值和层次型聚类 61
      • 2.2.1 K均值聚类 61
      • 2.2.2 层次型聚类 62
      • 2.3 聚类的效果评估 64
      • 2.4 案例实践 66
      • 2.4.1 使用R进行K均值聚类 66
      • 2.4.2 使用Mahout进行K均值聚类 69
      • 第3章 方案设计和技术选型:因变量连续的回归分析 74
      • 3.1 线性回归的基本概念 74
      • 3.2 案例实践 76
      • 3.2.1 实验环境设置 76
      • 3.2.2 R中数据的标准化 78
      • 3.2.3 使用R的线性回归分析 81
      • 第二篇 为顾客发现喜欢的商品:
      • 基础篇
      • 第4章 方案设计和技术选型:搜索 94
      • 4.1 搜索引擎的基本概念 94
      • 4.1.1 相关性 95
      • 4.1.2 及时性 97
      • 4.2 搜索引擎的评估 100
      • 4.3 为什么不是数据库 103
      • 4.4 系统框架 104
      • 4.4.1 离线预处理 104
      • 4.4.2 在线查询 107
      • 4.5 常见的搜索引擎实现 108
      • 4.5.1 Lucene简介 108
      • 4.5.2 Solr简介 113
      • 4.5.3 Elasticsearch简介 120
      • 4.6 案例实践 123
      • 4.6.1 实验环境设置 123
      • 4.6.2 基于Solr的实现 123
      • 4.6.3 基于Elasticsearch的实现 154
      • 4.6.4 统一的搜索API 175
      • 第三篇 为顾客发现喜欢的商品:高级篇
      • 第5章 方案设计和技术选型:NoSQL和搜索的整合 195
      • 5.1 问题分析 195
      • 5.2 HBase简介 196
      • 5.3 结合HBase和搜索引擎 203
      • 5.4 案例实践 204
      • 5.4.1 实验环境设置 204
      • 5.4.2 HBase的部署 205
      • 5.4.3 HBase和搜索引擎的集成 211
      • 第6章 方案设计和技术选型:查询分类和搜索的整合 219
      • 6.1 问题分析 219
      • 6.2 结合分类器和搜索引擎 219
      • 6.3 案例实践 225
      • 6.3.1 实验环境设置 225
      • 6.3.2 构建查询分类器 226
      • 6.3.3 定制化的搜索排序 229
      • 6.3.4 整合查询分类和定制化排序 236
      • 第7章 方案设计和技术选型:个性化搜索 245
      • 7.1 问题分析 245
      • 7.2 结合用户画像和搜索引擎 245
      • 7.3 案例实践 249
      • 7.3.1 用户画像的读取 250
      • 7.3.2 个性化搜索引擎 253
      • 7.3.3 结果对比 260
      • 第8章 方案设计和技术选型:搜索分片 267
      • 8.1 问题分析 267
      • 8.2 利用搜索的分片机制 269
      • 8.3 案例实践 271
      • 8.3.1 Solr路由的实现 271
      • 8.3.2 Elasticsearch路由的实现 278
      • 第9章 方案设计和技术选型:搜索提示 283
      • 9.1 问题分析 283
      • 9.2 案例实践:基础方案 284
      • 9.2.1 Solr搜索建议和拼写纠错的实现 284
      • 9.2.2 Elasticsearch搜索建议和拼写纠错的实现 286
      • 9.3 改进方案 291
      • 9.4 案例实践:改进方案 294
      • 第10章 方案设计和技术选型:推荐 303
      • 10.1 推荐系统的基本概念 305
      • 10.2 推荐的核心要素 306
      • 10.2.1 系统角色 306
      • 10.2.2 相似度 307
      • 10.2.3 相似度传播框架 307
      • 10.3 推荐系统的分类 307
      • 10.4 混合模型 311
      • 10.5 系统架构 312
      • 10.6 Mahout中的推荐算法 313
      • 10.7 电商常见的推荐系统方案 314
      • 10.7.1 电商常见的推荐系统方案 314
      • 10.7.2 相似度的计算 317
      • 10.7.3 协同过滤 319
      • 10.7.4 结果的查询 320
      • 10.8 案例实践 321
      • 10.8.1 基于内容特征的推荐 321
      • 10.8.2 基于行为特征的推荐 341
      • 第四篇 获取数据,跟踪效果
      • 第11章 方案设计和技术选型:行为跟踪 369
      • 11.1 基本概念 370
      • 11.1.1 网站的核心框架 370
      • 11.1.2 行为数据的类型 371
      • 11.1.3 行为数据的模式 372
      • 11.1.4 设计理念 374
      • 11.2 使用谷歌分析 375
      • 11.3 自行设计之Flume、HDFS和Hive的整合 378
      • 11.3.1 数据的收集——Flume简介 378
      • 11.3.2 数据的存储——Hadoop HDFS回顾 382
      • 11.3.3 批量数据分析——Hive简介 383
      • 11.3.4 Flume、HDFS和Hive的整合方案 386
      • 11.4 自行设计之Flume、Kafka和Storm的整合 386
      • 11.4.1 实时性数据分析之Kafka简介 386
      • 11.4.2 实时性数据分析之Storm简介 388
      • 11.4.3 Flume、Kafka和Storm的整合方案 390
      • 11.5 案例实践 391
      • 11.5.1 数据模式的设计 392
      • 11.5.2 实验环境设置 392
      • 11.5.3 谷歌分析实战 394
      • 11.5.4 自主设计实战之Flume、HDFS和Hive的整合 401
      • 11.5.5 自主设计实战之Flume、Kafka和Storm的整合 410
      • 11.6 更多的思考 424
      • 后记 425

      以上就是本次介绍的大数据电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:Spark MLlib机器学习:算法、源码及实战详解

      下一篇:知晓程序:微信小程序入门指南

      展开 +

      收起 -

      下载地址:百度网盘下载
      大数据 相关电子书
      基于Python的大数据分析基础及实战
      基于Python的大数据分析基础及实战 PDF 高质量版

      配套设施教程视频教你如何学Python 提炼出避坑技能招式简要、高效率懂Python 实战演练经典案例轻轻松松、迅速玩Python 解读实践活动实例视頻源码源统计数据 对于Python初学者量身订做,新手入

      立即下载
      人工智能与大数据技术导论
      人工智能与大数据技术导论 PDF 完整超清版

      这书从人工智能的界定下手,前两章论述了人工智能火爆的诱因、发展史、全产业链、技术性和应用领域,从第3章刚开始详尽论述人工智能的好多个关键技术(互联网大数据、深度学习、深度

      立即下载
      Spark大数据商业实战三部曲
      Spark大数据商业实战三部曲 PDF 超清扫描版

      本书基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,循序渐进地全面解析了Spark 2.2,完全全面,欢迎下载

      立即下载
      Elasticsearch大数据搜索引擎
      Elasticsearch大数据搜索引擎 PDF 原版超清版

      在本次内容里给大家带来的是罗刚的Elasticsearch大数据搜索引擎相关内容的资源,本书介绍了使用Elasticsearch作为数据管理平台的日志监控与分析方法,介绍了使用OCR从图像中提取文本以及问答式搜索的开发方法。

      立即下载
      纵观大数据建模、分析及应用
      纵观大数据建模、分析及应用 PDF 完整扫描版

      大数据分析是个入门容易但精专颇难的领域。本书以大数据分析为主线,以电信行业应用为背景,以一线操作者为对象,系统阐述了大数据分析的理论、方法和实践。感兴趣的可以下载学习

      立即下载
      基于Hadoop的大数据分析和处理
      基于Hadoop的大数据分析和处理 PDF 完整原版

      这书根据云计算技术和互联网大数据,详细介绍大数据处理和剖析的技术性,分成两一部分。*一部分详细介绍Hadoop基本知识,內容包含:Hadoop的详细介绍和集群服务器搭建、Hadoop的各分部式系

      立即下载
      大数据治理
      大数据治理 PDF 高质量版

      大数据治理匠心独运,揭开了大数据的迷人景致,为我们应对大数据领域的挑战,提供了必要的智力成果。感兴趣的可以了解一下

      立即下载
      Hadoop大数据挖掘从入门到进阶实战
      Hadoop大数据挖掘从入门到进阶实战 PDF 影印版

      博客园资深博主、极客学院金牌讲师多年Hadoop实战经验分享;详解Hadoop完整的技术体系:基础部署、集群管理、底层设计、项目实战;200分钟配套视频;51个实例,10个案例,大量避坑技巧

      立即下载
      读者心得
      141小时17分钟前回答

      MySQL 大数据量快速插入方法和语句优化分享

      锁定也将降低多连接测试的整体时间,尽管因为它们等候锁定最大等待时间将上升。例如: Connection 1 does 1000 inserts Connections 2, 3, and 4 do 1 insert Connection 5 does 1000 inserts 如果不使用锁定,2、3和4将在1和5前完成。如果使用锁定,2、3和4将可能不在1或5前完成,但是整体时间应该快大约40%。 INSERT、UPDATE和DELETE操作在MySQL中是很快的,通过为在一行中多于大约5次连续不断地插入或更新的操作加锁,可以获得更好的整体性能。如果在一行中进行多次插入,可以执行LOCK TABLES,随后立即执行UNLOCK TABLES(大约每1000行)以允许其它的线程访问表。这也会获得好的性能。 INSERT装载数据比LOAD DATA INFILE要慢得多,即使是使用上……

      79小时13分钟前回答

      用SQL语句解决mysql导入大数据文件的问题

      对于经常使用MYSQL的人来说,phpmyadmin是一个必备的工具。这个工具非常强大,几乎可以完成所有的数据库操作,但是它也有一个弱点,对于往远程服务器上导入较大的数据文件的时候会速度奇慢,甚至出现长期没有响应的情况。 为什么会出现这样的情况呢?当我们选择一个sql数据文件并提交的时候,服务器首先要先把文件上传到服务器,然后才会执行导入代码把数据导入到数据库。我们知道phpmyadmin是通过web方式上传的数据文件,而web方式上传是很不稳定的,尤其是网速慢的时候,这就是为什么我们会有那么多次在电脑前面苦苦等待而最终却没有结果的原因。 通过上面的分析,我们知道这个问题是出在……

      155小时8分钟前回答

      大数据专业学什么

      大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。目前,大数据算是非常火的专业,下面我将和大家谈谈大数据专业学什么? 大数据专业分为两种,其一是大数据开发,其二是数据分析与挖掘。 1、大数据开发:Ja-va、大数据基础、Hadoop体系、Scala、kafka、Spark等内容; 2、数据分析与挖掘:Python、关系型数据库MySQL、文档数据库MongoDB、内存数据库Redis、数据处理、数据分析等。 以上就是大数据专业学什么的详细内容,更多请关注码农之家其它相关文……

      10小时1分钟前回答

      mysql大数据查询优化经验分享(推荐)

      正儿八经mysql优化! mysql数据量少,优化没必要,数据量大,优化少不了,不优化一个查询10秒,优化得当,同样查询10毫秒。 这是多么痛的领悟! mysql优化,说程序员的话就是:索引优化和where条件优化。 实验环境:MacBook Pro MJLQ2CH/A,mysql5.7,数据量:212万+ ONE: select * from article INNER JOIN ( SELECT id FROM article WHERE length(content_url) 0 and (select status from source where id = article.source_id)=1 and (select status from category where id = article.category_id)=1 and status = 1 and id 2164931 order by stick desc,pub_time desc limit 240,15 ) AS tUSING(id); 咋一看,大佬肯定会想杀了我,没事做啥自关联,还是inner join。XX楼的,把我的杀猪刀拿来,我要宰了博主!……

      码农之家

      赖明俊 提供上传

      资源
      21
      粉丝
      50
      喜欢
      113
      评论
      9

      Copyright 2018-2021 www.xz577.com 码农之家

      版权投诉 / 书籍推广:520161757@qq.com