标签分类
当前位置:首页 > 数据库电子书 > 机器学习电子书网盘下载
大数据搜索引擎原理分析及编程实现 大数据搜索引擎原理分析及编程实现
码小辫

码小辫 提供上传

资源
11
粉丝
38
喜欢
5
评论
19

    大数据搜索引擎原理分析及编程实现 PDF 原书完整版

    机器学习电子书
    • 发布时间:

    给大家带来的一篇关于机器学习相关的电子书资源,介绍了关于大数据、搜索引擎、编程方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小13.8 MB,刘凡平编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.8,更多相关的学习资源可以参阅 数据库电子书网络与数据通信电子书程序设计电子书、等栏目。

  • 大数据搜索引擎原理分析及编程实现 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1iL1A59sL5cYOcgql_nKL-g
  • 分享码:lut1
  • 大数据搜索引擎原理分析及编程实现

    大数据搜索引擎原理分析及编程实现 电子书封面

    读者评价

    提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的成果,并以模块化的方式进行组织
    看后对搜索引擎处理海量数据有些了解,希望再版能多些编程实现的例子.
    大数据是目前时髦的东西,技术高,难得较大,但必须学习、了解到东西。搜索引擎与大数据结合是目前市场要求的。

    内容介绍

    1、适合对自然语言处理及机器学习应用领域有兴趣的读者。

    2、适合对现代搜索引擎相关算法有兴趣的读者。

    3、适合对大数据分析、数据挖掘应用有兴趣的读者。

    4、适合互联网行业的不同层次从业者。

    5、适合从事搜索引擎优化的网络营销读者。

    6、适合高校中学习计算机、软件工程等相关专业的读者。

    本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式进行组织。着重介绍了机器学习在搜索引擎中的应用,包括中文分词、聚类、分类等核心的机器学习算法,并结合示例加以介绍和分析,使读者可以更好地理解机器学习在搜索引擎中的价值。还阐述了大数据给搜索引擎带来的新特性,结合目前大数据分析的主流工具,在搜索引擎中构建知识图谱,以及进行日志反馈学习机制,使得搜索引擎更加智能。本书适合作为互联网行业从业者的技术参考书,也适合作为搜索引擎爱好者的参考读物。
     

    目录

    • 第1章 引论 1
    • 1.1 搜索引擎的过去 1
    • 1.2 搜索引擎的现在 2
    • 1.3 搜索引擎的未来 4
    • 1.4 大数据与搜索引擎 6
    • 1.4.1 搜索价值提升 6
    • 1.4.2 用户价值提升 7
    • 1.5 大数据与人工智能 7
    • 1.5.1 人工智能发展 7
    • 1.5.2 人工智能技术 9
    • 1.6 本章小结 11
    • 第2章 搜索引擎原理与技术 12
    • 2.1 基本工作原理 12
    • 2.2 基本模块结构 13
    • 2.2.1 爬虫服务 14
    • 2.2.2 索引服务 15
    • 2.2.3 缓存服务 16
    • 2.2.4 搜索服务 17
    • 2.2.5 日志服务 19
    • 2.3 技术概要 20
    • 2.3.1 自然语言处理 20
    • 2.3.2 知识图谱技术 21
    • 2.3.3 海量数据存储 23
    • 2.3.4 分布式计算 25
    • 2.3.5 搜索排序技术 26
    • 2.4 本章小结 27
    • 第3章 自然语言处理框架 28
    • 3.1 英文分词 28
    • 3.2 中文分词 30
    • 3.2.1 中文分词概述 30
    • 3.2.2 基于词库的分词技术 31
    • 3.2.3 基于条件随机场的中文分词 33
    • 3.2.4 分词粒度 41
    • 3.3 词性标注 41
    • 3.3.1 隐马尔科夫模型概要 42
    • 3.3.2 隐马尔科夫模型与词性标注 43
    • 3.4 语义相似度 51
    • 3.5 依存句法分析 53
    • 3.5.1 依存句法分析概要 53
    • 3.5.2 依存句法分析实现 56
    • 3.6 情感倾向分析 59
    • 3.7 文档关键词抽取 61
    • 3.7.1 关键词抽取概述 61
    • 3.7.2 基于TF-IDF算法 62
    • 3.7.3 基于TextRank算法 64
    • 3.8 文档句子相似度分析 67
    • 3.8.1 句子相似度 68
    • 3.8.2 文档相似度 70
    • 3.9 文档核心句抽取 71
    • 3.10 聚类分类 74
    • 3.10.1 文本分类 75
    • 3.10.2 文本聚类 80
    • 3.11 语种检测 84
    • 3.12 本章小结 87
    • 第4章 构建大数据存储引擎 88
    • 4.1 架构体系 89
    • 4.1.1 结构概要 89
    • 4.1.2 服务器上线 92
    • 4.1.3 服务器下线 92
    • 4.1.4 数据读取 93
    • 4.2 数据模型 94
    • 4.3 数据压缩 96
    • 4.4 负载均衡 97
    • 4.5 数据存储逻辑视图 100
    • 4.6 本章小结 103
    • 第5章 构建分布式实时计算 104
    • 5.1 概述 104
    • 5.2 设计架构 106
    • 5.2.1 设计思想 106
    • 5.2.2 基本框架 108
    • 5.3 运行模式 110
    • 5.4 负载均衡 111
    • 5.5 通信设计 112
    • 5.5.1 基本方式 113
    • 5.5.2 分布式远程服务调用 113
    • 5.6 容灾恢复 114
    • 5.7 数据容错原理 115
    • 5.8 数据处理设计示例 117
    • 5.9 本章小结 118
    • 第6章 分布式可扩展爬虫 119
    • 6.1 爬虫体系架构 119
    • 6.1.1 主从分布式结构爬虫 120
    • 6.1.2 对等分布式结构爬虫 120
    • 6.1.3 基于分布式计算平台爬虫 121
    • 6.2 网页解析 122
    • 6.2.1 状态码处理 123
    • 6.2.2 链接去重 123
    • 6.2.3 广告识别 125
    • 6.2.4 网站地图 128
    • 6.2.5 非网页数据获取 129
    • 6.2.6 网页去重 130
    • 6.2.7 链接提取 134
    • 6.2.8 爬虫协议 135
    • 6.3 网页结构化 137
    • 6.3.1 网页的编码信息 137
    • 6.3.2 网页的正文信息 138
    • 6.3.3 网站的关键词信息 142
    • 6.3.4 网站的标题 142
    • 6.3.5 网页的发布时间 144
    • 6.3.6 网站语言检测 144
    • 6.3.7 其他结构化数据 145
    • 6.4 网页抓取策略 146
    • 6.5 爬虫权限应对 147
    • 6.6 深网抓取 150
    • 6.7 抓取更新策略 151
    • 6.8 本章小结 153
    • 第7章 大数据构建知识图谱 154
    • 7.1 概述 154
    • 7.2 搜索引擎与知识图谱 155
    • 7.3 可靠数据源选择 157
    • 7.4 实体抽取 158
    • 7.5 关系抽取 159
    • 7.5.1 关系抽取概述 160
    • 7.5.2 隐藏关系抽取 161
    • 7.5.3 结构化确定关系抽取 164
    • 7.5.4 非结构化确定关系抽取 166
    • 7.6 知识图谱检测 171
    • 7.6.1 实体关系修正 171
    • 7.6.2 实体对齐整合 172
    • 7.6.3 实体歧义分析 174
    • 7.7 知识推理与计算 175
    • 7.7.1 知识推理 175
    • 7.7.2 知识计算 176
    • 7.8 知识聚类 179
    • 7.9 智能搜索实现 181
    • 7.9.1 模式匹配 181
    • 7.9.2 知识拆解 182
    • 7.9.3 合并求解 184
    • 7.10 智能搜索扩展 186
    • 7.10.1 常识性智能搜索 186
    • 7.10.2 实时信息智能搜索 187
    • 7.10.3 可交互式智能搜索 187
    • 7.11 本章小结 189
    • 第8章 索引构建机制 190
    • 8.1 倒排索引 190
    • 8.1.1 倒排索引概述 191
    • 8.1.2 索引结构 192
    • 8.1.3 构建过程 194
    • 8.1.4 排序规则 195
    • 8.1.5 索引压缩 196
    • 8.1.6 更新策略 202
    • 8.2 分布式存储 202
    • 8.2.1 存储划分方式 203
    • 8.2.2 存储平衡策略 204
    • 8.3 存储索引 209
    • 8.3.1 二叉搜索树 210
    • 8.3.2 B树 211
    • 8.3.3 B+树 213
    • 8.3.4 B+树与文件索引 214
    • 8.4 字典树索引 216
    • 8.4.1 字典树索引概述 217
    • 8.4.2 字典树索引构建 219
    • 8.4.3 字典树查询优化 221
    • 8.5 本章小结 221
    • 第9章 搜索服务构建 223
    • 9.1 概述 223
    • 9.1.1 体系结构 223
    • 9.1.2 七何分析法 224
    • 9.1.3 搜索语法 225
    • 9.1.4 相关性排序 227
    • 9.1.5 不安全信息过滤 231
    • 9.2 大数据分布式缓存 235
    • 9.2.1 缓存结构设计 235
    • 9.2.2 缓存更新策略 236
    • 9.3 文本纠错算法 237
    • 9.3.1 中文文本纠错 237
    • 9.3.2 英文文本纠错 241
    • 9.4 结果显示算法 242
    • 9.4.1 动态摘要 243
    • 9.4.2 关键词高亮算法 246
    • 9.4.3 网页快照 250
    • 9.5 搜索智能提示 250
    • 9.6 网页排序 254
    • 9.6.1 基于PageRank的网页重要性评价 254
    • 9.6.2 基于Hits算法的网页权威性评价 257
    • 9.6.3 Hilltop算法 259
    • 9.6.4 网页作弊评价 260
    • 9.6.5 网页排序调试 263
    • 9.7 个性化搜索 264
    • 9.7.1 个性化搜索示例 264
    • 9.7.2 人工神经网络与个性化搜索 265
    • 9.7.3 地理位置搜索 266
    • 9.8 图片搜索 271
    • 9.8.1 基于内容的图片搜索 271
    • 9.8.2 基于文本的图片搜索 272
    • 9.9 搜索与广告 274
    • 9.9.1 广告投放策略 275
    • 9.9.2 基于User-Based协同过滤的广告投放 275
    • 9.9.3 基于Item-Based协调过滤的广告投放 277
    • 9.9.4 基于混合模式广告投放 278
    • 9.9.5 广告投放评价 279
    • 9.10 搜索引擎评价 282
    • 9.10.1 搜索评价概述 282
    • 9.10.2 基于准确率、召回率及F值评价 283
    • 9.10.3 归一化折扣累计增益 285
    • 9.11 本章小结 288
    • 第10章 基于用户日志的反馈学习 290
    • 10.1 基于用户搜索词语的分析 290
    • 10.1.1 发现搜索词的价值 291
    • 10.1.2 发现不明意图下的用户行为 292
    • 10.2 基于用户点击日志的分析 293
    • 10.2.1 时间与搜索意图的关系 293
    • 10.2.2 地理位置与搜索意图的关系 294
    • 10.2.3 点击日志与同义词 296
    • 10.2.4 点击日志与词语权重 297
    • 10.2.5 点击日志与新词分类 298
    • 10.2.6 点击日志与知识图谱 300
    • 10.2.7 点击日志与网页重排序 301
    • 10.2.8 点击日志与网页评价 303
    • 10.3 基于用户的特征分析 304
    • 10.3.1 用户跟踪 305
    • 10.3.2 用户群体特征 306
    • 10.3.3 用户个体特征 308
    • 10.4 本章小结 309

    上一篇:网络数据的统计分析:R语言实践  下一篇:Java开发实例大全(提高卷)

    展开 +

    收起 -

    机器学习相关电子书
    学习笔记
    网友NO.35808
    网友NO.35808

    对于搜索引擎,我们几乎每天都要用到,这个也是集体智慧算法中最重要的算法之一。其中Google的pagerank算法是引领搜索引擎前进的一大重要算法。当然,这儿学习的是小数据搜索。
    1.获取数据,建立索引
    这儿用的是sqlite数据库,因为它轻量。没有c/s架构,直接可以用。因为中文的分词也是一门科学,所以这儿用的是英文文档来实现简单的搜索引擎。这儿的网页全部来源于维基百科。
    获取数据的过程就是对所有的网页进行抓取,分析,将文章中的单词全部拆分出来,然后建立数据库,将我们需要的信息存放进数据库。这儿涉及了python 网页解析的beautifulsoup模块的使用,就自己理解。关于获取数据这块,自己理解理解就行了。因为我敲完了代码,发现集体智慧编程里面的那个网页已经找不到了。完全没法解析,没法获取数据。不过这个获取数据这个过程挺重要的。

    网友NO.48572
    网友NO.48572

    三类书籍 和 两类知识:
    书:【1】有一些书是对某一新知识领域的介绍,将此知识领域从头到尾、从内而外剖开了分析,吸收这些知识主要在于“记忆”,(也有“领会”)。【2】而有一些好书,往往整本书就是在阐述一句或几句话,一个或数个思想,这些就是这本书最重要的部分,主要在于“领会”。【3】还有一些书可能就像是工具,例如字典,遇到问题去查就好,主要在“查找”。也有各种类型掺杂的书。这几类书各有其方向、着重点,阅读时方法也不尽相同。
    知识:【1】对于各种林林总总的技术,无论是它的安装步骤、使用说明还是其疑难杂症,电子书、在网络中的文章及FAQ中总是会有解决办法;或者技术它存有尚未解决的问题、待修复的BUG,也大部分能在网上找到答案,(不能找到的就等你来发明和创造了,诺贝尔奖就靠你咯!)。上面这些都属于“techknowledge(技术)”的范畴,就像第一类或第三类书,主要在于“记忆”或“查找”。【2】可是,还有一些思想上的、认知上的东西,网上是很难获取的,也很不容易表达清楚,它们应该归类于“Thinking(思想)”,像是第二类书籍,重点在于“领会”。在分享“techknowledge(技术)”的同时,我更希望把这些“Thinking(思想)”分享出来。
    以下是我在部署ElasticSearch集群时的经验总结,它们大体属于第一类知识“techknowledge(技术)”。但其中也穿插一些我个人的理解。敬请指正。

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明