当前位置:主页 > 计算机电子书 > 计算机理论 > 文本处理下载
驾驭文本:文本的发现、组织和处理

驾驭文本:文本的发现、组织和处理 PDF 超清版

  • 更新:2019-08-05
  • 大小:170 MB
  • 类别:文本处理
  • 作者:英格索尔
  • 出版:电子工业出版社
  • 格式:PDF

  • 资源介绍
  • 学习心得
  • 相关内容

驾驭文本:文本的发现、组织和处理 PDF

文本处理是现阶段互联网内容运用(如百度搜索引擎、强烈推荐模块)的核心技术。这书包含了文本处理定义和技术性的好几个层面,包含文字归一化处理、检索、字符串配对、信息内容提取、取名实体线鉴别、归类、聚类分析法、标识转化成、引言、问与答等。这书的特性取决于根据案例来了解文本处理的这种定义和技术性,用户运用目前的开源系统专用工具就能够自身保持这种案例。

掌控文字的重要是根据OpenNLP清理文字统计数据获取重要信息内容,连同文字內容一块儿储存到Lucene中,根据Lucene本身的查寻工作能力发觉与难题或查寻配对的內容,依据这一基本原理加上点深度学习的全过程,能够保持全自动归类、全自动打标识、简易问答系统。

目录

  • 第1章 开始驾驭文本
  • 1.1 驾驭文本重要的原因
  • 1.2 预览:一个基于事实的问答系统  
  • 1.2.1 嗨,弗兰肯斯坦医生
  • 1.3 理解文本很困难  
  • 1.4 驾驭的文本
  • 1.5 文本及智能应用:搜索及其他
  • 1.5.1 搜索和匹配
  • 1.5.2 抽取信息
  • 1.5.3 对信息分组
  • 1.5.4 一个智能应用  
  • 1.6 小结  
  • 1.7 相关资源
  •  
  • 第2章 驾驭文本的基础
  • 2.1 语言基础知识
  • 2.1.1 词语及其类别  
  • 2.1.2 短语及子句
  • 2.1.3 词法
  • 2.2 文本处理常见工具
  • 2.2.1 字符串处理工具  
  • 2.2.2 词条及切词
  • 2.2.3 词性标注
  • 2.2.4 词干还原
  • 2.2.5 句子检测
  • 2.2.6 句法分析和文法  
  • 2.2.7 序列建模
  • 2.3 从常见格式文件中抽取内容并做预处理
  • 2.3.1 预处理的重要性  
  • 2.3.2 利用Apache Tika抽取内容
  • 2.4 小结  
  • 2.5 相关资源
  •  
  • 第3章 搜索
  • 3.1 搜索和多面示例:Amazon.com  
  • 3.2 搜索概念入门
  • 3.2.1 索引内容
  • 3.2.2 用户输入
  • 3.2.3 利用向量空间模型对文档排名
  • 3.2.4 结果展示
  • ……
  •  
  • 第4章 模糊字符串匹配
  • 第5章 命名实体识别
  • 第6章 文本聚类
  • 第7章 分类及标注
  • 第8章 构建示例问答系统
  • 第9章 未驾驭的文本:探索未来前沿

 

资源获取

资源地址1:https://pan.baidu.com/s/1zSUj4RQNglbfbJyJOTEc4bQ

网友留言