当前位置:首页 > Python >
《Python机器学习经典实例》电子书封面

Python机器学习经典实例

  • 发布时间:2019年11月28日 14:42:07
  • 作者:普拉提克·乔西
  • 大小:27.3M
  • 类别:Python电子书
  • 格式:PDF
  • 版本:超清中文版
  • 评分:9.2

    Python机器学习经典实例 PDF 超清中文版

      给大家带来的一篇关于Python相关的电子书资源,介绍了关于Python、机器学习方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小27.3M,普拉提克·乔西编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.7。

      内容介绍

      Python机器学习经典实例

      Python机器学习经典实例电子书封面

      读者评价

      很多代码,但是重复的太多了。比如用逻辑回归写了个代码,预处理部分写了函数,然后从sklearn调用Logistic_regression,然后fit,predict,然后到svm部分呢,预处理部分写了个代码,然后又调用sklearn svm.fit ,predict,问题是预处理部分的代码都很类似。没必要每个例子都重复一遍的。不够简洁,也许这就是cookbook的特点吧

      本书(《Python 机器学习经典实例》)的标题“经典实例”让我非常感兴趣。

      一直认为学习任何新事物,先上手实现简单的demo,再分析这个demo做了什么,怎么做,才能更快的学习。如果是在初始阶段就大量的学习理论,只会对要学习的东西感到痛苦,“这个有什么用啊?”或者“虽然每个字都能看懂,但放一起就不知道在说什么了”。幸运的是本书就同书名一样,上手就是实例,也穿插了必要的专有名词解释,总体来说还是能够跟得上进度。并且给出了所使用的数据,能够和书中得到相同的结果,这一反馈更能够增强学习的意愿与兴趣。但是另一方面,只给出“结果”,而没有“原因”,在一定程度上只是学会了“书里面的知识”,而无法从虚拟的例子映射到实际的现实问题。但鱼和熊掌不可得兼,专注做好一件事,对于“机器学习”的通俗解释,可以从另一本书中找到答案(还没找到这本书)。

      专业评价

      用火的Python语言、通过各种各样的机器学习算法来解决实际问题!书中介绍的主要问题如下。

      - 探索分类分析算法并将其应用于收入等级评估问题

      - 使用预测建模并将其应用到实际问题中

      - 了解如何使用无监督学习来执行市场细分

      - 探索数据可视化技术以多种方式与数据进行交互

      - 了解如何构建推荐引擎

      - 理解如何与文本数据交互并构建模型来分析它

      - 使用隐马尔科夫模型来研究语音数据并识别语音

      内容简介

      在如今这个处处以数据驱动的世界中,机器学习正变得越来越大众化。它已经被广泛地应用于不同领域,如搜索引擎、机器人、无人驾驶汽车等。本书首先通过实用的案例介绍机器学习的基础知识,然后介绍一些稍微复杂的机器学习算法,例如支持向量机、极端随机森林、隐马尔可夫模型、条件随机场、深度神经网络,等等。

      本书是为想用机器学习算法开发应用程序的Python 程序员准备的。它适合Python 初学者阅读,不过熟悉Python 编程方法对体验示例代码大有裨益。

      内容精选

      在真实世界中,经常需要处理大量的原始数据,这些原始数据是机器学习算法无法理解的。为了让机器学习算法理解原始数据,需要对数据进行预处理。

      1.2.1 准备工作

      来看看Python是如何对数据进行预处理的。首先,用你最喜欢的文本编辑器打开一个扩展名为.py的文件,例如preprocessor.py。然后在文件里加入下面两行代码:

      import numpy as np
      from sklearn import preprocessing

      我们只是加入了两个必要的程序包。接下来创建一些样本数据。向文件中添加下面这行代码:

      data = np.array([[3,  -1.5,    2,  -5.4], [0,    4,    -0.3,  2.1], [1,    3.3,  
      -1.9, -4.3]])

      现在就可以对数据进行预处理了。

      1.2.2 详细步骤

      数据可以通过许多技术进行预处理,接下来将介绍一些最常用的预处理技术。

      1. 均值移除(Mean removal)

      通常我们会把每个特征的平均值移除,以保证特征均值为0(即标准化处理)。这样做可以消除特征彼此间的偏差(bias)。将下面几行代码加入之前打开的Python文件中:

      data_standardized = preprocessing.scale(data) 
      print "\nMean =", data_standardized.mean(axis=0)
      print "Std deviation =", data_standardized.std(axis=0)

      现在来运行代码。打开命令行工具,然后输入以下命令:

      $ python preprocessor.py

      命令行工具中将显示以下结果:

      Mean = [  5.55111512e-17  -1.11022302e-16  -7.40148683e-17  -7.40148683e-17]
      Std deviation = [ 1.  1.  1.  1.]

      你会发现特征均值几乎是0,而且标准差为1。

      2. 范围缩放(Scaling)

      数据点中每个特征的数值范围可能变化很大,因此,有时将特征的数值范围缩放到合理的大小是非常重要的。在Python文件中加入下面几行代码,然后运行程序:

      data_scaler = preprocessing.MinMaxScaler(feature_range=(0, 1)) 
      data_scaled = data_scaler.fit_transform(data)
      print "\nMin max scaled data =", data_scaled

      范围缩放之后,所有数据点的特征数值都位于指定的数值范围内。输出结果如下所示:

      Min max scaled data:
      [[ 1.            0.            1.            0.        ]
       [ 0.            1.            0.41025641    1.        ]
       [ 0.33333333    0.87272727    0.            0.14666667]]

      3. 归一化(Normalization)

      数据归一化用于需要对特征向量的值进行调整时,以保证每个特征向量的值都缩放到相同的数值范围。机器学习中最常用的归一化形式就是将特征向量调整为L1范数,使特征向量的数值之和为1。增加下面两行代码到前面的Python文件中:

      data_normalized = preprocessing.normalize(data, norm='l1') 
      print "\nL1 normalized data =", data_normalized

      执行Python文件,就可以看到下面的结果:

      L1    normalized    data:    
      [[    0.25210084    -0.12605042    0.16806723    -0.45378151]
       [    0.             0.625        -0.046875       0.328125  ]
       [    0.0952381      0.31428571   -0.18095238    -0.40952381]]

      这个方法经常用于确保数据点没有因为特征的基本性质而产生较大差异,即确保数据处于同一数量级,提高不同特征数据的可比性。

      4. 二值化(Binarization)

      二值化用于将数值特征向量转换为布尔类型向量。增加下面两行代码到前面的Python文件中:

      data_binarized = preprocessing.Binarizer(threshold=1.4).transform(data)
      print "\nBinarized data =", data_binarized

      再次执行Python文件,就可以看到下面的结果:

      Binarized data:
      [[    1.    0.    1.    0.]
       [    0.    1.    0.    1.]
       [    0.    1.    0.    0.]]

      如果事先已经对数据有了一定的了解,就会发现使用这个技术的好处了。

      5. 独热编码

      通常,需要处理的数值都是稀疏地、散乱地分布在空间中,然而,我们并不需要存储这些大数值,这时就需要使用独热编码(One-Hot Encoding)。可以把独热编码看作是一种收紧(tighten)特征向量的工具。它把特征向量的每个特征与特征的非重复总数相对应,通过one-of-k的形式对每个值进行编码。特征向量的每个特征值都按照这种方式编码,这样可以更加有效地表示空间。例如,我们需要处理4维向量空间,当给一个特性向量的第n个特征进行编码时,编码器会遍历每个特征向量的第n个特征,然后进行非重复计数。如果非重复计数的值是K,那么就把这个特征转换为只有一个值是1其他值都是0的K维向量。增加下面几行代码到前面的Python文件中:

      encoder = preprocessing.OneHotEncoder()
      encoder.fit([[0, 2, 1, 12], [1, 3, 5, 3], [2, 3, 2, 12], [1, 2, 4, 3]])
      encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray() 
      print "\nEncoded vector =", encoded_vector

      结果如下所示:

      Encoded vector:
      [[ 0.  0.  1.  0.  1.  0.  0.  0.  1.  1.  0.]]

      在上面的示例中,观察一下每个特征向量的第三个特征,分别是1、5、2、4这4个不重复的值,也就是说独热编码向量的长度是4。如果你需要对5进行编码,那么向量就是[0, 1, 0, 0]。向量中只有一个值是1。第二个元素是1,对应的值是5。

      ……

      作者介绍

      Prateek Joshi

      人工智能专家,重点关注基于内容的分析和深度学习,曾在英伟达、微软研究院、高通公司以及硅谷的几家早期创业公司任职。

      译者简介:

      陶俊杰

      长期从事数据分析工作,酷爱Python,每天都和Python面对面,乐此不疲。本科毕业于北京交通大学机电学院,硕士毕业于北京交通大学经管学院。曾就职于中国移动设计院,目前在京东任职。

      陈小莉

      长期从事数据分析工作,喜欢Python。本科与硕士毕业于北京交通大学电信学院。目前在中科院从事科技文献与专利分析工作。

      目录

      • 第1章 监督学习  1
      • 1.1 简介  1
      • 1.2 数据预处理技术  2
      • 1.2.1 准备工作  2
      • 1.2.2 详细步骤  2
      • 1.3 标记编码方法  4
      • 1.4 创建线性回归器  6
      • 1.4.1 准备工作  6
      • 1.4.2 详细步骤  7
      • 1.5 计算回归准确性  9
      • 1.5.1 准备工作  9
      • 1.5.2 详细步骤  10
      • 1.6 保存模型数据  10
      • 1.7 创建岭回归器  11
      • 1.7.1 准备工作  11
      • 1.7.2 详细步骤  12
      • 1.8 创建多项式回归器  13
      • 1.8.1 准备工作  13
      • 1.8.2 详细步骤  14
      • 1.9 估算房屋价格  15
      • 1.9.1 准备工作  15
      • 1.9.2 详细步骤  16
      • 1.10 计算特征的相对重要性  17
      • 1.11 评估共享单车的需求分布  19
      • 1.11.1 准备工作  19
      • 1.11.2 详细步骤  19
      • 1.11.3 更多内容  21
      • 第2章 创建分类器  24
      • 2.1 简介  24
      • 2.2 建立简单分类器  25
      • 2.2.1 详细步骤  25
      • 2.2.2 更多内容  27
      • 2.3 建立逻辑回归分类器  27
      • 2.4 建立朴素贝叶斯分类器  31
      • 2.5 将数据集分割成训练集和测试集  32
      • 2.6 用交叉验证检验模型准确性  33
      • 2.6.1 准备工作  34
      • 2.6.2 详细步骤  34
      • 2.7 混淆矩阵可视化  35
      • 2.8 提取性能报告  37
      • 2.9 根据汽车特征评估质量  38
      • 2.9.1 准备工作  38
      • 2.9.2 详细步骤  38
      • 2.10 生成验证曲线  40
      • 2.11 生成学习曲线  43
      • 2.12 估算收入阶层  45
      • 第3章 预测建模  48
      • 3.1 简介  48
      • 3.2 用SVM建立线性分类器  49
      • 3.2.1 准备工作  49
      • 3.2.2 详细步骤  50
      • 3.3 用SVM建立非线性分类器  53
      • 3.4 解决类型数量不平衡问题  55
      • 3.5 提取置信度  58
      • 3.6 寻找最优超参数  60
      • 3.7 建立事件预测器  62
      • 3.7.1 准备工作  62
      • 3.7.2 详细步骤  62
      • 3.8 估算交通流量  64
      • 3.8.1 准备工作  64
      • 3.8.2 详细步骤  64
      • 第4章 无监督学习——聚类  67
      • 4.1 简介  67
      • 4.2 用k-means算法聚类数据  67
      • 4.3 用矢量量化压缩图片  70
      • 4.4 建立均值漂移聚类模型  74
      • 4.5 用凝聚层次聚类进行数据分组  76
      • 4.6 评价聚类算法的聚类效果  79
      • 4.7 用DBSCAN算法自动估算集群数量  82
      • 4.8 探索股票数据的模式  86
      • 4.9 建立客户细分模型  88
      • 第5章 构建推荐引擎  91
      • 5.1 简介  91
      • 5.2 为数据处理构建函数组合  92
      • 5.3 构建机器学习流水线  93
      • 5.3.1 详细步骤  93
      • 5.3.2 工作原理  95
      • 5.4 寻找最近邻  95
      • 5.5 构建一个KNN分类器  98
      • 5.5.1 详细步骤  98
      • 5.5.2 工作原理  102
      • 5.6 构建一个KNN回归器  102
      • 5.6.1 详细步骤  102
      • 5.6.2 工作原理  104
      • 5.7 计算欧氏距离分数  105
      • 5.8 计算皮尔逊相关系数  106
      • 5.9 寻找数据集中的相似用户  108
      • 5.10 生成电影推荐  109
      • 第6章 分析文本数据  112
      • 6.1 简介  112
      • 6.2 用标记解析的方法预处理数据  113
      • 6.3 提取文本数据的词干  114
      • 6.3.1 详细步骤  114
      • 6.3.2 工作原理  115
      • 6.4 用词形还原的方法还原文本的基本形式  116
      • 6.5 用分块的方法划分文本  117
      • 6.6 创建词袋模型  118
      • 6.6.1 详细步骤  118
      • 6.6.2 工作原理  120
      • 6.7 创建文本分类器  121
      • 6.7.1 详细步骤  121
      • 6.7.2 工作原理  123
      • 6.8 识别性别  124
      • 6.9 分析句子的情感  125
      • 6.9.1 详细步骤  126
      • 6.9.2 工作原理  128
      • 6.10 用主题建模识别文本的模式  128
      • 6.10.1 详细步骤  128
      • 6.10.2 工作原理  131
      • 第7章 语音识别  132
      • 7.1 简介  132
      • 7.2 读取和绘制音频数据  132
      • 7.3 将音频信号转换为频域  134
      • 7.4 自定义参数生成音频信号  136
      • 7.5 合成音乐  138
      • 7.6 提取频域特征  140
      • 7.7 创建隐马尔科夫模型  142
      • 7.8 创建一个语音识别器  143
      • 第8章 解剖时间序列和时序数据  147
      • 8.1 简介  147
      • 8.2 将数据转换为时间序列格式  148
      • 8.3 切分时间序列数据  150
      • 8.4 操作时间序列数据  152
      • 8.5 从时间序列数据中提取统计数字  154
      • 8.6 针对序列数据创建隐马尔科夫模型  157
      • 8.6.1 准备工作  158
      • 8.6.2 详细步骤  158
      • 8.7 针对序列文本数据创建条件随机场  161
      • 8.7.1 准备工作  161
      • 8.7.2 详细步骤  161
      • 8.8 用隐马尔科夫模型分析股票市场数据  164
      • 第9章 图像内容分析  166
      • 9.1 简介  166
      • 9.2 用OpenCV-Pyhon操作图像  167
      • 9.3 检测边  170
      • 9.4 直方图均衡化  174
      • 9.5 检测棱角  176
      • 9.6 检测SIFT特征点  178
      • 9.7 创建Star特征检测器  180
      • 9.8 利用视觉码本和向量量化创建特征  182
      • 9.9 用极端随机森林训练图像分类器  185
      • 9.10 创建一个对象识别器  187
      • 第10章 人脸识别  189
      • 10.1 简介  189
      • 10.2 从网络摄像头采集和处理视频信息  189
      • 10.3 用Haar级联创建一个人脸识别器  191
      • 10.4 创建一个眼睛和鼻子检测器  193
      • 10.5 做主成分分析  196
      • 10.6 做核主成分分析  197
      • 10.7 做盲源分离  201
      • 10.8 用局部二值模式直方图创建一个人脸识别器  205
      • 第11章 深度神经网络  210
      • 11.1 简介  210
      • 11.2 创建一个感知器  211
      • 11.3 创建一个单层神经网络  213
      • 11.4 创建一个深度神经网络  216
      • 11.5 创建一个向量量化器  219
      • 11.6 为序列数据分析创建一个递归神经网络  221
      • 11.7 在光学字符识别数据库中将字符可视化  225
      • 11.8 用神经网络创建一个光学字符识别器  226
      • 第12章 可视化数据  230
      • 12.1 简介  230
      • 12.2 画3D散点图  230
      • 12.3 画气泡图  232
      • 12.4 画动态气泡图  233
      • 12.5 画饼图  235
      • 12.6 画日期格式的时间序列数据  237
      • 12.7 画直方图  239
      • 12.8 可视化热力图  241
      • 12.9 动态信号的可视化模拟  242

      学习笔记

      Python3.5集合及其常见运算实例详解

      本文实例讲述了Python3.5集合及其常见运算。分享给大家供大家参考,具体如下: 1、集合的定义:集合是一个 无序的、无重复的数据 的数据组合。 2、集合的特征: (1) 去除重复元素 :将一个列表变成集合就可实现去重。 (2) 测试关系 :测试两组数据之间交集、并集、差集等关系。 3、集合常用的操作: (1) 去重复 :将列表变成集合,形式: 集合=set(列表) list_1 = [1,3,5,3,6,8,9,6,8,1]list_1 = set(list_1)print(list_1,type(list_1)) 运行结果: {1, 3, 5, 6, 8, 9} class 'set' (2)测试两个集合的 交集 ——形式为: print((集合1).intersection(集合2)) 或 print(集合1 list_2) #两个集合的交集 运行结果: {1, 2, 3, 4, 5, 6, 8, 9} {0, 2, 5……

      python字符串string的内置方法实例详解

      下面给大家分享python 字符串string的内置方法,具体内容详情如下所示: #__author: "Pizer Wang"#__date: 2018/1/28a = "Let's go"print(a)print("-------------------")a = 'Let\'s go'print(a)print("-------------------")print("hello" * 3)print("helloworld"[2:])print("-------------------")print("ell" in "helloworld")print("-------------------")print("Pizer is a good student")print("%s is a goog student" % "Pizer")print("-------------------")a = "1234"b = "abcd"c = "!@#$"d = a + b + cprint(d)d = "".join([a, b, c])print(d)d = ", ".join([a, b, c])print(d)d = "++".join([a, b, c])print(d)print("-------------------")print("string的内置方法")str = "helloworld"print(str.count("l")) #统计元个数print(str.capitalize()) #首字母大写print(str.center(25, "-")) #居中print(……

      Python数据类型之Tuple元组实例详解

      本文实例讲述了Python数据类型之Tuple元组。分享给大家供大家参考,具体如下: tuple元组 1.概述 本质上是一种有序的集合,和列表非常的相似,列表使用[]表示,元组使用()表示. 特点:一旦初始化,就不能发生改变 2.元组的创建 格式: 元组名 = (元素1, 元素2 ,元素3,…) #创建空的元组tuple1 = ()print(tuple1)#创建带有元素的元组tuple2 =(22, 33, 14, 109)print(tuple2)#与列表类似,元组中的元素类型可以不同tuple3 = (23,True,"good")print(tuple3)#定义只有一个元素的元组tuple4 = (1) #这定义的不是元组而是整数1tuple4 = (1,) #定义一个元素的元组定义时必须加一个逗号",",用来消除歧义 输出: () (22, 33, 14, 109) (23, True, 'good') 3.元组元……

      python-itchat 统计微信群、好友数量,及原始消息数据的实例

      参考来自:https://itchat.readthedocs.io/zh/latest/api/ #coding=utf-8import itchatfrom itchat.content import TEXTfrom itchat.content import *import sysimport timeimport rereload(sys)sys.setdefaultencoding('utf8')import os@itchat.msg_register([TEXT,PICTURE,FRIENDS,CARD,MAP,SHARING,RECORDING,ATTACHMENT,VIDEO],isGroupChat=True)def receive_msg(msg): groups = itchat.get_chatrooms(update=True) friends = itchat.get_friends(update=True) print "群数量:",len(groups) for i in range(0,len(groups)): print i+1,"--",groups[i]['NickName'],groups[i]['MemberCount'],"人" print "好友数量",len(friends)-1 for f in range(1,len(friends)):#第0个好友是自己,不统计 if friends[f]['RemarkName']: # 优先使用好友的备注名称,没有则使用昵称 user_name = friends[f]['RemarkName'] else: ……

      以上就是本次介绍的Python电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:Python数据分析基础

      下一篇:Python Linux系统管理与自动化运维

      展开 +

      收起 -

      • 《Python机器学习经典实例》PDF下载

      Python相关电子书
      机器学习:Python实践
      机器学习:Python实践 原书完整版

      本书系统地讲解了机器学习的基本知识,以实践为导向,使用 scikit-learn 作为编程框架,强调简单、快速地建立模型,并利用机器学习解决实际问题

      立即下载
      Python机器学习及实践:从零开始通往Kaggle竞赛之路
      Python机器学习及实践:从零开始通往Kaggle竞赛之路 高清版

      Python机器学习及实践 面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且

      立即下载
      Python与机器学习实战
      Python与机器学习实战 高质量影印版

      本书用到Numpy这个基础的科学计算库来进行算法代码的实现,能够从实现的过程中更好地理解机器学习算法的细节,以及了解Numpy的各种应用,适用于想了解传统机器学习算法的学生和从业者等

      立即下载
      深入浅出Python机器学习
      深入浅出Python机器学习 完整超清版

      人工智能,火了!计算机是由程序驱动的,人工智能不过是一些特殊的算法。只要你有一些程序设计语言的基础,跟随本书,你也能进入人工智能的世界,成为一名人工智能应用的开发者。

      立即下载
      python机器学习 Scikit-learn使用手册
      python机器学习 Scikit-learn使用手册 原书扫描版

      scikit-learn是在Python中进行机器学习简单且高效的工具可用于数据挖掘和数据分析,这里提供Scikit-learn 使用手册,欢迎下载

      立即下载
      Python机器学习算法
      Python机器学习算法 原书扫描版

      这是一本机器学习入门读物,注重理论与实践的结合,以典型的机器学习算法为例,从算法原理出发,由浅入深,详细介绍算法的理论,并配合目前流行的Python语言,从零开始,增强实际的算法实践能力

      立即下载
      机器学习系统设计:Python语言实现
      机器学习系统设计:Python语言实现 完整中文版

      本书是一本设计高效机器学习系统的详实指南,介绍机器学习系统设计的整个过程,相关的Python库,并在各个知识环节中都给出了Python示例,欢迎下载

      立即下载
      Python机器学习(第2版)
      Python机器学习(第2版) 完整版

      本书将机器学习背后的基本理论与应用实践联系起来,通过这种方式让读者聚焦于如何正确地提出问题、解决问题。书中讲解了如何使用Python的核心元素以及强大的机器学习库,同时还展示了如何正确使用一系列统计模型。

      立即下载
      Python机器学习基础教程
      Python机器学习基础教程 原书中文版

      这是一本机器学习入门书,以Python语言介绍,包含机器学习的基本概念及其应用;实践中最常用的机器学习算法以及这些算法的优缺点;待处理数据的呈现方式的重要性等内容

      立即下载
      Python机器学习
      Python机器学习 中文第2版

      《Python机器学习》是一本关于Python的电子书资源,涉及Python、机器学习等相关内容,本文提供大小为198MB的超清第2PDF格式电子书下载,希望大家能够喜欢。

      立即下载
      读者留言
      网友NO.46355
      网友NO.46355

      无监督学习经典模型
      无监督学习着重于发现数据本身的分布特点 无监督学习不需要对数据进行标记 节省大量人力 也让数据的规模 变得不可限量
      1 发现数据群落 数据聚类 也可以寻找 离群样本
      2 特征降维 保留数据具有区分性的低维特征
      这些都是在海量数据处理中非常实用的技术
      数据聚类
      K均值算法(预设聚类的个数 不断更新聚类中心 迭代 ,是所有数据点到其所属聚类中心距离平方和趋于稳定)
      过程
      ①首先 随机布设K个特证空间内的点作为初始的聚类中心
      ②然后 对于根据每个数据的特征向量 从K个聚类中心中 寻找距离最近的一个 并且把该数据标记为从属与这个聚类中心
      ③接着 在所有数据都被标记了聚类中心之后 根据这些数据新分配的类簇 重新对K个聚类中心做计算
      ④如果一轮下来 所有数据从属的聚类中心与上一次的分配的类簇没有变化 那么迭代可以 停止 否则回到②继续循环

      网友NO.36317
      网友NO.36317

      数据工作的基本流程
      定义问题: 我们首先需要解决的是我们将面临一个什么问题,需要我们做什么,俗话说的磨刀不误砍柴工,首先看清对手是谁才能有的放矢。
      收集数据: 根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。

      准备消费数据: 把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。
      探索性分析: 根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。
      数据建模: 像描述性和推论性统计数据一样,数据建模可以总结数据或预测未来的结果。 您的数据集和预期结果将决定可供使用的算法。 重要的是要记住,算法是工具,而不是魔杖。 你仍然必须是知道如何为工作选择正确的工具的工匠。 一个比喻就是要求有人给你一把飞利浦剃须刀,他们给你一把螺丝刀或者一把锤子。 充其量,它显示完全缺乏了解。 最糟糕的是,这使得项目不可能完成。 数据建模也是如此。 错误的模型可能导致最差的表现,甚至会导致错误的结论。
      模型验证和模型使用: 用训练数据对模型进行训练之后,就可以用于预测数据。

      网友NO.46008
      网友NO.46008

      深度学习无处不在。深度学习建立在几十年前的神经网络的基础上,但是最近的进步始于几年前,并极大地提高了深度神经网络的认知能力,引起了人们的广泛兴趣。如果你对神经网络还不熟悉,KDnuggets 有很多文章详细介绍了最近深度学习大量的创新、成就和赞许。

      姜振家

      姜振家 提供上传

      资源
      29
      粉丝
      32
      喜欢
      1320
      评论
      20

      Copyright 2018-2020 xz577.com 码农之家

      本站所有电子书资源不再提供下载地址,只分享来路

      版权投诉 / 书籍推广 / 赞助:QQ:520161757