当前位置:主页 > 计算机电子书 > 大数据分析 > 大数据下载
重构大数据统计

重构大数据统计 PDF 完整超清版

  • 更新:2021-11-25
  • 大小:69.21MB
  • 类别:大数据
  • 作者:杨旭
  • 出版:电子工业出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,取得显著效果。大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。《重构大数据统计》还提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。

目录

  • 第1章基本概念 1
  • 1.1 数据类型 1
  • 1.2 总体和样本 2
  • 1.3 参数和统计量 2
  • 1.4 分布式计算 3
  • 第2章单变量基本统计量 5
  • 2.1 数量统计量 5
  • 2.1.1 样本方差为何除以n-1 7
  • 2.1.2 数据分布与标准差的关系 10
  • 2.1.3 新的计算公式 11
  • 2.1.4 代码实现 16
  • 2.2 频数统计量 18
  • 2.3 次序统计量 23
  • 2.3.1 通过排序方法计算次序统计量 25
  • 2.3.2 不需排序就可计算的次序统计量 29
  • 2.3.3 基于频数信息计算次序统计量 31
  • 2.3.4 中位数、众数和均值的关系 34
  • 第3章单变量数据的分布 36
  • 3.1 直方图 36
  • 3.1.1 直方图的计算 39
  • 3.1.2 算法实现 42
  • 3.1.3 已知数据频数的情况下求直方图 49
  • 3.1.4 日期类型直方图 49
  • 3.2 经验分布 57
  • 3.3 近似分位数和近似百分位数 61
  • 3.4 PP、QQ概率图 65
  • 3.5 单变量的基本统计信息 69
  • 第4章多变量的数据特征 77
  • 4.1 协方差 77
  • 4.2 相关系数 79
  • 4.3 协方差和相关系数的计算实现 80
  • 4.4 数据表的基本统计结果 84
  • 第5章数据探索 88
  • 5.1 扩展直方图 88
  • 5.1.1 计算方法 90
  • 5.1.2 代码实现 91
  • 5.2 交叉表 110
  • 第6章极限定理 116
  • 6.1 大数定理 116
  • 6.2 中心极限定理 117
  • 第7章常用的分布函数介绍 123
  • 7.1 基本定义 123
  • 7.2 标准正态分布(Z分布或U分布) 124
  • 7.3 卡方分布(χ^2分布) 129
  • 7.4 学生T分布 133
  • 7.5 F分布 139
  • 第8章常用分布函数计算 145
  • 8.1 函数定义 145
  • 8.2 函数性质及相互间的关系 147
  • 8.3 分布函数关系图 164
  • 8.4 分布函数的计算 166
  • 8.4.1 计算Γ(x) 166
  • 8.4.2 计算CDF_Γ 170
  • 8.4.3 计算CDF_Β 173
  • 8.4.4 计算IDF_Γ和CDF_Β 176
  • 8.4.5 其他函数的计算 178
  • 8.5 生成常用分布的随机数 180
  • 第9章参数估计 187
  • 9.1 点估计与区间估计 187
  • 9.2 单个总体的参数估计 190
  • 9.2.1 不同情况的参数估计表达式 190
  • 9.2.2 单个总体参数估计的实现 191
  • 9.3 两个总体的参数估计 196
  • 9.3.1 不同情况的参数估计表达式 196
  • 9.3.2 两个总体参数估计的实现 199
  • 第10章假设检验 207
  • 10.1 基本概念 207
  • 10.2 参数检验 209
  • 10.3 单个总体参数的检验 212
  • 10.3.1 各种情况下的检验方法 212
  • 10.3.2 单个总体参数检验方法的实现 214
  • 10.3.3 不同检验方法的选择 223
  • 10.4 两个总体参数的检验 227
  • 10.4.1 各种情况下的检验方法 227
  • 10.4.2 两个总体参数检验方法的实现 231
  • 10.4.3 不同检验方法的选择 237
  • 第11章非参数检验 244
  • 11.1 Pearson拟合优度χ^2检验 245
  • 11.2 两个变量的列联表检验 248
  • 11.3 K-S检验 250
  • 11.3.1 单样本K-S检验 251
  • 11.3.2 双样本K-S检验 256
  • 11.4 符号检验 258
  • 11.5 秩统计量和秩检验方法 260
  • 11.5.1 Wilcoxon秩和检验 260
  • 11.5.2 Wilcoxon符号秩和检验 266
  • 11.5.3 Kruskal-Wallis检验 268
  • 11.5.4 Friedman检验 273
  • 第12章方差分析 277
  • 12.1 单因素方差分析 278
  • 12.1.1 计算流程 278
  • 12.1.2 代码实现 280
  • 12.1.3 方差分析与T检验的关系 283
  • 12.1.4 方差分析中的多重比较方法 285
  • 12.2 双因素方差分析 289
  • 12.2.1 无交互作用的双因素方差分析 289
  • 12.2.2 有交互作用的双因素方差分析 295
  • 第13章多元线性回归 302
  • 13.1 数学模型 302
  • 13.2 显著性检验 308
  • 13.3 计算步骤 309
  • 13.4 代码实现 313
  • 13.5 多重共线性 320
  • 13.5.1 度量指标 320
  • 13.5.2 代码实现 323
  • 13.5.3 应用示例 328
  • 13.6 逐步回归 330
  • 第14章主成分分析 340
  • 14.1 计算步骤 342
  • 14.2 代码实现 345
  • 14.3 应用举例 350
  • 第15章判别分析 359
  • 15.1 距离判别 359
  • 15.1.1 Mahalanobis距离 360
  • 15.1.2 模型训练和预测 361
  • 15.2 Fisher判别 364
  • 15.3 Bayes判别 369
  • 15.3.1 朴素Bayes判别 369
  • 15.3.2 模型训练和预测 370
  • 15.4 判别算法的综合模型 377
  • 15.5 应用举例 378
  • 第16章模型评估曲线 383
  • 16.1 相关概念 383
  • 16.2 定义 384
  • 16.2.1 ROC曲线 384
  • 16.2.2 上升图和反馈率―精确率线 386
  • 16.3 计算实现 386
  • 参考文献 391

资源下载

资源下载地址1:https://pan.baidu.com/s/1VKrzgTJNu9i_bnvVxxCn_A

相关资源

网友留言