当前位置:主页 > 计算机电子书 > 程序设计 > Python下载
Python数据分析与数据化运营

Python数据分析与数据化运营 PDF 扫描影印版

  • 更新:2019-08-12
  • 大小:18 MB
  • 类别:Python
  • 作者:宋天龙
  • 出版:机械工业出版社
  • 格式:PDF

  • 资源介绍
  • 学习心得
  • 相关内容

Python数据分析与数据化运营 PDF

这书內容从逻辑性上共分成两绝大多数,第壹一部分是相关数据统计分析类的主题风格,其次一部分是相关数字化经营的主题风格。第壹一部分的內容包含1/2/3/4章和附则,关键详细介绍了Python和数字化经营的基础知识、统计数据来源于获得、数据预处理及其数据统计分析和发掘的重要工作经验。其次一部分的內容包含5/6/7/8/9章的內容,各自详细介绍了vip会员经营、货品经营、总流量经营和内容营销就4个大主题风格,及其提高数字化经营使用价值度的方式。在每一数字化经营主题风格中包括了基础知识、评定指标值、应用领域、数据统计分析实体模型、数据统计分析小窍门、数据统计分析大实话及其2个运用实例。

目录

  • 赞誉
  • 前言
  • 第1章 Python和数据化运营1
  • 1.1 用Python做数据化运营1
  • 1.1.1 Python是什么1
  • 1.1.2 数据化运营是什么2
  • 1.1.3 Python用于数据化运营5
  • 1.2 数据化运营所需的Python相关工具和组件6
  • 1.2.1 Python程序6
  • 1.2.2 Python IDE7
  • 1.2.3 Python第三方库8
  • 1.2.4 数据库和客户端16
  • 1.2.5 SSH远程客户端18
  • 1.3 内容延伸:Python的OCR和TensorFlow18
  • 1.3.1 OCR工具:Tesseract-OCR18
  • 1.3.2 机器学习框架—TensorFlow19
  • 1.4 第一个用Python实现的数据化运营分析实例—销售预测20
  • 1.4.1 案例概述20
  • 1.4.2 案例过程20
  • 1.4.3 案例小结28
  • 1.5 本章小结28
  • 第2章 数据化运营的数据来源31
  • 2.1 数据化运营的数据来源类型31
  • 2.1.1 数据文件31
  • 2.1.2 数据库32
  • 2.1.3 API33
  • 2.1.4 流式数据34
  • 2.1.5 外部公开数据34
  • 2.1.6 其他35
  • 2.2 使用Python获取运营数据35
  • 2.2.1 从文本文件读取运营数据35
  • 2.2.2 从Excel获取运营数据46
  • 2.2.3 从关系型数据库MySQL读取运营数据48
  • 2.2.4 从非关系型数据库MongoDB读取运营数据56
  • 2.2.5 从API获取运营数据59
  • 2.3 内容延伸:读取非结构化网页、文本、图像、视频、语音64
  • 2.3.1 从网页中爬取运营数据64
  • 2.3.2 读取非结构化文本数据65
  • 2.3.3 读取图像数据65
  • 2.3.4 读取视频数据68
  • 2.3.5 读取语音数据70
  • 2.4 本章小结75
  • 第3章 11条数据化运营不得不知道的数据预处理经验76
  • 3.1 数据清洗:缺失值、异常值和重复值的处理76
  • 3.1.1 数据列缺失的4种处理方法76
  • 3.1.2 不要轻易抛弃异常数据78
  • 3.1.3  数据重复就需要去重吗79
  • 3.1.4 代码实操:Python数据清洗81
  • 3.2 将分类数据和顺序数据转换为标志变量89
  • 3.2.1 分类数据和顺序数据是什么89
  • 3.2.2 运用标志方法处理分类和顺序数据90
  • 3.2.3 代码实操:Python标志转换90
  • 3.3 大数据时代的数据降维94
  • 3.3.1 需要数据降维的情况94
  • 3.3.2 基于特征选择的降维94
  • 3.3.3 基于维度转换的降维96
  • 3.3.4 代码实操:Python数据降维97
  • 3.4 解决样本类别分布不均衡的问题100
  • 3.4.1 哪些运营场景中容易出现样本不均衡100
  • 3.4.2 通过过抽样和欠抽样解决样本不均衡101
  • 3.4.3 通过正负样本的惩罚权重解决样本不均衡101
  • 3.4.4 通过组合/集成方法解决样本不均衡102
  • 3.4.5 通过特征选择解决样本不均衡102
  • 3.4.6 代码实操:Python处理样本不均衡102
  • 3.5 如何解决运营数据源的冲突问题106
  • 3.5.1 为什么会出现多数据源的冲突107
  • 3.5.2 如何应对多数据源的冲突问题109
  • 3.6 数据化运营要抽样还是全量数据109
  • 3.6.1 什么时候需要抽样110
  • 3.6.2 如何进行抽样110
  • 3.6.3 抽样需要注意的几个问题111
  • 3.6.4 代码实操:Python数据抽样113
  • 3.7 解决运营数据的共线性问题116
  • 3.7.1 如何检验共线性117
  • 3.7.2 解决共线性的5种常用方法117
  • 3.7.3 代码实操:Python处理共线性问题118
  • 3.8 有关相关性分析的混沌120
  • 3.8.1 相关和因果是一回事吗120
  • 3.8.2 相关系数低就是不相关吗121
  • 3.8.3 代码实操:Python相关性分析121
  • 3.9 标准化,让运营数据落入相同的范围122
  • 3.9.1 实现中心化和正态分布的Z-Score122
  • 3.9.2 实现归一化的Max-Min123
  • 3.9.3 用于稀疏数据的MaxAbs123
  • 3.9.4 针对离群点的RobustScaler123
  • 3.9.5 代码实操:Python数据标准化处理123
  • 3.10 离散化,对运营数据做逻辑分层126
  • 3.10.1 针对时间数据的离散化127
  • 3.10.2 针对多值离散数据的离散化127
  • 3.10.3 针对连续数据的离散化127
  • 3.10.4 针对连续数据的二值化128
  • 3.10.5 代码实操:Python数据离散化处理128
  • 3.11 数据处理应该考虑哪些运营业务因素133
  • 3.11.1 考虑固定和突发运营周期133
  • 3.11.2 考虑运营需求的有效性134
  • 3.11.3 考虑交付时要贴合运营落地场景134
  • 3.11.4 不要忽视业务专家经验135
  • 3.11.5 考虑业务需求的变动因素136
  • 3.12 内容延伸:非结构化数据的预处理137
  • 3.12.1 网页数据解析137
  • 3.12.2 网络用户日志解析144
  • 3.12.3 图像的基本预处理148
  • 3.12.4 自然语言文本预处理154
  • 3.13 本章小结157
  • 第4章 跳过运营数据分析和挖掘的“大坑”159
  • 4.1 聚类分析159
  • 4.1.1 当心数据异常对聚类结果的影响160
  • 4.1.2 超大数据量时应该放弃K均值算法160
  • 4.1.3 聚类不仅是建模的终点,更是重要的中间预处理过程162
  • 4.1.4 高维数据上无法应用聚类吗163
  • 4.1.5 如何选择聚类分析算法164
  • 4.1.6 代码实操:Python聚类分析164
  • 4.2 回归分析172
  • 4.2.1 注意回归自变量之间的共线性问题172
  • 4.2.2 相关系数、判定系数和回归系数之间到底什么关系172
  • 4.2.3 判定系数是否意味着相应的因果联系173
  • 4.2.4 注意应用回归模型时研究自变量是否产生变化173
  • 4.2.5 如何选择回归分析算法174
  • 4.2.6 代码实操:Python回归分析174
  • 4.3 分类分析183
  • 4.3.1 防止分类模型的过拟合问题183
  • 4.3.2 使用关联算法做分类分析183
  • 4.3.3 用分类分析来提炼规则、提取变量、处理缺失值184
  • 4.3.4 类别划分-分类算法和聚类算法都是好手185
  • 4.3.5 如何选择分类分析算法186
  • 4.3.6 代码实操:Python分类分析187
  • 4.4 关联分析195
  • 4.4.1 频繁规则不一定是有效规则195
  • 4.4.2 不要被啤酒尿布的故事紧固你的思维196
  • 4.4.3 被忽略的“负相关”模式真的毫无用武之地吗197
  • 4.4.4 频繁规则只能打包组合应用吗198
  • 4.4.5 关联规则的序列模式199
  • 4.4.6 代码实操:Python关联分析200
  • 4.5 异常检测分析206
  • 4.5.1 异常检测中的“新奇检测”模式207
  • 4.5.2 将数据异常与业务异常相分离207
  • 4.5.3 面临维度灾难时,异常检测可能会失效208
  • 4.5.4 异常检测的结果能说明异常吗208
  • 4.5.5 代码实操:Python异常检测分析208
  • 4.6 时间序列分析212
  • 4.6.1 如果有自变量,为什么还要用时间序列212
  • 4.6.2 时间序列不适合商业环境复杂的企业213
  • 4.6.3 时间序列预测的整合、横向和纵向模式214
  • 4.6.4 代码实操:Python时间序列分析214
  • 4.7 路径、漏斗、归因和热力图分析234
  • 4.7.1 不要轻易相信用户的页面访问路径237
  • 4.7.2 如何将路径应用于更多用户行为模式的挖掘?237
  • 4.7.3 为什么很多数据都显示多渠道路径的价值很小?238
  • 4.7.4 点击热力图真的反映了用户的点击喜好?239
  • 4.7.5 为什么归因分析主要存在于线上的转化行为240
  • 4.7.6 漏斗分析和路径分析有什么区别240
  • 4.8 其他数据分析和挖掘的忠告241
  • 4.8.1 不要忘记数据质量的验证241
  • 4.8.2 不要忽视数据的落地性242
  • 4.8.3 不要把数据陈列当作数据结论242
  • 4.8.4 数据结论不要产生于单一指标244
  • 4.8.5 数据分析不要预设价值立场244
  • 4.8.6 不要忽视数据与业务的需求冲突问题245
  • 4.9 内容延伸:非结构化数据的分析与挖掘246
  • 4.9.1 词频统计246
  • 4.9.2 词性标注249
  • 4.9.3 关键字提取253
  • 4.9.4 文本聚类255
  • 4.10 本章小结258
  • 第5章 会员数据化运营260
  • 5.1 会员数据化运营概述260
  • 5.2 会员数据化运营关键指标261
  • 5.2.1 会员整体指标261
  • 5.2.2 会员营销指标261
  • 5.2.3 会员活跃度指标263
  • 5.2.4 会员价值度指标265
  • 5.2.5 会员终生价值指标266
  • 5.2.6 会员异动指标266
  • 5.3 会员数据化运营应用场景267
  • 5.3.1 会员营销267
  • 5.3.2 会员关怀267
  • 5.4 会员数据化运营分析模型268
  • 5.4.1 会员细分模型268
  • 5.4.2 会员价值度模型269
  • 5.4.3 会员活跃度模型270
  • 5.4.4 会员流失预测模型271
  • 5.4.5 会员特征分析模型272
  • 5.4.6 营销响应预测模型273
  • 5.5 会员数据化运营分析小技巧274
  • 5.5.1 使用留存分析新用户质量274
  • 5.5.2 使用AARRR做APP用户生命周期分析275
  • 5.5.3 借助动态数据流关注会员状态的轮转276
  • 5.5.4 使用协同过滤算法为新会员分析推送个性化信息277
  • 5.6 会员数据化运营分析的“大实话”279
  • 5.6.1 企业“不差钱”,还有必要做会员精准营销吗279
  • 5.6.2 用户满意度取决于期望和给予的匹配程度280
  • 5.6.3 用户不购买就是流失了吗280
  • 5.6.4 来自调研问卷的用户信息可信吗281
  • 5.6.5 不要盲目相信二八法则283
  • 5.7 案例:基于RFM的用户价值度分析283
  • 5.7.1 案例背景283
  • 5.7.2 案例主要应用技术284
  • 5.7.3 案例数据284
  • 5.7.4 案例过程284
  • 5.7.5 案例数据结论294
  • 5.7.6 案例应用和部署295
  • 5.7.7 案例注意点295
  • 5.7.8 案例引申思考296
  • 5.8 案例:基于AdaBoost的营销响应预测297
  • 5.8.1 案例背景297
  • 5.8.2 案例主要应用技术297
  • 5.8.3 案例数据298
  • 5.8.4 案例过程298
  • 5.8.5 案例数据结论313
  • 5.8.6 案例应用和部署313
  • 5.8.7 案例注意点314
  • 5.8.8 案例引申思考315
  • 5.9 本章小结315
  • 第6章 商品数据化运营317
  • 6.1  商品数据化运营概述317
  • 6.2 商品数据化运营关键指标317
  • 6.2.1 销售类指标317
  • 6.2.2 促销活动指标320
  • 6.2.3 供应链指标321
  • 6.3 商品数据化运营应用场景323
  • 6.3.1 销售预测323
  • 6.3.2 库存分析323
  • 6.3.3 市场分析324
  • 6.3.4 促销分析324
  • 6.4 商品数据化运营分析模型325
  • 6.4.1 商品价格敏感度模型325
  • 6.4.2 新产品市场定位模型326
  • 6.4.3 销售预测模型327
  • 6.4.4 商品关联销售模型327
  • 6.4.5 异常订单检测328
  • 6.4.6 商品规划的最优组合328
  • 6.5 商品数据化运营分析小技巧330
  • 6.5.1 使用层次分析法将定量与定性分析结合331
  • 6.5.2 通过假设检验做促销拉动分析333
  • 6.5.3 使用BCG矩阵做商品结构分析334
  • 6.5.4 巧用4P分析建立完善的商品运营分析结构336
  • 6.6 商品数据化运营分析的“大实话”337
  • 6.6.1 为什么很多企业会以低于进价的价格大量销售商品337
  • 6.6.2 促销活动真的是在促进商品销售吗339
  • 6.6.3 用户关注的商品就是要买的商品吗340
  • 6.6.4 提供的选择过多其实不利于商品销售341
  • 6.7 案例:基于超参数优化的Gradient Boosting的销售预测341
  • 6.7.1 案例背景341
  • 6.7.2 案例主要应用技术341
  • 6.7.3 案例数据342
  • 6.7.4 案例过程343
  • 6.7.5 案例数据结论351
  • 6.7.6 案例应用和部署351
  • 6.7.7 案例注意点351
  • 6.7.8 案例引申思考351
  • 6.8 案例:基于LogisticRegression、
  •    RandomForest、Bagging概率投票
  •    组合模型的异常检测352
  • 6.8.1 案例背景352
  • 6.8.2 案例主要应用技术352
  • 6.8.3 案例数据353
  • 6.8.4 案例过程353
  • 6.8.5 案例数据结论364
  • 6.8.6 案例应用和部署364
  • 6.8.7 案例注意点365
  • 6.8.8 案例引申思考365
  • 6.9 本章小结367
  • 第7章 流量数据化运营369
  • 7.1 流量数据化运营概述369
  • 7.2 8大流量分析工具369
  • 7.3 如何选择第三方流量分析工具372
  • 7.4 流量采集分析系统的工作机制375
  • 7.4.1 流量数据采集376
  • 7.4.2 流量数据处理379
  • 7.4.3 流量数据应用380
  • 7.5 流量数据与企业数据的整合381
  • 7.5.1 流量数据整合的意义381
  • 7.5.2 流量数据整合的范畴382
  • 7.5.3 流量数据整合的方法382
  • 7.6 流量数据化运营指标383
  • 7.6.1 站外营销推广指标383
  • 7.6.2 网站流量数量指标385
  • 7.6.3 网站流量质量指标386
  • 7.7 流量数据化运营应用场景389
  • 7.7.1 流量采购389
  • 7.7.2 流量分发391
  • 7.8 流量数据化运营分析模型391
  • 7.8.1 流量波动检测392
  • 7.8.2 渠道特征聚类393
  • 7.8.3 广告整合传播模型393
  • 7.8.4 流量预测模型397
  • 7.9 流量数据化运营分析小技巧398
  • 7.9.1 给老板提供一页纸的流量dashboard398
  • 7.9.2 关注趋势、重要事件和潜在因素是日常报告的核心400
  • 7.9.3 使用从细分到多层下钻数据分析400
  • 7.9.4 通过跨屏追踪解决用户跨设备和浏览器的访问行为401
  • 7.9.5 基于时间序列的用户群体过滤403
  • 7.10 流量数据化运营分析的“大实话”406
  • 7.10.1 流量数据分析的价值其实没那么大406
  • 7.10.2 如何将流量的实时分析价值最大化406
  • 7.10.3 营销流量的质量评估是难点工作407
  • 7.10.4 个性化的媒体投放仍然面临很多问题408
  • 7.10.5 传统的网站分析方法到底缺少了什么409
  • 7.11 案例:基于自动节点树的数据异常原因下探分析413
  • 7.11.1 案例背景413
  • 7.11.2 案例主要应用技术414
  • 7.11.3 案例数据415
  • 7.11.4 案例过程416
  • 7.11.5 案例数据结论430
  • 7.11.6 案例应用和部署431
  • 7.11.7 案例注意点432
  • 7.11.8 案例引申思考432
  • 7.12 案例:基于自动K值的KMeans广告效果聚类分析433
  • 7.12.1 案例背景433
  • 7.12.2 案例主要应用技术433
  • 7.12.3 案例数据434
  • 7.12.4 案例过程434
  • 7.12.5 案例数据结论446
  • 7.12.6 案例应用和部署447
  • 7.12.7 案例注意点448
  • 7.12.8 案例引申思考448
  • 7.13 本章小结449
  • 第8章 内容数据化运营451
  • 8.1 内容数据化运营概述451
  • 8.2 内容数据化运营指标452
  • 8.3 内容数据化运营应用场景455
  • 8.4 内容数据化运营分析模型456
  • 8.4.1 情感分析模型456
  • 8.4.2 搜索优化模型 457
  • 8.4.3 文章关键字模型457
  • 8.4.4 主题模型458
  • 8.4.5 垃圾信息检测模型459
  • 8.5 内容数据化运营分析小技巧460
  • 8.5.1 通过AB测试和多变量测试找到最佳内容版本460
  • 8.5.2 通过屏幕浏览占比了解用户到底看了页面多少内容461
  • 8.5.3 通过数据分析系统与CMS打通实现个性化内容运营462
  • 8.5.4 将个性化推荐从网站应用到APP端466
  • 8.6 内容数据化运营分析的“大实话”467
  • 8.6.1 个性化内容运营不仅是整合CMS和数据系统467
  • 8.6.2 用户在着陆页上不只有跳出和继续两种状态467
  • 8.6.3 “人工组合”的内容运营价值最大化并非不能实现468
  • 8.6.4 影响内容点击率的因素不仅有位置469
  • 8.7 案例:基于潜在狄利克雷分配(LDA)的内容主题挖掘470
  • 8.7.1 案例背景470
  • 8.7.2 案例主要应用技术470
  • 8.7.3 案例数据471
  • 8.7.4 案例过程471
  • 8.7.5 案例数据结论480
  • 8.7.6 案例应用和部署481
  • 8.7.7 案例注意点481
  • 8.7.8 案例引申思考481
  • 8.8 案例:基于多项式贝叶斯的增量学习的文本分类482
  • 8.8.1 案例背景482
  • 8.8.2 案例主要应用技术482
  • 8.8.3 案例数据482
  • 8.8.4 案例过程483
  • 8.8.5 案例数据结论491
  • 8.8.6 案例应用和部署491
  • 8.8.7 案例注意点491
  • 8.8.8 案例引申思考492
  • 8.9 本章小结492
  • 第9章 数据化运营分析的终极秘籍495
  • 9.1 撰写出彩的数据分析报告的5个建议495
  • 9.1.1 完整的报告结构495
  • 9.1.2 精致的页面版式496
  • 9.1.3 漂亮的可视化图形498
  • 9.1.4 突出报告的关键信息500
  • 9.1.5 用报告对象习惯的方式撰写报告501
  • 9.2 数据化运营支持的4种扩展方式502
  • 9.2.1 数据API502
  • 9.2.2 数据模型503
  • 9.2.3 数据产品503
  • 9.2.4 运营产品504
  • 9.3 提升数据化运营价值度的5种途径504
  • 9.3.1 数据源:不只有结构化的数据,还有文本、图片、视频、语音504
  • 9.3.2 自动化:建立自动任务,解除重复劳动505
  • 9.3.3 未卜先知:建立智能预警模型,不要让运营先找你505
  • 9.3.4 智能化:向BI-AI的方向走507
  • 9.3.5 场景化:将数据嵌入运营环节之中507
  • 9.4 本章小结508
  • 附录509
  • 附录A 公开数据集509
  • 附录B Python数据工具箱516

资源获取

资源地址1:https://pan.baidu.com/s/16aP8XfsXtj_8gVxGDT7jdg

相关资源

网友留言