当前位置:主页 > 书籍配套资源 > Python配套资源
《Python数据分析与数据化运营》附件

《Python数据分析与数据化运营》附件

  • 更新:2022-02-22
  • 大小:106.5 MB
  • 类别:Python
  • 作者:宋天龙
  • 出版:机械工业出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

这是一部从实战角度讲解如何利用Python进行数据分析、挖掘和数据化运营的著作,不仅对数据分析的关键技术和技巧进行了总结,更重要的是对会员、商品、流量、内容4个主题的数据化运营进行了系统讲解。

作者是国内一线资深的数据分析师和大数据专家,在数据分析和数据化运营领域有近10年的经验,在业内颇具知名度和影响力。本书不仅得到了宋星、黄成明、宫鑫等近14位资深专家的好评和推荐,还得了天善智能、中国统计网等多个数据科学相关机构的支持和高度认可。
全书的内容在逻辑上共分为两大部分:

第一部分(第1~4章):Python数据分析与挖掘

着重讲解了Python和数据化运营的基本知识,以及Python数据获取(结构化和非结构化)、预处理、分析和挖掘的关键技术和经验。包含11条数据预处理经验、39个数据预处理知识点、14个数据分析和挖掘的建模主题。

第二部分(第5~9章):Python数据化运营

这是本书的核心,详细讲解了会员运营、商品运营、流量运营和内容运营四个大主题,以及提升数据化运营价值的方法。在每个运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个综合性的应用案例。
本书提供案例数据和源代码(中文注释)下载,供读者实操时使用。

封面图

目录

  • 赞誉
  • 前言
  • 第1章Python和数据化运营1
  • 1.1用Python做数据化运营1
  • 1.1.1Python是什么1
  • 1.1.2数据化运营是什么2
  • 1.1.3Python用于数据化运营5
  • 1.2数据化运营所需的Python相关工具和组件6
  • 1.2.1Python程序6
  • 1.2.2Python IDE7
  • 1.2.3Python第三方库8
  • 1.2.4数据库和客户端16
  • 1.2.5SSH远程客户端18
  • 1.3内容延伸:Python的OCR和TensorFlow18
  • 1.3.1OCR工具:Tesseract-OCR18
  • 1.3.2机器学习框架—TensorFlow19
  • 1.4第一个用Python实现的数据化运营分析实例—销售预测20
  • 1.4.1案例概述20
  • 1.4.2案例过程20
  • 1.4.3案例小结28
  • 1.5本章小结28
  • 第2章数据化运营的数据来源31
  • 2.1数据化运营的数据来源类型31
  • 2.1.1数据文件31
  • 2.1.2数据库32
  • 2.1.3API33
  • 2.1.4流式数据34
  • 2.1.5外部公开数据34
  • 2.1.6其他35
  • 2.2使用Python获取运营数据35
  • 2.2.1从文本文件读取运营数据35
  • 2.2.2从Excel获取运营数据46
  • 2.2.3从关系型数据库MySQL读取运营数据48
  • 2.2.4从非关系型数据库MongoDB读取运营数据56
  • 2.2.5从API获取运营数据59
  • 2.3内容延伸:读取非结构化网页、文本、图像、视频、语音64
  • 2.3.1从网页中爬取运营数据64
  • 2.3.2读取非结构化文本数据65
  • 2.3.3读取图像数据65
  • 2.3.4读取视频数据68
  • 2.3.5读取语音数据70
  • 2.4本章小结75
  • 第3章11条数据化运营不得不知道的数据预处理经验76
  • 3.1数据清洗:缺失值、异常值和重复值的处理76
  • 3.1.1数据列缺失的4种处理方法76
  • 3.1.2不要轻易抛弃异常数据78
  • 3.1.3 数据重复就需要去重吗79
  • 3.1.4代码实操:Python数据清洗81
  • 3.2将分类数据和顺序数据转换为标志变量89
  • 3.2.1分类数据和顺序数据是什么89
  • 3.2.2运用标志方法处理分类和顺序数据90
  • 3.2.3代码实操:Python标志转换90
  • 3.3大数据时代的数据降维94
  • 3.3.1需要数据降维的情况94
  • 3.3.2基于特征选择的降维94
  • 3.3.3基于维度转换的降维96
  • 3.3.4代码实操:Python数据降维97
  • 3.4解决样本类别分布不均衡的问题100
  • 3.4.1哪些运营场景中容易出现样本不均衡100
  • 3.4.2通过过抽样和欠抽样解决样本不均衡101
  • 3.4.3通过正负样本的惩罚权重解决样本不均衡101
  • 3.4.4通过组合/集成方法解决样本不均衡102
  • 3.4.5通过特征选择解决样本不均衡102
  • 3.4.6代码实操:Python处理样本不均衡102
  • 3.5如何解决运营数据源的冲突问题106
  • 3.5.1为什么会出现多数据源的冲突107
  • 3.5.2如何应对多数据源的冲突问题109
  • 3.6数据化运营要抽样还是全量数据109
  • 3.6.1什么时候需要抽样110
  • 3.6.2如何进行抽样110
  • 3.6.3抽样需要注意的几个问题111
  • 3.6.4代码实操:Python数据抽样113
  • 3.7解决运营数据的共线性问题116
  • 3.7.1如何检验共线性117
  • 3.7.2解决共线性的5种常用方法117
  • 3.7.3代码实操:Python处理共线性问题118
  • 3.8有关相关性分析的混沌120
  • 3.8.1相关和因果是一回事吗120
  • 3.8.2相关系数低就是不相关吗121
  • 3.8.3代码实操:Python相关性分析121
  • 3.9标准化,让运营数据落入相同的范围122
  • 3.9.1实现中心化和正态分布的Z-Score122
  • 3.9.2实现归一化的Max-Min123
  • 3.9.3用于稀疏数据的MaxAbs123
  • 3.9.4针对离群点的RobustScaler123
  • 3.9.5代码实操:Python数据标准化处理123
  • 3.10离散化,对运营数据做逻辑分层126
  • 3.10.1针对时间数据的离散化127
  • 3.10.2针对多值离散数据的离散化127
  • 3.10.3针对连续数据的离散化127
  • 3.10.4针对连续数据的二值化128
  • 3.10.5代码实操:Python数据离散化处理128
  • 3.11数据处理应该考虑哪些运营业务因素133
  • 3.11.1考虑固定和突发运营周期133
  • 3.11.2考虑运营需求的有效性134
  • 3.11.3考虑交付时要贴合运营落地场景134
  • 3.11.4不要忽视业务专家经验135
  • 3.11.5考虑业务需求的变动因素136
  • 3.12内容延伸:非结构化数据的预处理137
  • 3.12.1网页数据解析137
  • 3.12.2网络用户日志解析144
  • 3.12.3图像的基本预处理148
  • 3.12.4自然语言文本预处理154
  • 3.13本章小结157
  • 第4章跳过运营数据分析和挖掘的“大坑”159
  • 4.1聚类分析159
  • 4.1.1当心数据异常对聚类结果的影响160
  • 4.1.2超大数据量时应该放弃K均值算法160
  • 4.1.3聚类不仅是建模的终点,更是重要的中间预处理过程162
  • 4.1.4高维数据上无法应用聚类吗163
  • 4.1.5如何选择聚类分析算法164
  • 4.1.6代码实操:Python聚类分析164
  • 4.2回归分析172
  • 4.2.1注意回归自变量之间的共线性问题172
  • 4.2.2相关系数、判定系数和回归系数之间到底什么关系172
  • 4.2.3判定系数是否意味着相应的因果联系173
  • 4.2.4注意应用回归模型时研究自变量是否产生变化173
  • 4.2.5如何选择回归分析算法174
  • 4.2.6代码实操:Python回归分析174
  • 4.3分类分析183
  • 4.3.1防止分类模型的过拟合问题183
  • 4.3.2使用关联算法做分类分析183
  • 4.3.3用分类分析来提炼规则、提取变量、处理缺失值184
  • 4.3.4类别划分-分类算法和聚类算法都是好手185
  • 4.3.5如何选择分类分析算法186
  • 4.3.6代码实操:Python分类分析187
  • 4.4关联分析195
  • 4.4.1频繁规则不一定是有效规则195
  • 4.4.2不要被啤酒尿布的故事紧固你的思维196
  • 4.4.3被忽略的“负相关”模式真的毫无用武之地吗197
  • 4.4.4频繁规则只能打包组合应用吗198
  • 4.4.5关联规则的序列模式199
  • 4.4.6代码实操:Python关联分析200
  • 4.5异常检测分析206
  • 4.5.1异常检测中的“新奇检测”模式207
  • 4.5.2将数据异常与业务异常相分离207
  • 4.5.3面临维度灾难时,异常检测可能会失效208
  • 4.5.4异常检测的结果能说明异常吗208
  • 4.5.5代码实操:Python异常检测分析208
  • 4.6时间序列分析212
  • 4.6.1如果有自变量,为什么还要用时间序列212
  • 4.6.2时间序列不适合商业环境复杂的企业213
  • 4.6.3时间序列预测的整合、横向和纵向模式214
  • 4.6.4代码实操:Python时间序列分析214
  • 4.7路径、漏斗、归因和热力图分析234
  • 4.7.1不要轻易相信用户的页面访问路径237
  • 4.7.2如何将路径应用于更多用户行为模式的挖掘?237
  • 4.7.3为什么很多数据都显示多渠道路径的价值很小?238
  • 4.7.4点击热力图真的反映了用户的点击喜好?239
  • 4.7.5为什么归因分析主要存在于线上的转化行为240
  • 4.7.6漏斗分析和路径分析有什么区别240
  • 4.8其他数据分析和挖掘的忠告241
  • 4.8.1不要忘记数据质量的验证241
  • 4.8.2不要忽视数据的落地性242
  • 4.8.3不要把数据陈列当作数据结论242
  • 4.8.4数据结论不要产生于单一指标244
  • 4.8.5数据分析不要预设价值立场244
  • 4.8.6不要忽视数据与业务的需求冲突问题245
  • 4.9内容延伸:非结构化数据的分析与挖掘246
  • 4.9.1词频统计246
  • 4.9.2词性标注249
  • 4.9.3关键字提取253
  • 4.9.4文本聚类255
  • 4.10本章小结258
  • 第5章会员数据化运营260
  • 5.1会员数据化运营概述260
  • 5.2会员数据化运营关键指标261
  • 5.2.1会员整体指标261
  • 5.2.2会员营销指标261
  • 5.2.3会员活跃度指标263
  • 5.2.4会员价值度指标265
  • 5.2.5会员终生价值指标266
  • 5.2.6会员异动指标266
  • 5.3会员数据化运营应用场景267
  • 5.3.1会员营销267
  • 5.3.2会员关怀267
  • 5.4会员数据化运营分析模型268
  • 5.4.1会员细分模型268
  • 5.4.2会员价值度模型269
  • 5.4.3会员活跃度模型270
  • 5.4.4会员流失预测模型271
  • 5.4.5会员特征分析模型272
  • 5.4.6营销响应预测模型273
  • 5.5会员数据化运营分析小技巧274
  • 5.5.1使用留存分析新用户质量274
  • 5.5.2使用AARRR做APP用户生命周期分析275
  • 5.5.3借助动态数据流关注会员状态的轮转276
  • 5.5.4使用协同过滤算法为新会员分析推送个性化信息277
  • 5.6会员数据化运营分析的“大实话”279
  • 5.6.1企业“不差钱”,还有必要做会员精准营销吗279
  • 5.6.2用户满意度取决于期望和给予的匹配程度280
  • 5.6.3用户不购买就是流失了吗280
  • 5.6.4来自调研问卷的用户信息可信吗281
  • 5.6.5不要盲目相信二八法则283
  • 5.7案例:基于RFM的用户价值度分析283
  • 5.7.1案例背景283
  • 5.7.2案例主要应用技术284
  • 5.7.3案例数据284
  • 5.7.4案例过程284
  • 5.7.5案例数据结论294
  • 5.7.6案例应用和部署295
  • 5.7.7案例注意点295
  • 5.7.8案例引申思考296
  • 5.8案例:基于AdaBoost的营销响应预测297
  • 5.8.1案例背景297
  • 5.8.2案例主要应用技术297
  • 5.8.3案例数据298
  • 5.8.4案例过程298
  • 5.8.5案例数据结论313
  • 5.8.6案例应用和部署313
  • 5.8.7案例注意点314
  • 5.8.8案例引申思考315
  • 5.9本章小结315
  • 第6章商品数据化运营317
  • 6.1 商品数据化运营概述317
  • 6.2商品数据化运营关键指标317
  • 6.2.1销售类指标317
  • 6.2.2促销活动指标320
  • 6.2.3供应链指标321
  • 6.3商品数据化运营应用场景323
  • 6.3.1销售预测323
  • 6.3.2库存分析323
  • 6.3.3市场分析324
  • 6.3.4促销分析324
  • 6.4商品数据化运营分析模型325
  • 6.4.1商品价格敏感度模型325
  • 6.4.2新产品市场定位模型326
  • 6.4.3销售预测模型327
  • 6.4.4商品关联销售模型327
  • 6.4.5异常订单检测328
  • 6.4.6商品规划的最优组合328
  • 6.5商品数据化运营分析小技巧330
  • 6.5.1使用层次分析法将定量与定性分析结合331
  • 6.5.2通过假设检验做促销拉动分析333
  • 6.5.3使用BCG矩阵做商品结构分析334
  • 6.5.4巧用4P分析建立完善的商品运营分析结构336
  • 6.6商品数据化运营分析的“大实话”337
  • 6.6.1为什么很多企业会以低于进价的价格大量销售商品337
  • 6.6.2促销活动真的是在促进商品销售吗339
  • 6.6.3用户关注的商品就是要买的商品吗340
  • 6.6.4提供的选择过多其实不利于商品销售341
  • 6.7案例:基于超参数优化的Gradient Boosting的销售预测341
  • 6.7.1案例背景341
  • 6.7.2案例主要应用技术341
  • 6.7.3案例数据342
  • 6.7.4案例过程343
  • 6.7.5案例数据结论351
  • 6.7.6案例应用和部署351
  • 6.7.7案例注意点351
  • 6.7.8案例引申思考351
  • 6.8案例:基于LogisticRegression、
  • RandomForest、Bagging概率投票
  • 组合模型的异常检测352
  • 6.8.1案例背景352
  • 6.8.2案例主要应用技术352
  • 6.8.3案例数据353
  • 6.8.4案例过程353
  • 6.8.5案例数据结论364
  • 6.8.6案例应用和部署364
  • 6.8.7案例注意点365
  • 6.8.8案例引申思考365
  • 6.9本章小结367
  • 第7章流量数据化运营369
  • 7.1流量数据化运营概述369
  • 7.28大流量分析工具369
  • 7.3如何选择第三方流量分析工具372
  • 7.4流量采集分析系统的工作机制375
  • 7.4.1流量数据采集376
  • 7.4.2流量数据处理379
  • 7.4.3流量数据应用380
  • 7.5流量数据与企业数据的整合381
  • 7.5.1流量数据整合的意义381
  • 7.5.2流量数据整合的范畴382
  • 7.5.3流量数据整合的方法382
  • 7.6流量数据化运营指标383
  • 7.6.1站外营销推广指标383
  • 7.6.2网站流量数量指标385
  • 7.6.3网站流量质量指标386
  • 7.7流量数据化运营应用场景389
  • 7.7.1流量采购389
  • 7.7.2流量分发391
  • 7.8流量数据化运营分析模型391
  • 7.8.1流量波动检测392
  • 7.8.2渠道特征聚类393
  • 7.8.3广告整合传播模型393
  • 7.8.4流量预测模型397
  • 7.9流量数据化运营分析小技巧398
  • 7.9.1给老板提供一页纸的流量dashboard398
  • 7.9.2关注趋势、重要事件和潜在因素是日常报告的核心400
  • 7.9.3使用从细分到多层下钻数据分析400
  • 7.9.4通过跨屏追踪解决用户跨设备和浏览器的访问行为401
  • 7.9.5基于时间序列的用户群体过滤403
  • 7.10流量数据化运营分析的“大实话”406
  • 7.10.1流量数据分析的价值其实没那么大406
  • 7.10.2如何将流量的实时分析价值最大化406
  • 7.10.3营销流量的质量评估是难点工作407
  • 7.10.4个性化的媒体投放仍然面临很多问题408
  • 7.10.5传统的网站分析方法到底缺少了什么409
  • 7.11案例:基于自动节点树的数据异常原因下探分析413
  • 7.11.1案例背景413
  • 7.11.2案例主要应用技术414
  • 7.11.3案例数据415
  • 7.11.4案例过程416
  • 7.11.5案例数据结论430
  • 7.11.6案例应用和部署431
  • 7.11.7案例注意点432
  • 7.11.8案例引申思考432
  • 7.12案例:基于自动K值的KMeans广告效果聚类分析433
  • 7.12.1案例背景433
  • 7.12.2案例主要应用技术433
  • 7.12.3案例数据434
  • 7.12.4案例过程434
  • 7.12.5案例数据结论446
  • 7.12.6案例应用和部署447
  • 7.12.7案例注意点448
  • 7.12.8案例引申思考448
  • 7.13本章小结449
  • 第8章内容数据化运营451
  • 8.1内容数据化运营概述451
  • 8.2内容数据化运营指标452
  • 8.3内容数据化运营应用场景455
  • 8.4内容数据化运营分析模型456
  • 8.4.1情感分析模型456
  • 8.4.2搜索优化模型 457
  • 8.4.3文章关键字模型457
  • 8.4.4主题模型458
  • 8.4.5垃圾信息检测模型459
  • 8.5内容数据化运营分析小技巧460
  • 8.5.1通过AB测试和多变量测试找到最佳内容版本460
  • 8.5.2通过屏幕浏览占比了解用户到底看了页面多少内容461
  • 8.5.3通过数据分析系统与CMS打通实现个性化内容运营462
  • 8.5.4将个性化推荐从网站应用到APP端466
  • 8.6内容数据化运营分析的“大实话”467
  • 8.6.1个性化内容运营不仅是整合CMS和数据系统467
  • 8.6.2用户在着陆页上不只有跳出和继续两种状态467
  • 8.6.3“人工组合”的内容运营价值最大化并非不能实现468
  • 8.6.4影响内容点击率的因素不仅有位置469
  • 8.7案例:基于潜在狄利克雷分配(LDA)的内容主题挖掘470
  • 8.7.1案例背景470
  • 8.7.2案例主要应用技术470
  • 8.7.3案例数据471
  • 8.7.4案例过程471
  • 8.7.5案例数据结论480
  • 8.7.6案例应用和部署481
  • 8.7.7案例注意点481
  • 8.7.8案例引申思考481
  • 8.8案例:基于多项式贝叶斯的增量学习的文本分类482
  • 8.8.1案例背景482
  • 8.8.2案例主要应用技术482
  • 8.8.3案例数据482
  • 8.8.4案例过程483
  • 8.8.5案例数据结论491
  • 8.8.6案例应用和部署491
  • 8.8.7案例注意点491
  • 8.8.8案例引申思考492
  • 8.9本章小结492
  • 第9章数据化运营分析的终极秘籍495
  • 9.1撰写出彩的数据分析报告的5个建议495
  • 9.1.1完整的报告结构495
  • 9.1.2精致的页面版式496
  • 9.1.3漂亮的可视化图形498
  • 9.1.4突出报告的关键信息500
  • 9.1.5用报告对象习惯的方式撰写报告501
  • 9.2数据化运营支持的4种扩展方式502
  • 9.2.1数据API502
  • 9.2.2数据模型503
  • 9.2.3数据产品503
  • 9.2.4运营产品504
  • 9.3提升数据化运营价值度的5种途径504
  • 9.3.1数据源:不只有结构化的数据,还有文本、图片、视频、语音504
  • 9.3.2自动化:建立自动任务,解除重复劳动505
  • 9.3.3未卜先知:建立智能预警模型,不要让运营先找你505
  • 9.3.4智能化:向BI-AI的方向走507
  • 9.3.5场景化:将数据嵌入运营环节之中507
  • 9.4本章小结508
  • 附录509
  • 附录A公开数据集509
  • 附录BPython数据工具箱516

资源下载

资源下载地址1:https://pan.baidu.com/s/1RyXEKi5GzKXF_4MLs4-X-w

相关资源

网友留言