对“伪大数据”说不:走出大数据分析与解读的误区 PDF 超清版

  • 更新时间:
  • 517人关注
  • 点击下载

给大家带来的一篇关于大数据分析相关的电子书资源,介绍了关于大数据分析、大数据方面的内容,本书是由中国人民大学出版社出版,格式为PDF,资源大小29.66MB,冯启思(Kaiser Fung)编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.8分

资源详情相关推荐
对“伪大数据”说不:走出大数据分析与解读的误区
  • 出版社:中国人民大学出版社
  • 作者:冯启思(Kaiser、Fung)
  • 大小:29.66MB
  • 类别:大数据分析
  • 热度:209
  • Spark大数据分析实战
  • Python金融大数据分析
  • Hadoop大数据分析与挖掘实战
  • 颠覆大数据分析
  • 《R大数据分析实用指南》配套资源
  • 对“伪大数据”说不:走出大数据分析与解读的误区

    作者: [美] 冯启思 著;曲玉彬 译

    出版时间: 2015

    从另一个角度认识大数据的力量,带我们走出大数据分析与解读的误区,帮助我们培养出数字直觉。

    我们生活在大数据的时代,在《对“伪大数据”说不:走出大数据分析与解读的误区》中,统计学专家冯启思将告诉你在什么时候可以接受大数据“专家”的结论,什么时候要对这些统计数字提出质疑。他深入人们日常生活和工作中广泛关注的话题,如学校排名、健康指数、就业统计、团购网站等,通过对这些数据的分析与解读来告诉人们什么才是正确的答案,如何才能培养出数字直觉。作者还在书中告诫人们在当今这个信息超载的时代,媒体充斥着各种不良信息,千万不要轻易地信以为真,要学会对“伪大数据”说不!

    目录

    • 第一部分
    • 关于社会大数据的解读
    • 第1章法学院院长互发垃圾邮件为哪般
    • 当一天招生办主任
    • 伪造、精挑细选和换牌游戏
    • 正在消失的行为、不限量、学校之间的联系以及部分得分
    • 制造工作数据
    • 问卷生存游戏、秘密协议、有提示的记忆
    • 牵连共犯
    • 法学院逃过经济衰退一劫
    • 塞克斯顿主义
    • 济于事
    • 第2章新的统计数据真的能让我们瘦下来吗
    • 减肥餐的致命弱点
    • 身高体重指数
    • 被误用的测量
    • 需要解决的难题
    • 真正的难题在哪里
    • 维持新体重的最后一搏
    • 第二部分
    • 关于营销大数据的解读
    • 第3章脱销是如何毁掉一家企业的
    • 盈利与亏损的分界线
    • 网络营销真的那么管用吗
    • 第4章个性化销售真的能挽救高朋吗
    • 通过电子邮件检索
    • 失败的乐趣
    • 当米兰达遇见帕特里克
    • 高朋的目标客户到底在哪里
    • 高朋模式需要更多的新客户
    • 高朋的定位
    • 成长的阵痛
    • 第5章营销人员为何给你发混合型的推销信息
    • 超特大号(XXL)提包是如何泄露你的秘密的
    • 商家都了解你的什么
    • 传递混合信息的科学性
    • 大数据是救世主吗
    • 第三部分
    • 关于经济大数据的解读
    • 第6章要是没人能够申请,这还算新工作吗
    • 找借口
    • 是否需要进行季度性调整
    • 这条鱼变质了
    • 华盛顿过去的那些漂亮的统计数据
    • 克鲁德尔称之为“哎呦”
    • 第7章你买鸡蛋花了多少钱
    • 有些你看见了,有些你没看见
    • 对被平均化的不满
    • 谁的核心
    • 钻啊,孩子,钻啊
    • 对平均数的惧怕
    • 第四部分
    • 关于体育大数据的解读
    • 第8章你是好教练还是好经理
    • 邀请统计学家进入你家厨房
    • 生活在梦幻游戏之外
    • 首先看一下教练
    • 再看一下教练能力
    • 杰伊为何要忽略自己的建议
    • 被总经理所禁锢命运
    • 接下来在家里会发生什么
    • 后记在大数据时代生存下去
    • [美其名曰]大数据科学家生活中的三个小时
    • 三天与6000个词的较量
    展开阅读
    精选笔记:Python实现的大数据分析操作系统日志功能示例

    7小时44分钟前回答

    本文实例讲述了Python实现的大数据分析操作系统日志功能。分享给大家供大家参考,具体如下:

    一 代码

    1、大文件切分

    import os
    import os.path
    import time
    def FileSplit(sourceFile, targetFolder):
      if not os.path.isfile(sourceFile):
        print(sourceFile, ' does not exist.')
        return
      if not os.path.isdir(targetFolder):
        os.mkdir(targetFolder)
      tempData = []
      number = 1000
      fileNum = 1
      linesRead = 0
      with open(sourceFile, 'r') as srcFile:
        dataLine = srcFile.readline().strip()
        while dataLine:
          for i in range(number):
            tempData.append(dataLine)
            dataLine = srcFile.readline()
            if not dataLine:
              break
          desFile = os.path.join(targetFolder, sourceFile[0:-4] + str(fileNum) + '.txt')
          with open(desFile, 'a+') as f:
            f.writelines(tempData)
          tempData = []
          fileNum = fileNum + 1
    if __name__ == '__main__':
      #sourceFile = input('Input the source file to split:')
      #targetFolder = input('Input the target folder you want to place the split files:')
      sourceFile = 'test.txt'
      targetFolder = 'test'
      FileSplit(sourceFile, targetFolder)
    
    

    2、Mapper代码

    import os
    import re
    import threading
    import time
    def Map(sourceFile):
      if not os.path.exists(sourceFile):
        print(sourceFile, ' does not exist.')
        return
      pattern = re.compile(r'[0-9]{1,2}/[0-9]{1,2}/[0-9]{4}')
      result = {}
      with open(sourceFile, 'r') as srcFile:
        for dataLine in srcFile:
          r = pattern.findall(dataLine)
          if r:
            t = result.get(r[0], 0)
            t += 1
            result[r[0]] = t
      desFile = sourceFile[0:-4] + '_map.txt'
      with open(desFile, 'a+') as fp:
        for k, v in result.items():
          fp.write(k + ':' + str(v) + '\n')
    if __name__ == '__main__':
      desFolder = 'test'
      files = os.listdir(desFolder)
      #如果不使用多线程,可以直接这样写
      '''for f in files:
        Map(desFolder + '\\' + f)'''
      #使用多线程
      def Main(i):
        Map(desFolder + '\\' + files[i])
      fileNumber = len(files)
      for i in range(fileNumber):
        t = threading.Thread(target = Main, args =(i,))
        t.start()
    
    

    3.Reducer代码

    import os
    def Reduce(sourceFolder, targetFile):
      if not os.path.isdir(sourceFolder):
        print(sourceFolder, ' does not exist.')
        return
      result = {}
      #Deal only with the mapped files
      allFiles = [sourceFolder+'\\'+f for f in os.listdir(sourceFolder) if f.endswith('_map.txt')]
      for f in allFiles:
        with open(f, 'r') as fp:
          for line in fp:
            line = line.strip()
            if not line:
              continue
            position = line.index(':')
            key = line[0:position]
            value = int(line[position + 1:])
            result[key] = result.get(key,0) + value
      with open(targetFile, 'w') as fp:
        for k,v in result.items():
          fp.write(k + ':' + str(v) + '\n')
    if __name__ == '__main__':
      Reduce('test', 'test\\result.txt')
    
    

    二 运行结果

    依次运行上面3个程序,得到最终结果:

    07/10/2013:4634
    07/16/2013:51
    08/15/2013:3958
    07/11/2013:1
    10/09/2013:733
    12/11/2013:564
    02/12/2014:4102
    05/14/2014:737

    更多关于Python相关内容感兴趣的读者可查看本站专题:《Python日志操作技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

    希望本文所述对大家Python程序设计有所帮助。

    展开阅读

    资源下载

    相关资源

    • 大数据分析:R基础及应用

      大数据分析:R基础及应用

      在大数据时代,R以其强大的数据分析挖掘、可视化绘图等功能,越来越受到社会各个领域的青睐。现在,R的计算引擎、性能、程序包都得到了提升,其中R与大数据分析平台Hadoop的结合,实现

      大小:26.8 MB大数据

      立即下载
    • 大数据分析:方法与应用

      大数据分析:方法与应用

      这书详细介绍大数据挖掘、统计分析学习培训和系统识别中与数据分析有关的基础理论、方式及专用工具。方式学习培训的总体目标是使学员可以依照实证分析的标准和大数据挖掘的流程开展互

      大小:98.6 MB大数据分析

      立即下载
    • Druid实时大数据分析原理与实践

      Druid实时大数据分析原理与实践

      Druid 作为一款开源的实时大数据分析软件,最近几年快速风靡全球互联网公司,特别是对于海量数据和实时性要求高的场景,包括广告数据分析、用户行为分析、数据统计分析、运维监控分析

      大小:48.4 MBDruid

      立即下载
    • Python金融大数据分析(第2版)

      Python金融大数据分析(第2版)

      《Python金融大数据分析 第2版》分为5部分,共21章。第1部分介绍了Python在金融学中的应用,其内容涵盖了Python用于金融行业的原因、Python的基础架构和工具,以及Python在计量金融学中的一些具体入门实例;第2部分介绍了Python的基础知识以及Python中非常有名的库NumPy和pandas工具集,还介绍了面向对象编程;第3部分介绍金融数据科学的相关基本技术和方法,包括数据可视化、输入/输出操作和数学中与金融相关的知识等;第4部分介绍Python在算法交易上的应用

      大小:76 MB大数据分析

      立即下载
    • 大数据分析:数据科学应用场景与实践精髓

      大数据分析:数据科学应用场景与实践精髓

      本书深度挖掘如何把大数据分析变成生产力,侧重于案例研究和行动方案,而非聚焦算法模型的技术细节,是一本讨论大数据理论及应用实践的专著

      大小:38.23 MB大数据

      立即下载
    • 云端时代杀手级应用:大数据分析

      云端时代杀手级应用:大数据分析

      云端时代杀手级应用:大数据分析源源不绝的庞杂数据量,彻底改变游戏规则,谁能理出脉络、洞察商机、领先创新,就能成为新赢家 作者:胡世忠著 出版时间:2013-6-1 【图书简介】 《云端时代杀手级应用:大数据分析》分什么是大数据、大数据大商机、技术与前瞻3个部分。第一部分介绍大数据分析的概念,以及企业、政府部门可应用的范畴。什么是大数据分析?与个人与企业有什么关系?将对全球产业造成怎样的冲击?第二部分完整介绍大数据在各

      大小:43.39MB大数据分析

      立即下载
    • 触手可及的大数据分析工具:Tableau案例集

      触手可及的大数据分析工具:Tableau案例集

      《触手可及的大数据分析工具:Tableau案例集》对Tableau的产品、优势、Tableau 9.0的新特性及其功能做了全面的介绍,并且从15个不同行业的案例入手,让你在阅读本书后能够从一个新手成长为能

      大小:80.6 MB大数据

      立即下载

    学习笔记

    19小时28分钟前回答

    python金融大数据分析有用吗

    《Python金融大数据分析 》是人民邮电出版社2015年12月出版的中译图书,作者[德]伊夫·希尔皮斯科,译者姚军。 《Python金融大数据分析》,唯一一本详细讲解使用Python分析处理金融大数据的专业图书;金融应用开发领域从业人员必读。适合对使用Python进行大数据分析、处理感兴趣的金融行业开发人员阅读。 (推荐学习:Python视频教程) 内容介绍 Python凭借其简单、易读、可扩展性以及拥有巨大而活跃的科学计算社区,在需要分析、处理大量数据的金融行业得到了广泛而迅速的应用,并且成为该行业开发核心应用的首选编程语言。 《Python金融大数据分析》提供了使用Python进行数据分析,以及开发相关应用……

    9小时6分钟前回答

    python怎么做大数据分析

    数据获取:公开数据、Python爬虫 外部数据的获取方式主要有以下两种。(推荐学习:Python视频教程) 第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。 另一种获取外部数据的方式就是爬虫。 比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。 在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表……