智能数据分析:入门、实战与平台构建

智能数据分析:入门、实战与平台构建 PDF 清晰中文版

  • 大小:78.2 MB
  • 类型:数据分析
  • 格式:PDF
  • 出版:机械工业出版社
  • 作者:陈雪莹
  • 更新:2022-09-14 08:42:33
版权投诉 / 资源反馈(本资源由用户 秦文成 投稿)

给寻找技术文档的朋友们精选了数据分析相关的资料,由机械工业出版社出版,作者是陈雪莹,介绍了关于数据分析、数据分析入门方面,格式为PDF,资源大小78.2 MB,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.2分。

书籍介绍

内容简介

本书将以智能数据分析为主线,分三个部分进行介绍:第一部分将通过对数据分析发展历程及趋势的介绍,让读者通过浅显易懂的方式快速了解数据智能分析及其发展趋势;第二部分将详细讲述笔者通过经验总结的数据智能分析的思路、方法与技巧,帮读者在脑中建立起清晰的智能分析思路及分析体系;第三部分将通过各行业案例的介绍,侧重说明企业数据智能分析的价值体现。

目录

  • 前言
  • 第一部分基础知识
  • 第1章初识智能数据分析2
  • 1.1智能数据分析的定义2
  • 1.2基础理论体系3
  • 1.2.1DIKW3
  • 1.2.2CRISP-DM6
  • 1.3数据分析的发展8
  • 1.3.1分析思路的演进9
  • 1.3.2分析工具的发展11
  • 1.3.3组织体系的变革13
  • 1.3.4未来趋势15
  • 1.4本章小结18
  • 第2章智能数据分析基本知识19
  • 2.1数据分析之“痛”19
  • 2.1.1数据找不到19
  • 2.1.2数据质量差20
  • 2.1.3分析手段旧21
  • 2.1.4分析效率低21
  • 2.1.5数据杂乱21
  • 2.2数据分析之“悟”21
  • 2.2.1数据“收纳”21
  • 2.2.2寻找“好数据”25
  • 2.2.3向“数据科学家”看齐26
  • 2.3数据分析之“层”27
  • 2.3.1描述性分析29
  • 2.3.2诊断性分析34
  • 2.3.3预测性分析38
  • 2.3.4指导性分析39
  • 2.4数据分析之“法”41
  • 2.4.1分析思维41
  • 2.4.2分析方法42
  • 2.5本章小结43
  • 第二部分理论方法
  • 第3章数据资产管理46
  • 3.1认识数据资产管理47
  • 3.1.1发展历程47
  • 3.1.2基本内容48
  • 3.2数据之“管”50
  • 3.2.1数据的4个层次50
  • 3.2.2元数据52
  • 3.2.3数据标签53
  • 3.2.4主数据55
  • 3.3数据之“存”57
  • 3.3.1数据湖58
  • 3.3.2数据仓库59
  • 3.3.3数据集市60
  • 3.4数据之“算”61
  • 3.4.1数据清洗62
  • 3.4.2数据加工63
  • 3.4.3数据ETL65
  • 3.5数据之“规”65
  • 3.5.1数据标准65
  • 3.5.2规范制度67
  • 3.6数据之“治”67
  • 3.6.1高层负责67
  • 3.6.2组织保障68
  • 3.6.3机制建立68
  • 3.7本章小结69
  • 第4章数据统计及数据挖掘70
  • 4.1相关基础概念70
  • 4.2描述性统计分析方法71
  • 4.2.1常规统计72
  • 4.2.2集中趋势统计72
  • 4.2.3离散趋势统计76
  • 4.3诊断性分析方法77
  • 4.3.1因素分析法78
  • 4.3.2上卷与下钻78
  • 4.3.3关联分析79
  • 4.4预测性分析方法80
  • 4.4.1线性回归81
  • 4.4.2逻辑回归82
  • 4.4.3K-Means算法84
  • 4.5指导性分析方法85
  • 4.5.1决策树85
  • 4.5.2随机森林87
  • 4.5.3协同过滤88
  • 4.5.4神经网络90
  • 4.6本章小结93
  • 第5章数据可视化分析94
  • 5.1可视化简史94
  • 5.1.118世纪以前:图形符号94
  • 5.1.218~19世纪:统计图形从萌芽到繁盛95
  • 5.1.320世纪:多维信息图形规范化98
  • 5.1.421世纪以来:交互可视化99
  • 5.2可视化图表基础理论100
  • 5.2.1比较分析101
  • 5.2.2构成分析106
  • 5.2.3分布分析110
  • 5.2.4关联分析116
  • 5.3“好图表”和“坏图表”119
  • 5.3.1好看119
  • 5.3.2好懂123
  • 5.3.3好用125
  • 5.4“好报告”和“坏报告”127
  • 5.4.1布局合理129
  • 5.4.2色彩统一133
  • 5.4.3字体、字号协调133
  • 5.5可视化案例133
  • 5.6本章小结136
  • 第三部分平台实战
  • 第6章企业级智能数据分析平台搭建138
  • 6.1构建数据分析“生态系统”138
  • 6.1.1数据生态的范畴138
  • 6.1.2构建有效的组织体系141
  • 6.1.3营造良好的数据文化氛围145
  • 6.2搭建智能数据分析平台149
  • 6.2.1平台愿景150
  • 6.2.2基础设施151
  • 6.2.3建设内容155
  • 6.3本章小结160
  • 第7章企业级数据分析平台必备的能力161
  • 7.1多源化数据汇聚能力162
  • 7.1.1批式数据接入能力163
  • 7.1.2实时数据感知能力164
  • 7.2体系化指标管理能力168
  • 7.2.1指标体系构建能力169
  • 7.2.2指标计算及关系管理能力170
  • 7.3可视化数据准备能力173
  • 7.3.1数据清洗及加工能力173
  • 7.3.2数据链路管理及更新能力179
  • 7.4自助式分析展示能力179
  • 7.4.1多维度图表分析展示能力179
  • 7.4.2多表头表格分析展示能力185
  • 7.4.3出具多样化分析报告能力187
  • 7.5可管理的模型构建能力190
  • 7.5.1数据模型构建能力191
  • 7.5.2指标模型构建能力191
  • 7.5.3算法模型构建能力192
  • 7.5.4展示模型构建能力193
  • 7.6智能化搜索推荐能力193
  • 7.6.1智能数据搜索推荐能力194
  • 7.6.2智能问答语义解析能力197
  • 7.6.3智能文本生成能力200
  • 7.7本章小结201
  • 第8章智能数据分析平台应用案例及实践202
  • 8.1政府宏观经济大数据仓库202
  • 8.1.1宏观经济数据汇聚203
  • 8.1.2数据标准建立203
  • 8.1.3平台运行情况监控210
  • 8.1.4宏观经济分析场景211
  • 8.2电商运营与管理分析平台213
  • 8.2.1用户行为分析及商品推荐213
  • 8.2.2商品发售及库存安排216
  • 8.2.3销售情况实时监控217
  • 8.3集团企业经营管理数据分析平台218
  • 8.3.1分析平台门户218
  • 8.3.2经营管理指标体系构建219
  • 8.3.3主题场景模型搭建229
  • 8.3.4管理分析平台的应用230
  • 8.4本章小结232

以上就是本次关于书籍资源的介绍和部分内容,我们还整理了以往更新的其它相关电子书资源内容,可以在下方直接下载,关于相关的资源我们在下方做了关联展示,需要的朋友们也可以参考下。

精选笔记:PHP数据压缩、加解密(pack, unpack)实例分析

21小时17分钟前回答

网络通信、文件存储中经常需要交换数据,为了减少网络通信流量、文件存储大小以及加密通信规则,经常需要对数据进行双向加解密以保证数据的安全。

PHP中实现此功能主要需要使用的函数主要是pack及unpack函数

pack

压缩资料到位字符串之中。

语法: string pack(string format, mixed [args]...);

返回值: 字符串

本函数用来将资料压缩打包到位的字符串之中。

a - NUL- 字符串填满[padded string] 将字符串空白以 NULL 字符填满

A - SPACE- 字符串填满[padded string]

h – 十六进制字符串,低“四位元”[low nibble first] (低位在前)

H - 十六进制字符串,高“四位元”[high nibble first](高位在前)

c – 带有符号的字符

C – 不带有符号的字符

s – 带有符号的短模式[short](通常是16位,按机器字节顺序)

S – 不带有符号的短模式[short](通常是16位,按机器字节排序)

n -不带有符号的短模式[short](通常是16位,按大endian字节排序)

v -不带有符号的短模式[short](通常是16位,按小endian字节排序)

i – 带有符号的整数(由大小和字节顺序决定)

I – 不带有符号的整数(由大小和字节顺序决定)

l– 带有符号的长模式[long](通常是32位,按机器字节顺序)

L – 不带有符号的长模式[long](通常是32位,按机器字节顺序)

N – 不带有符号的长模式[long](通常是32位,按大edian字节顺序)

V– 不带有符号的长模式[long](通常是32位,按小edian字节顺序)

f –浮点(由大小和字节顺序决定)

d – 双精度(由大小和字节顺序决定)

x – 空字节[NUL byte]

X- 后面一个字节[Back up one byte](倒回一位)

unpack

解压缩位字符串资料。

语法: string pack(string format, mixed [args]...);

返回值: 数组

本函数用来将位的字符串的资料解压缩。本函数和 Perl 的同名函数功能用法完全相同。

案例一、pack实现缩减文件数据存储大小

<?php 
//存储整数1234567890 
file_put_contents("test.txt", 1234567890); 

此时test.txt的文件大小是10byte。注意此时文件大小是10字节,实际占用空间大小是1KB。

上面存储的整数实际是以字符串形式存储于文件test.txt中。

但如果以整数的二进制字符串存jy储,将会缩减至4byte。

<?php 
print_r(unpack("i", file_get_contents("test.txt"))); 

案例二、数据加密

以字符串形式存储一段有意义数据,7-110-abcdefg-117。

字符"-"分割后,第一位表示字符串长度,第二位表示存储位置,第三位表示实际存储的字符串,第四位表示结尾位置。

<?php 
file_put_contents("test.txt", "7-110-abcdefg-117"); 

上述方法缺点:

一、数据存储大小

二、数据以明文方式存储,如果是任何敏感信息,都可能造成不安全访问。

三、文件存储大小,以不规则方式递增。

加密:

<?php 
file_put_contents("test.txt", pack("i2a7i1", 7, 110, "abcdefg", 117)); 

存储一段数据,加密格式为:整数2位长度字符串10位长度整数1位长度。

优点:

一、数据大小最优化

二、在不知道"i2a7i1"这样的压缩格式时,即使拿到文件,也无法正确读出二进制文件转化为明文。

三、数据增加时,文件存储大小是等量递增。每次都是以19byte递增。

案例三、key-value型文件存储

存储生成的文件为两个:索引文件,数据文件

文件中数据存储的格式如下图:

详解PHP数据压缩、加解密(pack, unpack)

代码实现:

<?php 
error_reporting(E_ALL); 
 
class fileCacheException extends Exception{ 
 
} 
 
//Key-Value型文件存储 
class fileCache{ 
   private $_file_header_size = 14; 
   private $_file_index_name; 
   private $_file_data_name; 
   private $_file_index;//索引文件句柄 
   private $_file_data;//数据文件句柄 
   private $_node_struct;//索引结点结构体 
   private $_inx_node_size = 36;//索引结点大小 
 
   public function __construct($file_index="filecache_index.dat", $file_data="filecache_data.dat"){ 
     $this->_node_struct = array( 
        'next'=>array(1, 'V'), 
        'prev'=>array(1, 'V'), 
       'data_offset'=>array(1,'V'),//数据存储起始位置 
       'data_size'=>array(1,'V'),//数据长度 
       'ref_count'=>array(1,'V'),//引用此处,模仿PHP的引用计数销毁模式 
       'key'=>array(16,'H*'),//存储KEY 
     ); 
 
     $this->_file_index_name = $file_index; 
     $this->_file_data_name = $file_data; 
 
     if(!file_exists($this->_file_index_name)){ 
        $this->_create_index(); 
     }else{ 
        $this->_file_index = fopen($this->_file_index_name, "rb+"); 
     } 
 
     if(!file_exists($this->_file_data_name)){ 
        $this->_create_data(); 
     }else{ 
        $this->_file_data = fopen($this->_file_data_name, "rb+");//二进制存储需要使用b 
     } 
   } 
 
   //创建索引文件 
   private function _create_index(){ 
     $this->_file_index = fopen($this->_file_index_name, "wb+");//二进制存储需要使用b 
     if(!$this->_file_index)  
        throw new fileCacheException("Could't open index file:".$this->_file_index_name); 
 
     $this->_index_puts(0, '<'.'?php exit()?'.'>');//定位文件流至起始位置0, 放置php标记防止下载 
     $this->_index_puts($this->_file_header_size, pack("V1", 0)); 
   } 
 
 
   //创建存储文件 
   private function _create_data(){ 
     $this->_file_data = fopen($this->_file_data_name, "wb+");//二进制存储需要使用b 
     if(!$this->_file_index)  
        throw new fileCacheException("Could't open index file:".$this->_file_data_name); 
 
     $this->_data_puts(0, '<'.'?php exit()?'.'>');//定位文件流至起始位置0, 放置php标记防止下载 
   } 
 
   private function _index_puts($offset, $data, $length=false){ 
     fseek($this->_file_index, $offset); 
 
     if($length) 
     fputs($this->_file_index, $data, $length); 
     else 
     fputs($this->_file_index, $data); 
   } 
 
   private function _data_puts($offset, $data, $length=false){ 
     fseek($this->_file_data, $offset); 
     if($length) 
     fputs($this->_file_data, $data, $length); 
     else 
     fputs($this->_file_data, $data); 
   } 
 
   /** 
   * 文件锁 
   * @param $is_block 是否独占、阻塞锁 
   */ 
   private function _lock($file_res, $is_block=true){ 
     flock($file_res, $is_block ? LOCK_EX : LOCK_EX|LOCK_NB); 
   } 
 
   private function _unlock($file_res){ 
     flock($file_res, LOCK_UN); 
   } 
 
   public function add($key, $value){ 
     $key = md5($key); 
     $value = serialize($value); 
     $this->_lock($this->_file_index, true); 
     $this->_lock($this->_file_data, true); 
 
     fseek($this->_file_index, $this->_file_header_size); 
 
     list(, $index_count) = unpack('V1', fread($this->_file_index, 4)); 
 
     $data_size = filesize($this->_file_data_name); 
 
     fseek($this->_file_data, $data_size); 
 
     $value_size = strlen($value); 
 
     $this->_data_puts(filesize($this->_file_data_name), $value); 
 
     $node_data =  
     pack("V1V1V1V1V1H32", ($index_count==0) ? 0 : $index_count*$this->_inx_node_size, 0, filesize($this->_file_data_name), strlen($value), 0, $key); 
 
     $index_count++; 
 
     $this->_index_puts($this->_file_header_size, $index_count, 4); 
 
     $this->_index_puts($this->get_new_node_pos($index_count), $node_data); 
 
     $this->_unlock($this->_file_data); 
     $this->_unlock($this->_file_index); 
   } 
 
   public function get_new_node_pos($index_count){ 
     return $this->_file_header_size + 4 + $this->_inx_node_size * ($index_count-1); 
   } 
 
   public function get_node($key){ 
     $key = md5($key); 
     fseek($this->_file_index, $this->_file_header_size); 
     $index_count = fread($this->_file_index, 4); 
 
     if($index_count>0) { 
        for ($i=0; $i < $index_count ; $i++) {  
          fseek($this->_file_index, $this->_file_header_size + 4 + $this->_inx_node_size * $i); 
          $data = fread($this->_file_index, $this->_inx_node_size); 
          $node = unpack("V1next/V1prev/V1data_offset/V1data_size/V1ref_count/H32key", $data); 
 
          if($key == $node['key']){ 
             return $node; 
          } 
        } 
     }else{ 
        return null; 
     } 
   } 
 
   public function get_data($offset, $length){ 
     fseek($this->_file_data, $offset); 
     return unserialize(fread($this->_file_data, $length)); 
   } 
} 
 
//使用方法 
$cache = new fileCache(); 
$cache->add('abcdefg' , 'testabc'); 
$data = $cache->get_node('abcdefg'); 
print_r($data); 
echo $cache->get_data($data['data_offset'], $data['data_size']); 

 案例四、socket通信加密

通信双方都定义好加密格式:

例如:

$LOGIN = array( 
   'COMMAND'=>array('a30', 'LOGIN'), 
   'DATA'=>array('a30', 'HELLO') 
); 
 
$LOGOUT = array( 
   'COMMAND'=>array('a30', 'LOGOUT'), 
   'DATA'=>array('a30', 'GOOD BYE') 
); 
 
$LOGIN_SUCCESS = array( 
   'COMMAND'=>array('a30', 'LOGIN_SUCCESS'), 
   'DATA'=>array('V1', 1) 
); 
 
$LOGOUT_SUCCESS = array( 
   'COMMAND'=>array('a30', 'LOGIN_SUCCESS'), 
   'DATA'=>array('V1', time()) 
); 

服务器端与客户端根据解析COMMAND格式,找到对应的DATA解码方式,得到正确的数据

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持码农之家。

数据分析相关资源

  • 数据分析:企业的贤内助

    数据分析:企业的贤内助

    真正的好书不在于给出答案,而在于给出思考问题的方法。本书选择人物对话的形式,通过一问一答把读者带入到思考问题的情境,耳濡目染,感同身受。思路上清晰连贯,表达上深入浅出,

    大小:81.7 MB数据分析

  • R语言数据分析与挖掘实战

    R语言数据分析与挖掘实战

    R语言数据分析与挖掘实战 共16章,分三个部分:基础篇、实战篇、提高篇。基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉

    大小:56.6 MBR语言

  • IBM SPSS数据分析与挖掘实战案例精粹

    IBM SPSS数据分析与挖掘实战案例精粹

    《IBM SPSS数据分析与挖掘实战案例精粹》以IBM SPSS Statistics 20.0和IBM SPSS Modeler 14.1为工具,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基

    大小:166 MBIBM

  • 人人都会数据分析:从生活实例学统计

    人人都会数据分析:从生活实例学统计

    本书系统地介绍了数据分析的统计理论基础内容,大多数知识点都列举了生活中的实用案例,帮助读者建立统计理论知识框架,形成数据分析思维逻辑,学会数据分析方法

    大小:28.3 MB数据分析

  • 基于Hadoop的大数据分析和处理

    基于Hadoop的大数据分析和处理

    这书根据云计算技术和互联网大数据,详细介绍大数据处理和剖析的技术性,分成两一部分。*一部分详细介绍Hadoop基本知识,內容包含:Hadoop的详细介绍和集群服务器搭建、Hadoop的各分部式系

    大小:9.09 MBHadoop

  • 从Excel到SQL:数据分析进阶指南

    从Excel到SQL:数据分析进阶指南

    Excel是数据分析中最常用的工具。本文通过SQL与Excel的功能对比,介绍如何使用mysql完成Excel中的数据处理及分析工作。内容完整,原书共50页,内容比较浅显,需要的朋友可下载试试! 目录 第

    大小:3.6 MB数据分析

  • 数据结构与算法分析:C++版(第二版)

    数据结构与算法分析:C++版(第二版) 课后答案

    《数据结构与算法分析(C++版)(第2版)》采用程序员最爱用的面向对象C++语言来描述数据结构和算法,并把数据结构原理和算法分析技术有机地结合在一起,系统介绍了各种类型的数据结构和排序、检索的各种方法。作者非常注意对每一种数据结构的不同存储方法及有关算法进行分析比较。书中还引入了一些比较高级的数据结构与先进的算法分析技术,并介绍了可计算性理论的一般知识。本版的重要改进在于引入了参数化的模板,从而提高了算法中数据类

    大小:225 KB数据结构

  • 《Bootstrap开发精解:原理、技术、工具及最佳实践》源代码

    《Bootstrap开发精解:原理、技术、工具及最佳实践》源代码

    本书从最基本的Bootstrap下载、定制和LESS开始介绍,进而再带您学习栅格系统和基本的CSS样式,这是专门为实现更快、更稳定的网页设计而提供的。本书还介绍了组件、jQuery插件和其他独特的功能,正是因为它们的存在,Bootstrap才成为了构建网页的神奇工具。本书还提供了Bootstrap的技术资源汇总,介绍可以增强Bootstrap功能的各种第三方资源、主题和模板。在本书的结尾,还介绍了如何构建一个强大、流行的电子商务网站,帮助你掌握Bootstrap的实际应用。

    大小:1.63 MBBootstrap配套资源

  • ASP.Net Core 5.0官方文档

    ASP.NET Core 是一种全新的跨平台开源 .NET 框架,用于在 Windows、Mac 或 Linux 上生成基于云的新式 Web 应用程序。 目录 ASP.NET Core 文档及新增内容 ASP.NET 比较 .NET Core 和 .NET Framework 入门新增功能 5.0 版中的新增功能 3.1/3.0/2.2/2.1/2.0/1.1 版中的新增功能 教程Web 应用 MVC 入门 数据访问 EF Core 和 Razor Pages 入门 泛型主机 Web 主机 服务器 配置

    大小:43 MBASP.Net

  • 《Tableau Desktop可视化高级应用》视频,素材

    《Tableau Desktop可视化高级应用》视频,素材

    编辑推荐 数据结构+业务场景+应用技巧+可视化效果4个方面大胆创新,帮助数据分析师打开思维,将Tableau软件应用到更多的场景中。 丰富且实用的实际案例对软件的各类核心功能进行深入且详细地说明,帮助读者在软件应用和分析思路上快速提升。 内容简介 本书主要介绍Tableau Desktop的应用,全书内容共有5章。第1章介绍了Tableau平台的价值与功能和它所能完成的企业数据重任;第2章是介绍了一些复杂图形,配合详细的数据结构和实现步骤,帮助用户扩展

    大小:45.3 MBTableau配套资源

  • 《冲压工艺与模具设计(第2版)》教案,习题答案

    《冲压工艺与模具设计(第2版)》教案,习题答案

    编辑推荐 本书对第1版中部分偏深的理论内容进行了精简和淡化,增加了相关实用性内容,如成形设备、模具的安装调试和冲剪设备的安全知识,冲裁模、弯曲模、拉深模试冲时出现的问题和调整方法等,以使学生尽可能多地掌握工程实际中涉及到的知识;同时增加了来自生产一线的具有代表性和实用性的模具图例及设计实例,以与生产实际紧密结合。各章后安排有适当数量的思考练习题,供学生复习、自测,以巩固所学知识。 内容简介 本书根据高职高

    大小:4.8 MB工艺设计配套资源

  • 计算机网络设计(第2版)

    计算机网络设计(第2版) 课后答案

    《计算机网络设计(第2版)》在第1版基础上进行了全面修订,增加了地址规划、路由技术、网络可靠性设计和光纤通信工程等方面的内容。更新了网络设计方面的技术,使教材重点更加突出,更适用于教学需要。 《计算机网络设计(第2版)》分为两大部分,第一部分(第1-7章)主要从纵向分析网络工程设计的基本原则和方法,内容包括:网络设计的基本原则、网络设计的模型、用户需求分析、网络拓扑结构设计、网络性能设计、网络可靠性设计、网络

    大小:456 KB计算机网络课后答案

参与送书

学习笔记

11小时5分钟前回答

R语言 vs Python对比:数据分析哪家强?

什么是R语言? R语言,一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的罗斯·伊哈卡和罗伯特·杰特曼开发(也因此称为R),现在由“R开发核心团队”负责开发。R基于S语言的一个GNU计划项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。R的语法是来自Scheme。 R的源代码可自由……

10小时38分钟前回答

jQuery实现当拉动滚动条到底部加载数据的方法分析

本文实例讲述了jQuery实现当拉动滚动条到底部加载数据的方法。分享给大家供大家参考,具体如下: 滚动条到底部加载数据原理很简单,就是为window或者滚动元素添加一个scroll事件,浏览器每次触发scroll事件时判断是否滚动到了浏览器底部, 如果到了底部则加载新数据。关键是计算滚动条是否滚动到了浏览器底部,算法如下 滚动条卷起来的高度 + 窗口高度 文档的总高度 $(wind……