大数据测评 PDF 完整清晰版

  • 更新时间:
  • 6495人关注
  • 点击下载

给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据测评、大数据方面的内容,本书是由上海科学技术出版社出版,格式为PDF,资源大小38.08MB,蔡立志、武星、刘振宇编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.3分

大数据测评

作者:蔡立志,武星,刘振宇 主编

出版时间:2015年版

《大数据测评》一书介绍了大数据的概念和特征,各国大数据发展的战略、发展趋势及其标准化情况,以及对于软件测试带来的挑战。在此基础上,《大数据测评》在面向大数据处理框架、大数据基础算法、应用系统、系统安全和隐私泄露的测评技术等方面展开了分析和讨论。以Hadoop为主线开展大数据测试的探讨。在底层支撑框架层聚焦于单元测试和框架基准测试;在基本算法中涵盖了聚类、分类及其个性化推荐;在应用层,介绍了其性能测试中若干问题,重点阐述数据集的设计与分析。最后,《大数据测评》讨论了大数据的安全和隐私问题,突出介绍由于大数据所引发的新安全问题及其对策。

目录

第1章绪论

1.1概述 1.2大数据战略与趋势 1.2.1大数据战略 1.2.2大数据趋势 1.3大数据标准化研究 1.3.1国外标准发展现状 1.3.2国内标准发展现状 1.4大数据应用 1.4.1趋势预测 1.4.2疫情分析 1.4.3消费行为分析 1.4.4智慧金融 1.4.5精确营销 1.4.6舆情分析 1.5大数据对软件测试的挑战 参考文献

第2章面向大数据框架的测评

2.1概述 2.2面向数据质量的测评 2.2.1数据质量 2.2.2数据预处理 2.2.3数据质量测评 2.3分布式数据模型及测试 2.3.1框架 2.3.2数据模型 2.3.3单元测试 2.4大数据的基准测试 2.4.1基准测试 2.4.2测试方法 2,4.3测试内容 参考文献

第3章大数据智能算法及测评技术

3.1概述 3.2聚类算法及测评 3.2.1聚类及其在大数据中的应用 3.2.2聚类的典型算法及分析 3.2.3聚类算法的测试 3.2.4聚类质量的评估 3.3分类算法及评估 3.3.1分类及其在大数据中的应用 3.3.2分类的典型算法及分析 3.3.3分类算法的测试 3.3.4分类器性能的评估 3.4推荐系统算法及其测评 3.4.1推荐系统算法 3.4.2推荐系统的测评实验 3.4.3推荐系统的评估 参考文献

第4章大数据应用的性能测评技术

4.1概述 4.2大数据应用的影响因素与性能测评 4.2.1影响大数据应用的因素 4.2.2大数据应用的性能测评类型 4.2.3大数据应用的性能测评指标 4.3大数据应用测试的支撑数据设计 4.3.1大数据的数据结构特点 4.3.2大数据的数据设计依据 4.3.3大数据的数据生成方法 4.4大数据应用性能测评模型 4.4.1应用负载模型 4.4.2数据负载模型 4.5工具与案例 4.5.1性能测试工具 4.5.2性能测试流程 4.5.3某网络舆情监测系统测试案例 4.5.4某微博大数据平台测试案例 参考文献

第5章大数据应用的安全测评技术

5.1概述 5.2影响大数据应用安全的要素 5.2.1影响架构安全的要素 5.2.2影响数据安全的要素 5.3大数据架构的安全测评 5.3.1分布式计算框架的安全测评 5.3.2非关系型数据库的安全测评 5.4数据的安全性测评 5.4.1数据来源的安全性测评 5.4.2隐私保护程度的测评 5.5应用安全等级保护测评 5.5.1用户鉴别 5.5.2事件审计 5.5.3资源审计 5.5.4通信安全 5.5.5软件容错 参考文献 索引
 

展开阅读
精选笔记:python pickle存储、读取大数据量列表、字典数据的方法

2小时29分钟前回答

先给大家介绍下python pickle存储、读取大数据量列表、字典的数据

针对于数据量比较大的列表、字典,可以采用将其加工为数据包来调用,减小文件大小

#列表
  #存储
  list1 = [123,'xiaopingguo',54,[90,78]]
  list_file = open('list1.pickle','wb')
  pickle.dump(list1,list_file)
  list_file.close()
 
  #读取
  list_file = open('list1.pickle','rb')
  list2 = pickle.load(list_file)
  print(list2)
 
#字典
  #存储
  list3 = {'12': 123, '23': 'xiaopingguo', '34': 54, '45': [90, 78]}
  list3_file = open('list3.pickle', 'wb')
  pickle.dump(list3, list3_file)
  list3_file.close()
  # # 读取
  list3_file = open('list3.pickle', 'rb')
  list3 = pickle.load(list3_file)
  print(list3)

  print(list3['23']

ps:下面看下python 利用pickle存大数据

最近在处理一份数据,有一个巨大的、字典型的中间变量,由于今后会持久、高频地使用,因此我考虑将其保存成类似于matlab的.mat格式的数据,方便以后随时读取。

理所当然地会想到利用pickle来保存数据,因为这是在python环境下最常用也最简单的存储数据的方式。
python存储数据的方法有很多,最常用的做法就是利用pickle模块,当然还有其他做法,比如存成json、txt等格式。至于

pandas、h5等方式的另说哈~

pickle模块介绍

pickle模块实现了用于序列化和反序列化python对象结构的二进制协议。 序列化操作"pickling"是将python对象层次结构转换为字节流的过程,反序列化操作 "unpickling"则是将字节流转换回对象层次结构。

不得不提到的是,pickle是python所独有的,因此非python程序可能无法重构pickle对象。在工作中,我就遇到一个问题,就是我用sklearn训练得到的机器学习模型,用pickle保存下来后,工程方面的同事是没法用java调用这个模型的,一个临时的方法是有位同事读pickle源码,自己用java一步步反序列化回来,佩服佩服。

pickle使用技巧

对于最简单的代码,使用 dump() 和 load() 函数便足够了。

import pickle
a = 1
# 保存
with open('data.pickle', 'wb') as f:
  pickle.dump(data, f)
# 读取
with open('data.pickle', 'rb') as f:
  b = pickle.load(f)

但如果你读过pickle的说明文档的话,会发现有个参数叫做protocol。参数protocol代表了序列化模式(pickle协议),在python2.X版本默认值为0,在python3.X本默认值为3。简而言之,不同的python版本对应着不同的最高协议,同时protocol值越大,代表了所用的协议版本越高。如图所示,

那么修改protocol会有什么影响呢?protocol值越大,dump的速度越快,并且支持的数据类型更多,保存下来的文件占用空间更小,同时也带来一些其他优化,例如在python3.4中,协议版本4新支持对非常大的数据进行序列化。因此可以的话,请选择最高协议版本作为protocol参数的值,即设protocol=pickle.HIGHEST_PROTOCOL即可。

那么,上面的那段代码可以改成:

import pickle
a = 1
# 保存
with open('data.pickle', 'wb') as f:
  pickle.dump(data, f, protocol=pickle.HIGHEST_PROTOCOL)
# 读取
with open('data.pickle', 'rb') as f:
  b = pickle.load(f)

可能,对于小数据,影响不会很大。

但当你需要对大数据进行序列化的时候,请记得pickle的这个技巧。

总结

以上所述是小编给大家介绍的python pickle存储、读取大数据量列表、字典的数据的方法,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧

展开阅读

资源下载

相关资源

  • 轻松学大数据挖掘:算法、场景与数据产品

    轻松学大数据挖掘:算法、场景与数据产品

    伴随着大数据时代的发展,数据价值的挖掘以及产品化逐渐被重视起来。《轻松学大数据挖掘:算法、场景与数据产品》作为该领域的入门教程,打破以往的数据工具与技术的介绍模式,凭借

    大小:75.5 MB大数据

    立即下载
  • 大数据搜索引擎原理分析及编程实现

    大数据搜索引擎原理分析及编程实现

    本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式进行组织

    大小:13.8 MB机器学习

    立即下载
  • Hadoop大数据分析与挖掘实战

    Hadoop大数据分析与挖掘实战

    10多位技术专家结合自己10多年的经验,以电信、航空、医疗等多个行业的实战案例为主线,深入浅出地讲解了如何基于Hadoop架构技术进行大数据挖掘建模、数据分析和二次开发。 本书共16章,

    大小:51.7 MBHadoop

    立即下载
  • 基于Hadoop的大数据分析和处理

    基于Hadoop的大数据分析和处理

    这书根据云计算技术和互联网大数据,详细介绍大数据处理和剖析的技术性,分成两一部分。*一部分详细介绍Hadoop基本知识,內容包含:Hadoop的详细介绍和集群服务器搭建、Hadoop的各分部式系

    大小:9.09 MBHadoop

    立即下载
  • 大数据挖掘:系统方法与实例分析

    大数据挖掘:系统方法与实例分析

    大数据挖掘:系统方法与实例分析 是大数据挖掘领域的扛鼎之作,由全球科学计算领域的领导者MathWorks(MATLAB公司)官方的资深数据挖掘专家撰写,MathWorks官方及多位专家联袂推荐。 它从技术

    大小:57 MB大数据

    立即下载
  • 数据科学与大数据分析

    数据科学与大数据分析

    本书是数据科学与大数据技术专业参考教材,EMC数据科学认证参考书,通过详细剖析数据分析生命周期的各个阶段来讲解用于发现、分析、可视化、表示数据的相关方法和技术

    大小:22.8 MB大数据

    立即下载

学习笔记

8小时44分钟前回答

mybatis-plus 处理大数据插入太慢的解决

大批量数据插入方法是Mybatis的foreach拼接SQL 我发现不管改成Mybatis Batch提交或者原生JDBC Batch的方法都不起作用,实际上在插入的时候仍然是一条条记录的插,速度远不如原来Mybatis的foreach拼接SQL的方法。 // 第一步判断更新或添加 String[] splitUserId = userGroup.getUserId().split(","); String[] spiltUserName = userGroup.getUserName().split(","); if (StringUtils.isBlank(userGroup.getId())) { userGroup.setNum(spiltUserName.length); userGroupMapper.insert(userGroup); } else { userGroup.setNum(spiltUserName.length); userGroupMapper.updateById(userGroup); } /* 第二部删除中间表信息,字段冗余 */ MapString, Object columnMap = new HashMapString, Object(); columnMap.put("USER_GROUP_ID", userGroup.getId()); groupUser……

6小时28分钟前回答

在大数据情况下MySQL的一种简单分页优化方法

通常应用需要对表中的数据进行翻页,如果数据量很大,往往会带来性能上的问题: root@sns 07:16:25select count(*) from reply_0004 where thread_id = 5616385 and deleted = 0;+———-+| count(*) |+———-+| 1236795 |+———-+1 row in set (0.44 sec)root@sns 07:16:30select idfrom reply_0004 where thread_id = 5616385 and deleted = 0order by id asc limit 1236785, 10 ;+———–+| id |+———–+| 162436798 || 162438180 || 162440102 || 162442044 || 162479222 || 162479598 || 162514705 || 162832588 || 162863394 || 162899685 |+———–+10 rows in set (1.32 sec) 索引:threa_id+deleted+id(gmt_Create) 10 rows in set (1.32 sec) 这两条sql是为查询最后一页的翻页sql查询用的。由于一次翻页往往只需要查询较小的数据,如……

1小时55分钟前回答

Redis六大数据类型使用方法详解

我们说 Redis 相对于Memcache 等其他的缓存产品,有一个比较明显的优势就是 Redis 不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。本篇博客我们就将介绍这些数据类型的详细使用以及顺带介绍Redis系统的相关命令用法。 注意:Redis的命令不区分大小写,但是key 严格区分大小写!!! 0、写在前面 下面介绍的Redis命令有很多,如果你想通过死记硬背来记住这些命令几乎不可能,但是如果理解了Redis的一些机制,这些命令其实是由很强的通用性的,通过理解来记忆是最好的。 另外,每种数据类型都有其适合的使用场景,我也会在文中给与说明,如果滥用,反而会适得其……