第十一章 大数据技术与实践
时间:2023-07-11 19:07:00
11.大数据技术与实践
11.1大数据概述
大数据的大是相对而言的,这意味着处理的数据太大,无法通过当前的主流数据库软件工具在可接受的时间内捕获、存储、管理和分析,并提取人类可以理解的信息。
业界普遍认为大数据有4个 V特征(数据量大Volume、变化速度快Velocity、多类型Variety与高价值Value)。简而言之,大数据可以被是数据量大、结构复杂多变的数据集合。
第一个特征Volume是大数据的主要特征,数据量巨大。当今世界需要及时处理提取有用信息的数据量级已经从TB等级,跃升到PB甚至EB级别。
第二个特征Variety:数据类型繁多。大数据的挑战不仅是数据量的大,也体现在数据类型的多样化。除了前文提到的网络日志、地理位置信息等具有固定结构的数据之外,还有视频、图片等非结构化数据。
第三个特征Velocity:快速处理。信息的价值在于及时,超过特定时限的信息将失去使用价值。
最后一个特征是Value:商业价值高,但价值密度低。单个数据的价值很低。只有聚合大量数据,才能借助历史数据预测未来趋势,反映大数据计算的价值。
11.两大数据存储平台
HDFS
HDFS(全称Hadoop Distributed File System)原是Apache开源项目Nutch的组件,现在成为是Hadoop它是一个具有高容错性特征的分布式文件系统,它被设计成一个低成本的主机集群。它将大文件分成固定大小的小数据块,分别存储在集群的每个节点上。因此HDFS可存储超大数据集和单个巨大文件。这种分布式结构可以并行读取不同节点,提高系统的吞吐率。存储在不同数据节点上的同一数据块,以确保HDFS当节点失败时,可以继续提供容错性的服务。
HDFS副本策略
HDFS对于副本放置策略HDFS可靠性和性能非常重要。复制策略与数据的可靠性、可用性和网络带宽的利用率有关。优化复制策略HDFS在分布式文件系统中脱颖而出需要大量的实践经验。
HDFS采用基于框架感知的副本放置策略,将副本存储在不同的框架上,即第一个副本放置在客户的本地节点上,另外两个副本随机放置在远程框架上,故障时数据丢失,如图12-2所示。在据中心通常不止一个机架。对于大多数数据中心来说,不同机架上节点之间的通信需要多个交换机,其带宽小于同一机架节点之间的通信带宽。因此,基于机架感知的副本放置策略可以平衡网络带宽和数据可靠性。
HBase简介
Apache HBase是运行于Hadoop平台上的数据库是一个可扩展和分布式的大数据存储系统。HBase大数据可以随机实时读写。其目标是在普通机器集群中处理巨大的数据表,数据表的行数和列数可达数百万。受到Google Bigtable 思想启发,Apache开发出HBase, HBase它是一个开源、分布式、多版本数据存储、面向列的大数据存储平台。Google的Bigtable是运行于GFS(Google File System)上的,而HBase是运行与Apache开发的Hadoop平台上。
HBase的特性
HBase其特点包括:
1)线性和模块化的扩展;
2)严格的读写一致性;
3)自动可配置的数据表分片机制;
4)RegionServer热备份切换可以在两者之间进行;
5)为MapReduce操作HBase方便数据表JAVA基础类;
6)易用的JAVA客户端访问API;
7)支持数据块缓存和模糊过滤的实时查询;
8)提供Trift网关和REST-ful Web并支持服务XML,Protobuf二进制编码;
9)可扩展的Jrubyshell;
10)支持通过Hadoop检测子系统或JMX将检测数据导出到文件中,Ganglia集群检测系统。
11.三大数据计算模式
PRAM
PRAM模型,即并行随机存取机,也称为SIMD-SM(共享存储的单指令流多数据流)模型是一种并行计算抽象模型PRAM模型是冯的顺序·诺伊曼存储程序模型的自然扩展由几个具有本地存储器的处理器和一个容量无限的共享存储器组成控制,同步运行,
PRAM模型可以分类为每个处理器对共享存储器的读写
互斥读和互斥写,简记为PRAM-EREW;
并行读但互斥写,简记为PRAM-CREW?
并行读写,简记为PRAM-CRCW?
PRAM优缺点
优点:
RPAM结构简单,简单易行;
PRAM能够表达大多数并行算法
PRAM让算法设计变得简单;让并行算法更加容易移植到不同的并行系统上;
可按需添加一些功能,如同步和通信
缺点:
1)PRAM是同步模型,同步过程费时;
2)模型采用全球共享存储器,本地存储容量小,不能很好地反映主存多处理器的性能瓶颈;
3)假设单个共享存储器不适合异步分布存储MIMD机器;
4)假设每个处理器可以在单位时间内访问任何存储单元,因此要求处理机间通信无延迟、无限带宽和无费用,忽略多个处理器访问同一存储空间和处理器读写存储单元带宽有限性的竞争,这个假设显然是不现实的;
5)多线程技术和流水线预取技术无法很好地描述,这是当今并行系统结构中最常用的技术。
mapreduce的优缺点
优点:
移动计算而不是移动数据,以避免额外的网络负载。
2.任务相互独立,实现高容错性。
3.理想状态下的可线性扩展是为便宜的商业机器设计的计算模型。
4、MapReduce模型结构简单,终端用户至少只需要编写Map和Reduce函数。
5.集群扩张成本曲线平坦。
局限:
1个中心用于同步各项任务。
2、用MapReduce模型实现常见数据库连接操作效率低下。
3、MapReduce集群管理、调试、部署以及日志收集工作困难。
4、单个Master节点有单点故障的可能性。
5.当必须保留中间结果时,操作管理并不简单。
6.调整集群参数配置需要更多的经验。
Spark的优缺点
优点:
在迭代任务方面,Spark的执行效率更高,远超过Hadoop 。
Spark能够实现与用户的互动查询。
故障恢复快。RDD的DAG令Spark有能力恢复故障。
在不同的Action之间,RDD可以共享。
缺点:
对用户多作业集群,Spark的Driver整个集群性能的瓶颈很可能形成。
Spark常见的网络爬虫系统数据库不适用于异步更新共享状态和数据操作。
11.44大数据分析处理平台
HadoopDB优缺点
HadoopDB的优点:
结合Hive对SQL强有力的支持和直接生成map/reduce任务不需要手动编写map/reduce程序;
利用关系数据库查看数据,利用单节点的性能优势;
利用Hadoop高容错性、高可用性和高通量计算的性能优势。
HadoopDB的缺点有:
如果不想手动编写map/reduce只能查询程序SQL语句的数据来源不能来自多个表,因为他只能平行查询一个数据库的多个块,所以他不能处理多个块的数据关系。当然,为了实现多表join,可手动改造InputFormat以实现;
数据预处理成本过高:数据需要两次分解和一次数据库加载;
只有少数情况将查询推向数据库层。在大多数情况下,查询仍然是由Hive 完成.
维护成本过高,不仅要维护Hadoop维护每个数据库节点的系统;
目前还不支持数据的动态划分,需要手划分。
11.五大数据研究与发展方向
未来大数据的发展方向
数据的不确定性和数据质量
大数据的不确定性要求我们在处理数据时应对这种不确定性,包括数据收集、存储、建模和分析
为了确保有效的数据不丢失,有必要开发一种新的计算模式、高效的计算模型和方法,以确保数据的质量和及时性。
跨领域数据处理方法的可移植性
广泛吸收其他研究领域的原理模型,有效结合,提高大数据处理效率
数据处理的及时性保证-内存计算
新的存储级内存 (storageclass memory, SCM) 器件设计成为新内存体系的一部分,而非作为虚拟内存交换区域的外存补充,计算不仅存在于传统的内存上,也在新的存储级内存上发生。
电阻存储器 、铁电存储器 、以相变存储器为代表的新兴非易失性随机存储介质 随着技术的发展,传统内存与存储分离的界限逐渐模糊
新存储介质的访问性能逐渐接近动态随机存取存储器 (dynamic random access memory, DRAM),但其容量和单位价格将远低于 DRAM。
混合内存系统以新型非易失型存储设备为基础,加速计算,称为内存计算。
流式数据的实时处理
CluStream、D-Stream等框架
继续研究和完善资源状态信息的实时监控和调整、资源敏感战略的构建和聚类战略的调整。
大数据应用
大数据应用的例子
大数据应用在医学领域
临床决策支持系统
医学数据透明度
挖掘医学图像
智能交通领域的大数据应用
提高运输效率。
提高交通安全水平。
提供环境监测方法。
智能电网领域的大数据应用
监控电力设备状态的数据挖掘
————————————————
版权声明:本文为CSDN博主「zhaohaiyang_」遵循原创文章 CC 4.0 BY-SA 版权协议,请附上原始来源链接和本声明。
原文链接:https://blog.csdn.net/zhaohaiyang_/article/details/103365395