大数据小结(1-4)
时间:2022-08-19 05:00:02
-
云计算概述第一章
PC在《纽约时报》之前,计算机用户主要通过终端共享主机(可以理解为服务器)的计算和存储来获得有限的服务。这种模式就像一个家庭里有很多孩子,每一笔零花钱都应该向父母要,花多少钱。家里的钱都锁在保险箱里,你可以想象孩子们想买一些零食和玩具是一种更不舒服的体验。
1.云计算无处不在:
- 电子日历
- 地图导航
- 钉钉
2.云计算是什么?
像水电煤(资源产品)一样使用你IT资源(计算机存储网络资源)
关键词:按需使用,规模超大,弹性高
定义:指使用IT资源和应用程序资源和应用程序
3.四种云
(1)公共云:提供公共服务IT资源
缺点:保密性低
(2)私有云:政府学校等。
优点:保密性高
(3)社区云:研究人员使用
(4)混合云:包括上述两种
3.1生活中的例子:
(1)出行论
自己开车(私有)买车-混合云
(2)吃饭论
餐厅-公共云
在家做饭-私有云
在家 厨师-混合云
- 酒店论
酒店-公有云
家-私有云
2.云计算的基本特征:
- 无限供应资源
- 提供者独立服务
- 远程服务
- 资源可控
- 按用量付费
3.云计算的发展背景
(1)20世纪60年代,计算机革命
(2)20世纪90年代的互联网革命
1994年,Weblo(单向传递)
2004年,Weblo(双向传递)
(3)2010年移动互联网革命
4.云计算发展史:
1983年,提出了云计算名词
2006年,提出了云计算概念和基础设施
云计算于2008年进入中国
首届云计算大会于2009年在中国举行
2012年,中国首次提出云计算定义
5.典型的云计算基础设施和云计算模型IT建设
特点:
- 开发硬件平台,软件和硬件解耦
- 软件定义存储分布式设计
- IT建设的传统IEO架构,互联网架构,
- 集中资源共享、虚拟化、分时共享
- 动态部署、弹性伸缩、低成本、标准化硬件
- 芯片新介质取得突破(云计算)IT的基础)
优点:省时、省力、省钱、省电、省人、省地
6.云计算的特点:
- 虚拟换技术
- 动态可扩展性
- 按需部署
- 灵活性高
- 可靠性高
- 性价比高
- 地理分布
- 先进的安全技术
7.云计算的主要服务模式
第一层:IaaS
第二层:SaaS
第三层:PaaS
IaaS 服务(租赁)基础设施
关键技术:虚拟技术
PaaS:平台即服务
数据库服务(编程)Web应用
特点:
- 简化开发人员
- 提供pc端或软件端的开发套件
- 丰富的开发环境
- 完全可托管的数据库服务
- 可配置式的应用程序的构建
- 支持多语言的开发
- 面向市场
关键技术:
- 分布式计算
- 分布式存储
SaaS:软件即服务(用户)
关键技术:多租户技术
8.Iaas、Paas、Saas,三个之间的区别及基本概念:
答:
Iaas:基础设施即服务(最底层):提供基础设施服务
Paas:平台即服务:提供软件部署平台
Saas:软件即服务:拿来即用
例:云计算服务=做饭
云计算服务提供商=饭店
Iaas:=提供厨房,锅具等但不提供食材和技术
Paas提供厨房,切好的食材不提供技术
Saas:提供厨房,食材,技术
Iaas:租车
Paas租车加司机:
Saas:坐公交
区别:
- 从用户体验角度分析:
SaaS:主要面对的是普通用户
PaaS:主要的用户使开发人员
IaaS:主要的用户是具有专业知识系统的管理员
- 从技术角度分析:
即SaaS可以基于PaaS,PaaS基于IaaS;
SaaS可以是基于PaaS或者直接部署于IaaS之上,PaaS可以构建于IaaS之上,也可以之间构建在物理资源之上,
第二章 大数据技术概述
1、什么是大数据?
大数据(Big data或Megadata):
大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间达到截取、管理、处理、并整理成为人类所能解读的形式的信息。
2、大数据特点①Volume:
数据量大,包括采集、存储和计算的量都非常大
3.大数据的定义:
在一定时间范围内用常规软件工具进行捕捉,管理和处理数据集合
3.1经典案例:(1)啤酒与尿布
(2)谷歌与流感
3.2大数据的范围:采集、存储、搜索、共享、传输、分析和可视化
内存:运行速度
存储:存储容量
3.3海量数据产生:(1) 来自大人群互联网
(2)来自大量传感器机械
(3)科学研究及行业多结构专业数据
4.时间
1887-1890年:电功器
1944年:预见大数据
1997年:用大数据描述超级计算机产生的大量信息
2003-2006年:谷歌提出大数据可重用方案
2008年:提出大数据概念
2009年:大数据逐渐走进互联网
2012年:大数据成为一种新的资产类别
2013年:大数据元年
5.各数据量单位:KB>MB>GB>TB>PB>EB>ZB>NB>DB
1ZB=10亿TB
6.单位以PB衡量的数据可称为大数据
1位(二进制0或1)
一字节(8位):
一个英文字母或二进制8位数
1文字=2字节=16位
7.第四范式
实验(第一范式)——理论(第二范式)——计算(第三范式)——数据(第四范式)
8.大数据的特征:
(1)大量化:存储大,增量大
(2)多样化:
来源多:搜索引擎、社交网络等
格式多:结构化数据、非结构化数据
(3)快速化
(4)有价值
9.企业推动的大数据:
腾讯、华为、谷歌、阿里、ETC、数据库
10.大数据的关键技术:
(1)大数据预处理:
数据采集、数据存取、基础架构支持、计算机结果展现
(2)大数据存储技术:
存储设备能持久可靠的存储数据、提供可伸缩接口、提供高效
查询更新等操作
(3)大数据分析技术:
数据处理、统计和分析、数据挖掘、模型预测
(4)大数据计算技术
11.大数据的典型计算架构:
Hadoop:处理本地数据
Spark:收集并更新
Storm:延迟毫秒级
第三章 虚拟化技术
1. 虚拟化技术的概念 :
虚拟化是指计算元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术可以扩大硬件的容量,简化软件的重新配置过程。
CPU的虚拟化技术可以单CPU模拟多CPU并行,允许一个平台同时运行多个操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。
虚拟化技术与多任务以及超线程技术是完全不同的。
多任务是指在一个操作系统中多个程序同时并行运行,而在虚
2.什么是虚拟化:
作为一种计算机资源管理技术将各种IT实体资源抽象转化为另一种形式的技术。
3.云计算与虚拟化的关系:
云计算1.0—以虚拟化为核心
云计算2.0—以资源为核心
云计算3.0—以应用为核心
关系:
云计算:一种服务
虚拟化:一种技术基础
4.物理机:操作系统(Host OS)硬件(Host Machine)
5.虚拟机:操作系统(Guest OS),虚拟机(Guest Machine),硬件(Host Machine),VMM(虚拟监控器)
物理机 操作系统 Host OS 硬件 Host Machine |
虚拟机 操作系统 操作系统 虚拟机 Guest OS Guest OS Guest Machine 硬件 虚拟机 VMM虚拟监控器 Guest Machine Host Machine |
6.虚拟化的特点:
(1)寄居虚拟化:
在主操作系统上安装和运行的一个程序VM ware,
work station等(操作系统)
应用 应用 客户操作系统 虚拟化层 主操作系统 CPU、内存、显卡等 |
特点:
(1)简单易于实现
(2)安装和运行应用程序时,依赖于主操作系统对设备 的支持
(3)有俩层OS,管理开销大,性能损耗大
(4)虚拟机对各种物理主机的调用,都是通过虚拟化层和宿主OS一起调用完成
(2)裸金属虚拟化:在硬件上部署虚拟化层
操作系统:VM ware ESX Xen等
应用 应用 客户操作系统 客户操作系统 虚拟化层 CPU、内存、显卡等 |
特点:
(1)不依赖于操作系统
(2)支持多种操作系统
(3)依赖虚拟层内核和服务控制台进行管理
(4)需要对虚拟层进行内核开发
(3)混合虚拟化:插入内核模块
操作系统:KVM
应用 应用 应用 Host OS Host OS Host OS 宿主操作系统 内核(虚拟硬件管理) CPU、内存、显卡等 |
特点:(1)相对于寄居虚拟化性能高
(2)相对于裸金属虚拟化不需要内核开发
(3)支持多种操作系统
(4)需要底层硬件支持虚拟扩展功能
7.虚拟化层架构:
全虚拟化(KVM)、半虚拟化(Xen)、硬件辅助虚拟化
- 全虚拟化:即所抽象的VM具有完全的物理特性,虚拟化层负责捕获CPU指令,为指令访问硬件充当媒介
Linux OS VM1 Windows OS VM2 Linux OS (KVM) CPU、显卡、内存等 |
特点:
(1)OS无需修改
(2)速度和功能比较好,使用非常简单
(3)移植性好
Linux OS VM1 Windows OS VM2 VMM(Xen) CPU、显卡等 |
特点:
- 架构更简单
- 对OS进行修改,用户体验比较麻烦
(3)速度上占一定优势
(3)硬件辅助虚拟化
8.虚拟化技术的优势和劣势
(1)优势:
减少物理资源的投入,节约成本
虚拟数据资源迁移方便
提高物理资源的使用率
更加环保,节约能源
易于自动化维护与操作,减少维护成本
数据安全更有保障
- 劣势:
1.目前业界没有统一的虚拟化技术标准与平台,没
有开放的协议
2.如果没有对数据进行备份应用虚拟化技术会存在
一定风险
3.虚拟化数据中心的迁移,特别是对在线服务的迁移, 对用户影响巨大
9.全虚拟化与半虚拟化:
KVM(性能)
- 全虚拟化
- 内置在内核中
- 便于版本安装、升级维护
- 性能高
Xen(安全)
- 半虚拟化
- 需要修改内核
- 更新版本,重新编辑整个内核
- 隔离好
第四章 数据中心的概念
1.数据中心的基本概念
数据中心,顾名思义就是数据的中心,是处理和存储海量数据的地方,英文全称为Data Center。用专业的名词解释,数据中心是全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。
尽管数据中心听起来神秘高大上,但按照最简单直接的理解,数据中心实际上就是我们个人电脑的扩大版,你的家用电脑就是你个人的数据中心。一般来讲,数据中心主要有几大部分构成:机房(建筑物本身)、供配电系统、制冷系统、网络设备、服务器设备、存储设备等。
那数据中心的这些构成模块相当于你家个人电脑的哪些东西呢?做个简单的类比,机房相当于你家的书房,供配电系统相当于你家的插座、电脑电源再加个笔记本的电池,制冷系统相当于你家的空调以及风扇,网络设备相当于你家的路由器以及运营商在你家安装的光猫等,服务器设备相当于你家的电脑主机,存储设备相当于你家的电脑里面的硬盘或者现在的外置存储。
(1)机房
机房是数据中心的载体。广义上,机房包含了其内部所有的构成要素;狭义上,机房则指的是具体的钢筋水泥建筑物。数据中心一般都有一栋或者数栋大楼组成,这些大楼里面又划隔为若干个区域,用来放置各类设备,这些房子就叫做机房。比如你家里的电脑放在书房,那么你家的书房就相当于机房。不过你家的书房可能只有十平方,而数据中心则大的多。小的数据中心几千平方米,大的数据中心则有数十万平方米。数据中心机房的要求很高,按照我们国家的标准,机房有A类、B类、C类三个等级。主要是根据机房的不同配置而言,这个很好理解,就好像同样型号的电脑,CPU8核硬盘256G的就比CPU单核硬盘64G来的更高端。数据中心的机房建筑设计主要体现在防震、防水、防潮以及承重等几方面,层高、楼板以及桩基都与普通的楼房有明显的差别。
(2)供配电系统
供配电系统是数据中心的能源基础。不管什么设备工作都需要电,数据中心的运转也一样离不开电。打个比方,你的电脑笔记本肯定都有电池,停电一般还能用个把小时。数据中心也一样,那么多的设备如果碰到停电可不能停止工作。数据中心供配电系统主要由交流不间断系统、直流不间断系统、电池、高低压配电、发电机构成。数据中心的供配电系统能够有力保障数据中心的运转不受外部市电的短时停电影响,因此即使停电几个小时甚至数天,数据中心仍然能够保持正常的运作。
(3)制冷系统
制冷系统是数据中心的散热器。夏天如果户外温度升到40度以上,很多人就会感到非常难受,数据中心也一样。一旦数据中心内部机房超过40度,很多设备会出现高温告警,甚至高温保护。早些年的时候,部分品牌的个人PC还比较精贵,比如像H牌的笔记本电脑,买回来的同时还要专门配一个散热器。同样的,数据中心也需要制冷系统,给数据中心及时降温,毕竟几千上万台设备同时运行产生的热量是非常大的,温度一高,设备就会罢工。大部分数据中心机房内部的温度保持在25℃左右,这就需要一个连续稳定的制冷系统不断将机房内部设备运转产生的热量及时排除。数据中心要想长期对外服务,制冷系统是必不可少的。
(4)网络设备
网络设备为数据中心构建对内、对外高速的传输通路。在这个信息爆炸的时代,没有网络的话,电脑和手机的使用价值就大打折扣。同样,数据中心也需要一直连着网络,没有与外界网络连接的数据中心只是一个信息孤岛,发挥不了任何作用。数据中心内部有大量的路由器、交换机、传输设备在支撑其数据的运输流转,大型的数据中心几乎涉及到所有网络相关的设备。并且,为了对外网络的安全可靠,很多重要的数据中心都同时引入不同运营商的传输设备,以银行为例,一般会同时采用移动、联通、电信甚至广电来构建其对外的传输通道,这样即使某个运营商的线路断了,也不影响整个数据中心对外提供服务。
(5)服务器设备
服务器设备是数据中心的心脏,负责数据中心海量数据的处理。对于个人来说,一般家里就只有一台电脑,安装十来个程序游戏。而对于数据中心来说,服务器设备就有成千上万台。并且数据中心的服务器设备品种多样,如果性能上来看,有小型机、大型机、X86服务器等;如果从外形上看,则可以分为塔式服务器、机架服务器、刀片式服务器、高密度服务器等。
(6)存储设备
存储设备是海量数据储存的地方,是用于储存信息的设备。很多大型的数据中心都配备有存储服务器,专门用于存储数据和提供数据服务。数据中心的存储设备可不像我们家里的电脑就一两块硬盘那么简单,数据中心的存储能力通常都是PB级以上,1 PB = 1,024 TB = 1,048,576 GB。而一个大型的数据中心,数据储存能力都是上百PB。如果按照一个磁盘1TB的容量来计算,一个500PB的数据中心就相当于有500*1024=512000块1TB磁盘组成。
2.数据中心的定义
数据中心一词适用于为机柜或机架专门分配的任何空间,其中装有网络设备,这些设备要么为其他网络设备提供服务(一般通用布线传送),要么从外部电信网络中获得服务(如程控交换机、光纤或来自ISP的ADSL连接),要么为外部网络提供服务(典型代表是虚拟主机设施)。
我们一般还会认为数据中心是一种多客户端环境,由第三方提供环境维护服务。但是,数据中心同样适用于最终用户内部网络中的主通信间。换句话说,数据中心可以是服务器室,可以是设备间,也可以是并放设备。
作用
提供强大动力
在政府导向和市场驱动的双重作用下,我国大数据中心发展迅猛,市场规模一直保持高速增长。政府采购云服务的带动作用日益凸显,很多行业采用大数据中心对原有系统更新以支持业务发展。
大数据中心有什么作用.中探魔方大数据平台表示数据中心是云计算的根,云计算是数据中心“叶子”,云计算通过“光合作用”促进数据中心的发展,而数据中心的壮大又为云计算发展提供了坚实的基础,这三者起到相互依存,互相促进的作用。
分类
数据中心的类型主要有四类:计算机机房、电信机房、控制机房、屏蔽机房等。这些机房既有电子机房的共性,也有各自的特点,其所涵盖的内容不同,功能也各异。
(1)计算机机房
计算机机房内放置重要的数据处理设备、存储设备、网络传输设备及机房保障设备。计算机机房的建设应考虑以上设备的正常运行,确保信息数据的安全性以及工作人员身心健康的需要。
大型计算机机房一般由无人区机房组成。无人区机房一般包括小型机机房、服务器机房、存储机房、网络机房、介质存储间、空调设备间、UPS设备间、配电间等;有人区机房一般包括总控中心机房、研发机房、测试机房、设备测时间、设备维修存储间、缓冲间、更衣室、休息室等。
中、小型计算机机房可将小型机机房、服务器机房、存储机房等合并为一个主机房。
(2)电信机房
电信机房是每个电信运行商的宝贵资源,合理、有效、充分地利用电信机房,对于设备的运行维护、快速处理设备故障、降低成本、提高企业的核心竞争力等具有十分重要的意义。
电信机房一般是按不同的功能和专业来区分和布局的,通常分为设备机房、配套机房和辅助机房。
设备机房是用于安装某一类通信设备,实现某一种特定通信功能的建筑空间,便于完成相应专业内的操作、维护和生产,一般由传输机房、交换机房、网络机房等组成。配套机房是用于安装保证通信设施正常、安全和稳定运行设备的建筑空间,一般由计费中心、网管监控室、电力电池室、变配电室和油机室等组成。
辅助机房是除通信设施机房以外,保障生产、办公、生活需要的用房,一般由运维办公室、运维值班室、资料室、备品备件室、消防保安室、新风机房、钢瓶间和卫生间等组成。在一般智能建筑中通信机房经常与计算机网络机房合建。
(3)控制机房
随着智能化建筑的发展,为实现对建筑中智能化楼宇设备的控制,必须设立控制机房。控制机房相对于数据机房、电信机房而言,机房面积较小,功能比较单一,对环境要求较低。但却关系到智能化建筑的安全运行及设备、设施的正常使用。
控制机房包括楼宇智能控制机房、保安监控机房、消防控制室、卫星接收机房、视频会议控制机房等。这些控制机房的共同特点是机房内均有操作人员工作,在保证电子设备运行的同时还要保证操作人员的身体需要。根据设备及操作的要求,这些控制机房也有其相应的特点。
(4)屏蔽机房
为了有效地防止电磁式噪音、辐射对电子设备和测量仪器的影响,并进行电子信号泄漏从而威胁到机密信息的安全,国家机关、军队、公安、银行、铁路等单位需要建立屏蔽机房。有保密要求的数据机房应建设屏蔽机房,确保数据在处理过程中,其信号不泄露,从而满足数据保密的要求。一些对抗电磁要求较高的环境,如通信设备的测试实验室等场所,需要建设屏蔽机房,以防止外界电磁信号。有强电磁设备的机房应进行相应的电磁屏蔽处理,以避免临近机房设备的正常运行。
3.数据中心的发展历程
(1)上世纪的40年代,美国生产了世界上第一台全自动电子数据计算机“埃尼阿克”(Electronic Numerical Integrator And Calculator),体积3000立方英尺,占地170平方米,重量30吨,耗电140~150千瓦,就当这台庞然大物就此开启人类计算的新时代的同时,也开启了与之配套的“数据中心”历程的演进。
(2)上世纪的60年代,人们通常把数据中心称之为服务器农场,是用来存放计算机系统、存储系统、电力设备等等相关的组件。
(3)上世纪的80年代,微机市场(现在叫服务器)呈现出一片繁荣的景象,大量的计算机会被应用到各级的领域,但是很少人会关心运维,随着运维的技术越来越复杂,资源丢失的现象也越来越普遍,所有公司面临到IT资源管控的重要性。
(4)上世纪的90年代,微计算更加的繁荣,新一代的连接型网络取代了老一代的PC,开始将服务器单独的放在一个房间里,单的布线和分层设计,就是在那个时候才开始有了数据中心的叫法,这个名称延续到至今。
(5)2000年前后,互联网称爆发式的增长。在国内,腾讯、百度、阿里、网易等互联网公司的兴起,PC端对网络的要求不断的增加,有效的促进了数据中心的快速发展。
(6)2005年,数据中心发展稳定,而且就在这一年,电信公司推出了受行业所认可的机房设计标准,即:中国电信--2005 IDC产品规范;与此同时,美国电信产业也颁布了“TIA942标准”将机房分为Tire1-Tire4,4个级别。该两项标准为数据中心的稳定发展起到了规范和指导作用。
(7)2007年,一些大型数据中心也开始采用了更环保节能的技术来保障数据中心的正常运行。
(8)2010年,随着云计算技术的兴起,大数据中心逐渐的又走进了大家的视线。
4.数据中心的组成
从数据中心的物理范围看,数据中心可以是一个建筑群,建筑物,也可以是建筑物的一部分。按照数据中心的功能区划分,数据中心由主机房、辅助区、支持区和行政管理区。按照数据中心的专业系统划分,数据中心由供配电系统、机密空调、消防系统、安防系统、监控系统组成。
5.数据中心的特点:
中心的主要职能是存储和处理数据,传统的数据处理都是在硬件设备上加大投入,以保证数据中心的有效运行。近年来,随着大数据等新兴IT技术的发展与成熟,使得数据中心获得了空前的发展,无论是硬件设备还是软件都取得了很大进步。
数据中心集成是数据的存储中心、处理中心、中转中心和管理中心,将一个或多个数据信息转向数据中心寻求数据与信息服务,从而做到请求中转和数据中转等。数据中心作为业务承载平台和网络控制枢纽,是企业IT转型成功的基础和保障。
随着信息技术的快速发展,企业的信息数据不断增加,数据之间的交换、共享、备份、存储需要更多的硬件设备支持,这无疑是增加了企业的运营成本。因为数据中心建设周期长、投资大,技术发展变化快,并且涉及的技术领域众多,所以企业需要一个专业团队,帮助其从设计、规划、部署、运维提供端到端的解决方案。数据中心的集成是在现有硬件设备的基础上,对数据中心进行整合优化,降低能源消耗,充分利用资源,提高运行效率,帮助企业推动业务发展。
6.基于当前数据中心的现状和挑战,数据中心未来的发展趋势将呈现以下几大方面:
1. 绿色化
数据中心规模的剧增带来了运营成本的大幅提高,其中电力成本是最主要的运营成本,如何提升电源利用效率(PUE,越低越好)成为各大数据中心大户的一大课题。
2. 模块化部署
云计算和移动互联网的发展给数据中心的部署就绪时间提出了更高要求,目前整机柜、集装箱部署模式可将数据中心的建设周期大幅缩短。
3. 自动化
随着数据中心规模的不断扩大,传统模式所需的运维力量大幅增加,成本不断增加。
4. 虚拟化与软件定义化
虚拟化可以极大地提高数据中心的资源利用效率,并已得到广泛应用。而软件定义技术,为大规模用户提供快速灵活的多租户异构资源配置、隔离和供应,为客户快速提供虚拟化数据中心业务,让每个客户都感觉拥有独立的一体化数据中心。
5. 集约化和集群化部署
集群化部署,相当于将多个数据中心形成一体,大二层网络建设成为趋势,SDN在这里有用武之地。而集约化部署则可以节省数据中心之间的交互成本,也有利于降低部署和运维成本。
6. 安全与可信
安全性不仅是指防火墙、IPS/IDS、入侵检测、防病毒等安全防范措施,更包括火灾、飓风及其他灾害应对。因此,数据中心建设在初始阶段就应该构建可靠的灾难恢复方案,或建立异地的灾难备份中心。