【读书笔记->数据分析】02 数据分析准备
时间:2023-08-29 18:37:02
数据分析准备
介绍
章节内容
数据收集、存储和预处理数据分析前的准备工作
考试内容
- 数据收集
(1) ??数据收集
(2) 收集样本数据
(3) ?数据的收集 - 数据存储
(1) 测量数据规模
(2) 数据存储系统
(3) 数据存储和管理
(4) ?数据存储 - 数据预处理
(1) 数据预处理的含义
(2) 数据预处理的基本原则
(3) 数据预处理的基本流程
(4) 预处理数据的方法
(5) 常数据分析软件 - 实现数据预处理的R软件
(1) 数据读取和存储
(2) 随机抽样
(3) 缺乏数据处理
(4) 数据集成
(5) 数据转换
考核内容
-
数据收集
- 记录:数据收集、样本数据收集、数据收集。
- 理解:数据收集的具体方法、样本数据收集的具体方法、数据收集的方法。
-
数据存储
- 记忆:数据规模的三个阶段:测量单位、数据存储系统的类型、数据存储和管理
- 理解:数据存储系统的组成,数据存储技术的发展和存储模式。
-
数据预处理
- 记录:数据预处理的基本原则和流程。
- 理解:数据预处理的含义,数据预处理的常用方法。
-
实现数据预处理的R软件
- 识记:利?R进入数据读取与存储、随机抽样、数据处理缺失、数据集成和数据转换的常见函数。
- 领会:利?R软件实现数据预处理的主要方法。
- 简单应?:利?R软件简单地预处理具有实际应用背景单变量的数据。
- 综合应:利:利R该软件将行业中一些实际问题的多变量数据进入常规数据预处理。
数据收集
数据收集概念:所谓数据收集,就是围绕研究的目标和任务,选择合适的技术路线,运用科学有效的方式和方法,有针对性地收集能够反映客观事实情况数据的活动。
收集二手数据
二手数据是为其他目的收集的数据资源。它具有获取速度快、成本相对较低、时间短等优点。
- 收集内部二手资料数据
- 企业自身二手资料数据
- 数据公开
- 非公开数据数据
- 机密数据
- 非机密数据
- 企业自身掌握的其他相关数据
- 收集外部二手资料数据
- 从传统的出版物或印刷材料中获取数据
- 从计算机数据库存储的数据中收集数据
- 从专业数据服务机构提供的数据中收集数据
- 利用互联网搜索引擎收集数据
收集样本数据
样本数据是在整体抽样的基础上,通过对样本的调查、观察和测试获得的。以下是三种常用的抽样方法和收集样本数据的方法。
常用的抽样方法
- 随机抽样
- 非随机抽样
获取样本数据的方法
- 调查法
- 观察法
- 试验法
收集大数据
大数据主要来自人们在社交网络、互联网和各种社交活动中产生的各种文本、图片、音频和视频数据、计算机模拟现实世界产生的数据、通过感知设备获取数据等。
数据存储
测量数据量
KB MB GB TB PB EB ZB YB NB DB CB
数据存储系统
数据存储的目的不仅是存储,还有以后的查询、分析和应用。
数据存储系统是由存储程序和数据的各种存储设备、控制部件和管理信息调度的设备(硬件)和算法(软件)组成的系统。由于计算机的主存储器不能满足访问速度快、存储容量大、成本低的要求,因此必须有从慢到快、容量从大到小的多级存储器。
数据存储和管理
数据管理的三个阶段:
- 人工管理阶段
- 文件系统阶段
- 数据库管理系统
大数据存储
在大数据时代,面对结构化、半结构化、非结构化等海量数据,数据容量超过了存储空间的极限。传统的关系数据库无法适应有效存储,数据管理容易失控。因此,有必要使用以下方法来处理大数据存储问题:
1 分布式系统
在分布式系统中,通过分布式存储技术实现数据访问。分布式存储技术将数据存储在虚拟网络空间中,而不是特定的节点中。具体来说,分布式存储技术充分利用了网络的优势,虚拟了网络上相对分散的存储空间,然后将该空间作为数据存储的主体。
2 NoSQL数据库
存储和管理半关系和非关系数据。
与关系数据库相比:
- 高并发读写和存储大数据
- 在存储模式中,大量数据集以数据集的形式存储在一起
- 在存储结构中,动态结构非常适合数据类型和结构的变化
- 因为NoSQL数据库的存储模式是分布式的,克服了纵向扩展能力的不足,可以向资源池添加更多的数据库服务器,实现数据库的横向扩展功能
- 因为读写性能NoSQL是按key-value存储类型,以数据库的形式存储,所以很容易扩展或读写;而且NoSQL不需要繁琐的关系数据库分析
NoSQL主要存储类别:
- 存储数据库的键值
- 列存储数据库
- 文档数据库
- 图形结构数据库
3 云数据库
云数据库是一种基于云计算技术发展的共享基础设施存储方法,是部署在云计算环境中的虚拟数据库。
- 租用云数据库可以满足高质量、低成本的大数据管理需求,避免手动安装和配置数据库的繁琐步骤。
- 它具有可扩展性高、可用性高、租赁形式多、资源分配有效、使用成本低、性能高、免维护、安全性高等特点
数据预处理
数据预处理的含义
数据预处理是利用科学的处理方法,根据研究的目的和任务,对获得的原始数据进行审核、总结和初步处理,使其系统、有组织,从而进一步提高数据质量。
- 对收集数据的质量进行了全面的检查,提高了数据的应用价值
- 为后续的数据分析和应用奠定了良好的基础
- 是数据积累和保存的客观要求
数据预处理的基本原则
- 真实性原则
- 准确性原则
- 科学性原则
- 目的性原则
数据预处理的基本流程
没有固定的统一模式,针对不同研究目的、不同技术路线收集到的不同类型数据,需要采用不同流程进行预处理。
以下是基于问卷调查/观察样本数据或 二手资料数据/大数据的预处理流程:
数据预处理的方法
上面两种是实际应用中的两种典型数据预处理方法。下面分别讨论。
(一)基于问卷的调查或观察的形式所收集数据的预处理方法
流程:复查审核、编辑整理、编码、数据录入、再编码以及排序等环节进行预处理。
1 复查审核
目的是为了确保每份将要用于数据录入分析的调查问卷的有效性,其衡量标准主要是看访谈是否按规定的方式进行,访员有无作假。
2 编辑整理
对访员和采访者的疏忽、遗漏、错误进行检查。
3 编码
是对一个问题的不同答案确定相应的数字代码以便于后期数据分析的过程。
4 数据录入
将数据从书面形式转到计算机足以识别的电子或数字形式。
5 再编码
为了方便处理,有时是对原编码的补充,有时则是对原编码的调整修改。(合理性原则:能用自然数就绝不用小数编码…;经济性原则:很多调查项目可借用现成编码)
6 排序
将一定顺序将顺序进行排列,便于研究者通过浏览数据发现某些明显的特征趋势或解决问题的线索。除此之外,排序还有助于对数据检查纠错,并能为重新归类、分组以及再编码提供依据。
7 变量转换与数据选择
变量转换的两种方法:
- 变量类型转换:例如,出入录入需要有些数值型数据被定义为字符型数据,待进行数据处理时则要将这些字符型数据还原为数值型数据
- 变量代换:要用原有数据变量做自变量,利用常规运算和数据分析软件中的函数库构造新的变量
数据选择的两种方法:
- 将诸如明显错误或不合理的数据、缺失数据或“野值”等不合格的数据剔除
- 将某些符合特定条件的数据筛选出来进行计算,而把不符合条件的数据排除在外
8 数据清理
在图表化和数据分析之前,需要从有效性审核、一致性审核和分布审核等方面进一步审核。
通常有两种途径:
- 错误检验查序。例如,如果记录受访者性别的代码只有“1”或“2”,那么逻辑描述可以检查这个字段是否存在其他代码。
- 汇总报告。通过一份简单的汇总表,可以列出各变量值的频数、频率、有效频率和累积频率。
(二)基于二手资料数据或大数据的预处理方法
这些数据最初的目的往往不是为当前特定项目研究的目的而设计的,因此需要进行清洗、集成、规约、变换与脱敏等预处理操作。
1 数据清洗
将“脏数据”(缺失数据、冗余数据、噪声数据)清洗成“干净数据”
- 缺失数据的处理。涉及三个环节:识别缺失数据、分析导致缺失数据的原因以及删除或填充缺失数据。
- 冗余数据的处理。通常表现为重复数据、或与数据分析任务无关的数据。前者主要采用重复过滤的方法处理,后者一般采用条件过滤的方法处理。
- 噪声数据的处理。噪声是指测量变量中的随机错误或偏差,主要表现为错误数据、虚假数据和异常数据。常用的处理方法有分组、回归和离群点分析。
2 数据集成
是将两个或多个数据源中的数据存放在一个数据存储设备中。
包括内容集成和结构集成两种。
- 内容集成:目标数据集的结构与来源数据集的结构相同,集成过程对来源数据集中的内容(个案)进行合并处理
- 结构集成:目标数据集的结构与来源数据集的结构不同,目标数据集的结构是在对各来源数据集的结构进行合并处理后的基础上形成的
在数据集成时,以下需要注意:
- 模式集成。主要涉及实体识别问题,即如何使来自多个数据源的现实世界的实体相互匹配。
- 冗余与相关分析。如果一个变量可以从其他变量中推演出来,那这个变量就是冗余变量。通常利用相关分析的方法判断数据冗余问题。
- 数据的冲突检测与消除。对于一个现实世界实体,来自不同数据源的同一变量,其值出现差异,产生这种现象的原因可能是比例尺度不同或编码的差异等。
3 数据规约
是指在不影响数据完整性和数据分析结果正确性的前提下,通过减少数据规模的方式达到减少数据量,进而提升数据分析的效果与效率的目的。
通常有两种方法:
- 维度规约:通过减少所考虑的变量的个数来实现的。
- 数量规约:使用回归分析、对数线性等参数模型或直方图、聚类、抽样和数据立方体聚类等非参数模型的方法近似表示数据,并且只存储数据生成方法与参数(不存储实际数据),最终实现数据规约的目的。
4 数据变换
原始数据往往具有不同量纲,或其形式不符合建模的要求,因此在数据分析前,需要先对原始数据进行适当的变换。
常见有5种方法:
- 数据平滑处理。去掉数据中的噪声波动使得数据分布平滑。常用有分组、回归和聚类
- 数据的标准化(规范化)。将数据按比例缩放,使之落入一个特定的区间。常用有Max-Min标准化(最大值归一化)、Z-score标准化和小数定标标准化(标准差归一化)等
- 简单函数变换。可以将不具有正态分布的数据变换成具有正态分布的数据,常用有平方、开方、对数变换与差分运算等。有时简单的对数变换和差分运算就可以将时间序列分析中的非平稳序列转换成平稳序列
- 数据编码。研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程
5 数据脱敏
对原始数据中的个人(或组织)敏感数据进行替换或删除操作,降低信息的敏感性,避免相关主体的信息安全隐患和个人隐私问题。