数据中台详解

时间：2022-09-30 22:30:00 底座结构对传感器性能的影响

文章目录

数据中台是什么？
- 数据中台 VS 数据仓库
- 数据中心平台的业务价值和技术价值
建设和架构数据中台
- 中台数据建设方法论
- 数据中台架构
数据收集联通:打破企业数据孤岛
- 数据采集和收集的方法和工具
- 数据交换
建设数据系统
- 数据系统规划
- 统一数字仓库层建设-标准化数据底座
- - 相关概念
  - 指标设计
  - 维度表设计
  - 事实表设计

什么是数据中台

大多数信息系统都是独立建立的，无法实现信息的连接，导致多个数据岛的形成。数据平台的作用是整合新旧信息，整合各岛信息，快速形成数据服务能力，支持企业的业务决策和精细运营。

数据中台和业务中台的区别: 业务平台是抽象业务流程的共性，形成通用业务服务能力，数据中泰是抽象数据能力的共性。

数据中台 VS 数据仓库

数据仓库支持管理决策和业务分析的主要场景，数据中台为业务系统提供数据服务，目标是将数据能力渗透到各个业务环节，而不限于决策分析场景。

数据中心平台的建设包括数据仓库的完整内容，数据平台最大限度地发挥企业数据仓库建设的投资价值，加快数据授权业务的速度，为业务提供更快、更多样化的数据服务。数据平台还可以将已建成的数据仓库作为数据源，连接现有的数据建设结果，避免重复建设。当然，新的离线或实时数据仓库也可以基于数据平台提供的能力，通过收集、处理和处理各种数据源来构建。

数据中心平台的业务价值和技术价值

业务价值:从洞察到赋能业务创新，形成核心壁垒
1.以客户为中心，以洞察力推动企业稳步行动
数据中心大大提高了数据的应用能力，将大量数据转化为高质量的数据资产，为企业提供更深入的客户洞察力，为客户提供更个性化、更智能的产品和服务。

2.支持基于数据的大规模商业模式创新
依靠数据和算法，将从大量数据提炼的洞察力转化为行动，促进大规模商业创新。只有将数据转化为业务人员可以阅读和理解的内容，才能更好地支持商业模式的创新。

3.振兴全数据，建立坚实的壁垒，继续领先
数据平台的突出优势在于充分利用内外数据，打破数据岛的现状，降低数据服务使用门槛，繁荣数据服务生态，实现数据使用越多的闭环价值。

技术价值：能力多、成本低、应用广泛
对于不同的数据应用场景，需要能够快速应对多数据处理需求
比如：
要保持原报表需求，仍需保持批量离线计算能力（Hadoop、Oracle RAC）；
对于实时指标统计和实时推荐，需要实时流式计算能力（Storm、Spark Streaming、Flink）；
大量人群的圈人需求和决策业务ad-hoc需要即席计算能力（Greenplum、Elasticsearch、Impala）；
对于高并发业务场景(如用户肖像)，需要在线计算能力（MySQL、Redis、Oracle）。

建设和架构数据中台

作为整个企业所需的数据服务提供商，数据中心平台将通过自身的平台能力和业务不断滋养数据（业务数据），形成高效可靠的数据资产系统和数据服务能力（数据资产和资产服务）。这样，当新的市场变化需要构建新的前台应用时，数据中心可以快速提供数据服务（服务业务），以快速响应企业的创新。

中台数据建设方法论

一种战略行动： 将数据中心驱动的业务发展定位为企业战略，全面规划。
2个保障条件: 通过宣传统一组织之间的数据认知，通过流程加快组织变革。
三条目标标准： 在中台建设的全过程中，始终贯穿数据的可见、可用、可操作三个核心标准，确保建设在正确的轨道上。
四套建设内容： 确保中台建设的全面性和可持续性，通过技术体系、数据体系、服务体系和运营体系建设。
五个关键步骤： 控制中台建设关键节点的质量，通过理解现状、建立架构、建立资产、使用数据和操作五个关键行动。

数据中台架构

1.数据汇聚
数据汇聚是数据中台数据接入的入口。所有数据来自于业务系统、日志、文件、网络等，这些数据分散在不同的网络环境和存储平台中，数据汇聚把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储，为后续的加工建模做准备。
一般有数据收集的方法数据库同步、埋点、网络爬虫、消息队列等；从汇聚的时效性来分，有离线批量汇聚和实时采集。

2.数据开发
数据开发是一整套数据加工以及加工过程管控的工具，有经验的数据开发、算法建模人员利用数据加工模块提供的功能，可以快速将数据处理成对业务有价值的形式，提供给业务使用。

3.数据体系
通过数据收集和数据开发模块，中间平台具有传统数据仓库（以下简称数字仓库）平台的基本能力。在大数据时代，必须考虑数据的一致性和可重用性。垂直烟囱数据和数据服务的建设模式注定不会长期存在。建议按照贴源数据、统一数字仓库、标签数据和应用数据的标准统一建设数据。

4.数据资产管理
数据资产管理包括管理和显示数据资产目录、元数据、数据质量、数据血缘和数据生命周期，以更直观的方式显示企业的数据资产，提高企业的数据意识。

5.数据服务系统
数据服务系统是将数据转化为服务能力，通过数据服务让数据参与业务，激活整个数据中心，数据服务系统是数据中台存在的价值。

6.操作系统和安全管理
通过前面的数据汇聚、数据开发、数据体系、数据资产管理、数据服务体系，已经完成了整个数据中台的搭建和建设，也已经在业务中发挥一定的价值。操作系统和安全管理是数据平台健康、可持续运行的基础，如果没有它们，数据平台可能像一般项目，将建立平台，构建部分数据，尝试一两个应用场景，不能正常持续运行，不能继续发挥数据的应用价值。这完全达不到建设数据中心的目标。

数据收集联通:打破企业数据孤岛

要构建企业级数据中台，首先要让企业内各业务系统的数据互联，通过数据收集和交换的能力，物理上打破了数据孤岛。

数据采集和收集的方法和工具

从空间维度来看，用户行为可分为线上行为和线下行为。

1.网上行为采集
在线行为的主要载体可分为传统互联网和移动互联网。在技术上，数据采集主要包括客户端SDK埋点和服务端SDK埋点等。其中客户端。SDK埋点主要是将埋点功能模块嵌入终端设备中，通过模块提供的能力收集客户端的用户行为，并上传回行为收集服务端。
(1)客户端埋点
客户端埋点有三种常见方式：全埋点、可视化埋点和代码埋点。
全埋点：记录和保存终端设备上用户的所有操作和内容，只需嵌入即可SDK收集所有行为的目的都可以通过做一些初始配置来实现。这通常被称为无埋点等。
可视化埋点：将终端设备上用户的一部分操作，通过服务端配置的方式有选择性地记录并保存。
代码埋点：根据需要定制每个收集内容，需要升级相应的终端模块。

(2)服务端埋点
除了上述客户端埋点外，还有服务端埋点通过在系统服务器端部署相应的数据采集模块，将这部分数据作为行为数据进行处理和分析。服务端埋点的常见形式有HTTP服务器中的access_log，即所有的Web服务日志数据。

2.线下行为采集
线下行为数据主要通过一些硬件收集，如常见数据Wi-Fi探针、摄像头、传感器等常见的主要有Wi-Fi信号采集、信令数据采集、图像视频采集以及传感器探测等。

3.互联网数据采集
网络爬虫又称为网页蜘蛛，是一种按照既定规则自动抓取互联网信息的程序或者脚本，常用来做网站的自动化测试和行为模拟。网络爬虫有多种实现方式，目前有较多的开源框架可以使用，如Apache Nutch 2、WebMagic、Scrapy、PHPCrawl等。

4.内部数据汇聚
数据汇聚不同于数据采集，数据采集有一定的数据生产属性，将终端的用户行为信息通过特定的方法记录后，通过中间系统的流转写入目标存储中。
从数据组织形式来分，数据主要分成三类：
结构化数据： 规则、完整，能够通过二维逻辑来表现的数据，严格遵循数据格式与长度规范，常见的有数据库表、Excel等二维表。
半结构化数据： 数据规则、完整，同样严格遵循数据格式与长度规范，但无法通过二维关系来表现，常见如JSON、XML等形式表达的复杂结构。
非结构化数据： 数据结构不规则或不完整，不方便用二维逻辑表来表现，需要经过复杂的逻辑处理才能提取其中的信息内容，如办公文档、图片、图像和音视频等。

从时效性和应用场景来分，数据汇聚可以分成离线和实时两类：
离线： 主要用于大批量数据的周期性迁移，对时效性要求不高，一般采用分布式批量数据同步的方式，通过连接读取数据，读取数据过程中可以有全量、增量的方式，经过统一处理后写入到目标存储。
实时： 主要面向低时延的数据应用场景，一般通过增量日志或通知消息的方式实现，如通过读取数据库的操作日志（RedoLog、BinLog）来实现相应的实时处理，业界常见的Canal、MaxWell、StreamSets、NiFi等框架和组件都有较多的实际应用。

在数据建设过程中有ETL（Extract-Transform-Load，抽取–转换–存储）的操作，即在数据抽取过程中进行数据的加工转换，然后加载至存储中。
但在大规模数据场景下，一般不建议采用ETL的方式，建议采用ELT（Extract-Load-Transform，抽取–存储–转换）的模式，即将数据抽取后直接加载到存储中，再通过大数据和人工智能相关技术对数据进行清洗和处理。
如果采用ETL的模式在传输过程中进行复杂的清洗，会因为数据体量过大和清洗逻辑的复杂性导致数据传输的效率大大降低。另一方面，ETL模式在清洗过程中只提取有价值的信息进行存储，而是否有价值是基于当前对数据的认知来判断的，由于数据价值会随着我们对数据的认知以及数据智能相关技术的发展而不断被挖掘，因此ETL模式很容易出现一些有价值的数据被清洗掉，导致当某一天需要用这些数据时，又需要重新处理，甚至数据丢失无法找回。

在数据能力建设过程中，很多企业结合自身的场景和最佳实践也开源了一些优秀的汇聚工具，如Sqoop、DataX、Canal等，适用场景不同，也各有优缺点。
(1).Canal
Canal Server模拟MySQL Slave的交互协议，伪装自己为MySQL的Slave向Master发送dump协议，Master收到请求后开始推送binary log，Canal解析byte流产出解析后的增量数据。主要优点是流程架构非常清晰，部署和配置等相对简单，同时可以额外做一些配置管理、开发改造的工作。 Canal的 主要缺点是Server中的Instance和Client之间是一对一的消费，不太适用于多消费和数据分发的场景。

(2).Sqoop
Sqoop是目前市面上相对通用的一种解决方案，是在结构化数据和HDFS之间进行批量数据迁移的工具。整体框架以Hadoop为核心，底层使用MapReduce程序实现，MapReduce天生的特性保证了并行化和高容错率，任务运行在Hadoop集群上，减少了服务器资源的使用情况。其主要优势是，在特定场景下，数据交换过程会有很大的性能提升。主要缺点是，处理过程定制程度较高，目前主要通过在命令行中配置参数来调整数据同步操作行为，在用户的一些自定义逻辑和数据同步链路监控方面比较薄弱。除此之外，任务运行完全依赖于MapReduce，功能扩展性方面受到比较明显的约束和限制。

(3).DataX
DataX是阿里巴巴开源的一套插件式离线数据交换工具，以实现各种异构数据源之间的高效数据交换为目标而设计，提供数据交换作业全链路的流量监控，将作业本身的状态、数据流量、数据速度、执行进度等信息进行展示，提供脏数据探测功能，支持传输过程中对传输报错（如类型转换错误）进行策略化处理。由于它是基于进程内读写直连的方式，高并发数据交换场景下对机器内存要求比较高。除此之外，DataX不支持非结构化数据的同步，目前支持结构化数据源、半结构化数据源、非结构化数据源，但是非结构化数据源中需要存储的是一张逻辑意义上的二维表，例如CSV格式的文本信息，本质上还是结构化数据。

数据交换

从数据类型来看，有结构化数据和非结构化数据；
从实效性来看，有实时数据交换和离线数据交换。

数据交换中心的首要目的是屏蔽底层工具的复杂性，以可视化配置的方式提供给企业用户；其次需要考虑，为了解决数据孤岛，需要满足异构存储、异构数据类型的交换需求；同时，还要考虑不同时效要求下的数据互通。

数据体系建设

数据体系规划

中台数据体系应具备以下特征：
覆盖全域数据： 数据集中建设，覆盖所有业务过程数据，业务在中台数据体系中总能找到需要的数据。
结构层次清晰： 纵向的数据分层，横向主题域、业务过程划分，让整个层次结构清晰易理解。
数据准确一致： 定义一致性指标，统一命名、统一业务含义、统一计算口径，并有专业团队负责建模，保证数据的准确一致。
性能提升： 统一的规划设计，选用合理的数据模型，清晰地定义并统一规范，并且考虑使用场景，使整体性能更好。
降低成本： 数据体系的建设使得数据能被业务共享，这避免了大量烟囱式的重复建设，节约了计算、存储和人力成本。
方便易用： 易用的总体原则是越往后越能方便地直接使用数据，把一些复杂的处理尽可能前置，必要时做适当的冗余处理。

统一数仓层建设——标准化的数据底座

建模方法有范式建模、维度建模、实体建模等。维度建模更适合大数据时代数据量巨大的特点。
维度建模是实现统一数仓层建设目标的一种推荐建模方式，它用事实表、维度表来组织数据。模型简单易理解：仅有维度、事实两种类型数据。 维度建模具备以下特点：

性能好： 维度建模使用的是可预测的标准框架，允许数据库系统和最终用户通过查询工具在数据方面生成强大的假设条件，这些数据主要在表现和性能方面起作用。
可扩展性好： 具有非常好的可扩展性，可以在不改变模型粒度的情况下，很方便地增加新的分析维度和事实，不需要重载数据，也不需要为了适应新的改变而重新编码。良好的可扩展性意味着以前的所有应用都可以继续运行，并不会产生不同的结果。
数据冗余： 由于在构建事实表星型模式之前需要进行大量的数据预处理，因此会导致大量的数据处理工作。而且，当业务发生变化，需要重新进行维度的定义时，往往需要重新进行维度数据的预处理。而在这些预处理过程中，往往会导致大量的数据冗余。

指标设计

指标就是在企业业务运转过程中产生的度量事实，一致性指标设计是为了在企业内外部使指标的命名、计算方法、业务理解达到一致，避免不同部门同一个指标的数据对不上或者对同一个指标的数据理解不一致。
一致性指标的定义为，描述原子指标、修饰词、时间周期和派生指标的含义、类型、命名、算法，被用于模型设计，是建模的基础。

维度表设计

维度表包含了事实表所记录的业务过程度量的上下文和环境，它们除了记录5W等信息外，通常还包含了很多描述属性字段。每个维度表都包含单一的主键列。
1）选择维度： 维度作为维度建模的核心，在企业级数据仓库中必须保证维度的唯一性。维度一般用于查询约束条件、分组、排序的关键属性。
2）确定主维表： 主维表一般直接从业务系统同步而来，是分析事实时所需环境描述的最基础、最频繁的维度属性集合。比如用户维表从业务系统的用户基本信息表中产出。
3）梳理关联维表： 根据对业务的梳理，确定哪些表和主维表存在关联关系，并选择其中的某些表用于生成维度属性。如商品与类目、SPU、卖家、店铺等维度存在关联关系。
4）定义维度属性： 从主维表或关联维表中选择维度属性或生成新的维度属性，并维护和描述维度属性的层次及关联关系。如商品维表，商品属于类目，类目属于行业。

事实表设计

事实表是统一数仓层建设的主要产出物，统一数仓层绝大部分表都是事实表。一般来说事实表由两部分组成：一部分是由主键和外键组成的键值部分，另一部分是用来描述业务过程的事实度量。

在Kimball的维度建模理论中主要定义了事务事实表、周期快照事实表、累积快照事实表三种类型的事实表。
事务事实表： 事务事实表描述业务过程事务层面的事实，每条记录代表一个事务事件，保留事务事件活动的原始内容，其更新方式为增量更新。事务事实表相对其他事实表保存的数据粒度更细，可以通过事务事实表对事务行为进行详细分析。
周期快照事实表： 周期快照事实表以具有规律性、可预见的时间间隔产生快照来记录事实，每行代表某个时间周期的一条记录，记录的事实是时间周期内的聚集事实值或状态度量，更新方式为增量更新。周期快照事实表一般是建立在事务事实表之上的聚集，维度比事务事实表少，粒度比事务事实表粗，但是一般事实会比事务事实表多。
累计快照事实表： 累积快照事实表覆盖一个事务从开始到结束之间所有的关键事件，覆盖事务的整个生命周期，通常具有多个日期字段来记录关键事件时间点。 周期快速事实表涉及的多个事件中任意一个的产生都要做记录，由于周期快照事实表涉及的多个事件的首次加载和后续更新时间是不确定的，因此在首次加载后允许对记录进行更新，一般采用全量刷新的方式更新。

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

数据中台详解

文章目录

相关文章