锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

大数据架构和模式(上)

时间:2022-08-10 23:00:00 湿度传感器等评论列表

(1)大数据分类和架构简介


概述

大数据可以多种方式存储、获取、处理和分析。每个大数据源都有不同的特点,包括频率、数量、速度、类型和真实性。处理和存储大数据将涉及更多的维度,如治理、安全和策略。选择一个架构并构建一个合适的大数据解决方案是非常具有挑战性的,因为有很多因素需要考虑。

这个 大数据架构与模式 该系列提供了一种结构化和基于模式的方法来简化和定义完整的大数据架构的任务。因为评估业务场景中是否存在大数据问题非常重要,我们包含了一些线索来帮助确定哪些业务问题适合大数据解决方案。

从大数据分类到大数据解决方案的选择

如果你花时间研究大数据解决方案,你必须知道这不是一个简单的任务。本系列将介绍大数据解决方案的主要步骤,以满足您的需求。

先介绍一下术语 “大数据” 描述的数据类型。为了简化各种大数据类型的复杂性,我们根据各种参数对大数据进行了分类,为大数据解决方案中涉及的任何层次和高级组件提供了逻辑架构。接下来,我们通过定义原子和复合分类模式来分类大数据业务问题。这些模型有助于确定适当的应用解决方案模式。我们为各行各业提供了示例业务问题。最后,我们为每个组件和模型提供了相关功能的产品。

第 1 本系列的后续文章将介绍以下主题:

  • 逻辑架构定义大数据解决方案的件的逻辑架构

  • 了解大数据解决方案的原子模式

  • 复合(或混合)模式用于大数据解决方案的理解

  • 为大数据解决方案选择解决方案模式

  • 确定使用大数据解决方案来解决业务问题的可行性

  • 选择正确的产品来实现大数据解决方案

根据大数据类型对业务问题进行分类

业务问题可分类为不同的大数据问题类型。以后,我们将使用此类型确定合适的分类模式(原子或复合)和合适的大数据解决方案。但第一步是将业务问题映射到它的大数据类型。下图列出了常见的业务问题并为每个问题分配了一种大数据类型。

图 1. 不同类型的大数据业务问题

b6b5f7117497b72c143eaca36999ff11.png

根据类型对大数据问题进行分类,更容易看到每个数据的特征。这些特征可以帮助我们理解如何获取数据,如何处理它们,以及新数据的频率。来自不同来源的数据具有不同的特征;例如,社交媒体数据包括视频、图像和非结构化文本(如博客文章)。

我们依据这些常见特征来评估数据,下一节将详细介绍这些特征:

  • 内容的格式

  • 数据类型(如交易数据、历史数据或主数据)

  • 该数据的频率将被提供

  • 意图:如何处理数据(如临时查询数据)

  • 是否必须实时、实时或批次处理。


利用大数据类型对大数据特征进行分类

有助于分析大数据的特征,如如何收集、分析和处理数据。对数据进行分类后,可以匹配适当的大数据模式:

  • 分析类型 — 实时或批量分析数据。请仔细考虑分析类型的选择,因为它会影响一些关于产品、工具、硬件、数据源和预期数据频率的决策。有些用例可能需要混合使用两种类型:

    • 欺诈检测;分析必须实时或近实时完成。

    • 战略业务决策趋势分析;批量模式可用于分析。

  • 处理方法 — 应用于处理数据的技术类型(如预测、分析、临时查询和报告)。业务需求确定了合适的处理方法。可以与各种技术相结合。处理方法的选择有助于识别在您的大数据解决方案中使用的合适工具和技术。

  • 数据频率和大小 — 数据和数据到达的预期频率是多少。了解频率和大小有助于确定所需的存储机制、存储格式和预处理工具。数据的频率和大小取决于数据源:

    • 按需分析与社交媒体数据相同

    • 实时、续提供(天气数据、交易数据)

    • 时序(基于时间的数据)

  • 数据类型 — 处理数据类型 — 交易、历史、主数据等。了解数据类型有助于将数据与存储隔离。

  • 结构化内容格式(传入数据格式)(如 RDMBS)、非结构化(如音频、视频和图像)或半结构化。格式决定了如何处理输入的数据,这是选择工具、技术和从业务角度定义解决方案的关键。

  • 数据源 — 数据源(生成数据的地方),如 Web 以及社交媒体、机器生成、人类生成等。从业务角度识别所有数据源有助于识别数据范围。这张图显示了最广泛使用的数据源。

  • 数据使用者 — 所有可能用户处理的数据列表:

    • 业务流程

    • 业务用户

    • 企业应用程序

    • 业务角色中的每个人员

    • 部分处理过程

    • 其他数据存储库或企业应用程序

  • 硬件 — 大数据解决方案的硬件类型,包括商业硬件或最先进的硬件。了解硬件的限制有助于指导大数据解决方案的选择。

图2 描述用于分类大数据的各种类别。定义大数据模式的关键类别已被识别并显示在蓝色框中。这些类别的组合来自大数据模式(将在下一篇文章中定义)。

图2. 大数据分类


结论和感谢

从访问到使用大数据,我们将介绍大数据解决方案的逻辑架构和层次。在大数据解决方案的各个重要方面,我们将提供完整的数据源列表。我们还将介绍复合模式,解释如何结合原子模式解决特定的大数据用例。最后,该系列将提供一些解决方案模式,在广泛使用的用例和各种产品之间建立相应的关系。

(2)如何知道大数据解决方案是否适合您的组织?


摘要:本文介绍了一种基于维度的方法来评估大数据解决方案的可行性。通过回答和探索每个维度的问题,您可以通过自己对环境的理解来确定大数据解决方案是否适合您。仔细考虑每个维度,你会发现是否有线索来改善你的大数据服务。

简介

在确定投资大数据解决方案之前,评估可用于分析的数据;通过分析这些数据获得的洞察力;以及可用于定义、设计、创建和部署大数据平台的资源。问正确的问题是一个很好的起点。使用本文中的问题将指导您完成调查。答案将揭示数据和您试图解决的问题的更多特征。

虽然组织对需要分析的数据类型有一些模糊的理解,但具体细节可能不清楚。毕竟,数据可能是以前未发现的模型的关键。一旦识别了一个模型,对额外分析的需求将变得非常明显。要帮助揭示这些未知的未知信息,首先要实现一些基本用例,在此过程中,可以收集以前不可用的数据。在构建数据存储库并收集更多数据后,数据科学家可以更好地确定关键数据,更好地构建预测和统计模型,生成更多的洞察力。

组织也可能知道它不知道什么信息。解决这些问题已知的未知,首先,组织必须与数据科学家合作,识别外部或第三方数据源,实现一些依赖外部数据的用例。

首先,试着回答大多数问题 CIO 在实施大数据举措之前通常会提出的问题,然后,本文将重点介绍一种将帮助评估大数据解决方案对组织的可行性的基于维度的方法。

我的大数据问题需要大数据解决方案吗?

大数据,从前,似乎很少有组织选择以增量的方式实现大数据解决方案。并不是每个分析和报告需求都需要大数据解决方案。对于大数据集或多个数据源的临时报告,可能不需要使用大数据解决方案。

随着大数据技术的到来,组织会问自己:“大数据是否是我的业务问题的正确解决方案,或者它是否为我提供了业务机会?”大数据中是否隐藏着业务机会?以下是我从 CIO 那里听到的一些典型问题:

· 如果我使用大数据技术,我可能会得到什么洞察力和业务价值?

· 它能扩展我现有的数据仓库吗?

· 我如何评估当前环境的扩展 还是新解决方案的成本?

· 对我现有的 IT 治理 有何影响?

· &nbs;我能否以增量方式实现 大数据解决方案?

·    我需要掌握哪些具体的技能 来理解和分析构建和维护大数据解决方案的需求?

·    我的现有企业数据 能否用于提供业务洞察?

·    来自各种来源的数据的复杂性 在不断增长。大数据解决方案对我有帮助吗?

维度可帮助评估大数据解决方案的可行性

为了回答这些问题,本文提出了一种依据下图中所示的维度来评估大数据解决方案的可行性的结构化方法。

·    来自可通过分析数据获得的洞察的业务价值

·    针对新数据来源和数据使用方式的治理考虑因素

·    拥有相关技能和赞助商的承诺的人员

·    捕获的数据量

·    各种各样的数据源、数据类型和数据格式

·    生成数据的速度,需要对它执行操作的速度,或者它更改的速度

·    数据的真实性,或者数据的不确定性和可信赖性

对于每个维度,我们都给出了一些关键问题。依据业务上下文,为每个维度分配一个权重和优先级。评估会因业务案例和组织的不同而有所不同。您可以考虑在与相关的业务和 IT 利益相关者召开的一系列研讨会中探讨这些问题。

业务价值:可通过大数据技术获取何种洞察?

许多组织想知道,他们在寻找的业务洞察能否通过大数据解决方案解决。没有权威的指南能够用来定义可从大数据获取的洞察。具体场景需要由组织识别,而且这些场景在不断演变。在确定和识别在实现后会给企业带来重大价值的业务用例和场景的过程中,数据科学家起着至关重要的作用。

数据科学家必须能够理解关键绩效指标,对数据应用统计算法和复杂算法来获得一个用例列表。用例因行业和业务不同而有所不同。研究市场竞争对手的行动、发挥作用的市场力量,以及客户在寻找什么,会很有帮助。下表给出了来自各行各业的用例示例。

表 1. 来自各行各业的示例用例

潜在的客户正在社交网络和评论站点上生成大量新数据。在企业内,随着客户切换到在线渠道来执行业务和与公司交互,交易数据和 Web 日志与日俱增。

确定数据的优先级

首先为企业内存在的数据创建一个清单。识别内部系统和应用程序中存在的数据以及从第三方传入的数据。如果业务问题可使用现有数据解决,那么有可能不需要使用来自外部来源的数据。

请考虑构建一个大数据解决方案的成本,并权衡它与带给业务部门的新洞察的价值。

在有关现有客户的归档数据的上下文中分析此新数据时,业务人员将获得对新业务机会的洞察。

主要满足以下条件,大数据可提供可行的解决方案:

·    从数据中开发的洞察所生成的价值,值得在大数据解决方案中投入的资本成本

·    面向客户的场景可证明来自洞察的潜在价值

评估通过大数据解决方案获取的业务价值时,请考虑您当前的环境是否可扩展并权衡此投资的成本。

我当前的环境能否扩展?

询问以下问题,确定您能否扩充现有的数据仓库平台?

1.当前的数据集是否非常大,是否达到了 TB 或 PB 数量级?

2.现有的仓库环境是否包含生成或获取的所有 数据的存储库?

3.是否有大量冷数据或人们很少接触的数据未分析,可以通过分析这些数据获得业务洞察?

4.您是否需要丢弃数据,因为无法存储或处理它?

5.您是否希望能够在复杂且大量的数据上执行数据探索?

6.您是否希望能够对非操作数据执行分析?

7.您是否有兴趣使用数据执行传统和新类型的分析?

8.您是否试图延迟对现有数据仓库的升级?

9.您是否在寻求途径降低执行分析的总体成本?

如果任何这些问题的答案是 “是”,那么您就可以探索扩充现有数据仓库环境的方式。

扩展我当前的环境的成本是多少?

扩展现有数据仓库平台或 IT 环境与实现大数据解决方案的成本和可行性取决于:

·    现有工具和技术

·    现有系统的可伸缩性

·    现有环境的处理能力

·    现有平台的存储能力

·    执行的治理和策略

·    现有 IT 应用程序的异构性

·    组织中存在的技术和业务技能。

它还依赖于将从新数据来源收集的数据量、业务用例的复杂性、处理的分析复杂性,以及获取数据和拥有恰当技能集的人员的成本。现有的资源池能否开发新的大数据技能,或者是否可从外部雇佣拥有稀缺技能的人员?

请注意,大数据举措会对其他正在实施的项目产生影响。从新的来源获取数据具有很高的成本。您首先应当识别系统和应用程序内部存在的数据,以及目前收到的第三方数据,这一点很重要。如果业务问题可以使用现有数据解决,那么有可能不需要使用来自外部来源的数据。

在生成新工具和应用程序之前,请评估组织的应用程序组合。例如,一个普通的 Hadoop 平台可能无法满足您的需求,您可能必须购买专业的工具。或者相对而言,Hadoop 的商业版本对当前用例而言可能很昂贵,但可能需要用作长期投资来支持一个战略性的大数据平台。考虑大数据工具和技术需要的基础架构、硬件、软件和维护的成本。

对数据的治理和控制:对现有的 IT 治理有何影响?

在决定是否实现一个大数据平台时,组织可能会查看新数据源和新的数据元素类型,而这些信息当前的所有权尚未明确定义。一些行业制度会约束组织获取和使用的数据。例如,在医疗行业,通过访问患者数据来从中获取洞察是否合法?类似的规则约束着所有行业。除了 IT 治理问题之外,组织的业务流程可能也需要重新定义和修改,让组织能够获取、存储和访问外部数据。

请在您的情况的上下文中考虑以下治理相关问题:

安全性和隐私— 为了与当地法规一致,解决方案可以访问哪些数据?可以存储哪些数据?哪些数据应在移动过程中加密?静止数据呢?谁可以查看原始数据和洞察?

数据的标准化— 是否有标准约束数据?数据是否具有专用的格式?是否有部分数据为非标准格式?

数据可用的时段— 数据在一个允许及时采取操作的时段是否可用?

数据的所有权— 谁拥有该数据?解决方案是否拥有适当的访问权和权限来使用数据?

允许的用法:允许如何使用该数据?

我能否增量地实现大数据解决方案?

大数据解决方案可以采用增量方式实现。明确地定义业务问题的范围,并以可度量的方式设置预期的业务收入提升,这样做会很有帮助。

对于基础业务案例,请仔细列出问题的范围和解决方案带来的预期收益。如果该范围太小,业务收益将无法实现,如果范围太大,获得资金和在恰当的期限内完成项目就会很有挑战性。在项目的第一次迭代中定义核心功能,以便能够轻松地赢得利益相关者的信任。

人员:是否已有恰当的技能并调整了合适的人员?

需要特定的技能来理解和分析需求,并维护大数据解决方案。这些技能包括行业知识、领域专长,以及有关大数据工具和技术的技术知识。拥有建模、统计、分析和数学方面的专业经验的数据科学家,是任何大数据举措成功的关键。

在实施一个新的大数据项目之前,确保已安排了合适的人员:

·    您是否获得利益相关者和其他愿意投资该项目的业务赞助者的支持?

·    是否拥有熟悉该领域、能分析大量数据、而且能识别从数据生成有意义且有用的洞察的途径的数据科学家?

是否拥有可用于获取洞察的现有数据?

所有组织都拥有大量未用于获取业务洞察的数据。这些数据包括日志文件、错误文件和来自应用程序的操作数据。不要忽略此数据,它是宝贵信息的潜在来源。

数据复杂性是否在增长?

查找数据复杂性增长的线索,尤其是在数据量、种类、速度和真实性方面。

数据量是否已增长?

如果满足以下条件,您可能希望考虑大数据解决方案:

·    数据大小达到 PB 和 EB 级,而且在不久的将来,它们可能增长到 ZB 级别。

·    这一数据量给使用传统方法(比如关系数据库引擎)存储、搜索、共享、分析和可视化数据带来的技术和经济挑战。

·    数据处理目前可使用可用硬件上的大规模并行处理能力。

数据种类是否已增多?

如果满足以下条件,各种各样的数据可能都需要大数据解决方案:

·    数据内容和结构无法预期或预测。

·    数据格式各不相同,包括结构化、半结构化和非结构化数据。

·    用户和机器能够以任何格式生成数据,例如:Microsoft® Word 文件、Microsoft Excel® 电子表格、Microsoft PowerPoint 演示文稿、PDF 文件、社交媒体、Web 和软件日志、电子邮件、来自相机的照片和视频、信息感知的移动设备、空中感知技术、基因组和医疗记录。

·    以前没有为了获得洞察而被挖掘的数据来源不断地在产生新的数据类型。

·    领域实体在不同的上下文中具有不同的含义。

数据的速度是否已增长或改变?

考虑您的数据是否:

·    在快速更改,必须立即响应

·    拥有过多的传统技术和方法,它们不再足以实时处理传入的数据

您的数据是否值得信赖?

如果满足以下条件,那么请考虑使用大数据解决方案:

·    数据的真实性或准确性未知。

·    数据包含模糊不清的信息。

·    不清楚数据是否完整。

如果数据的量、种类、速度或真实性具有合理的复杂性,那么有可能会适合地采用大数据解决方案。对于更复杂的数据,需要评估与实现大数据解决方案关联的任何风险。对于不太复杂的数据,则应该评估传统的解决方案。

是否所有大数据都存在大数据问题?

不是所有大数据情形都需要大数据解决方案。请在市场中寻找线索。竞争对手在做什么?哪些市场力量在发挥作用?客户想要什么?

使用本文中的问题,帮助确定大数据解决方案是否适合于您的业务情形和您需要的业务洞察。如果认为是时候实施大数据项目了,请阅读下一篇文章,其中会介绍如何定义一个逻辑架构,而且将会确定您的大数据解决方案需要的关键组件。


(三)理解大数据解决方案的架构层


摘要:大数据解决方案的逻辑层可以帮助定义和分类各个必要的组件,大数据解决方案需要使用这些组件来满足给定业务案例的功能性和非功能性需求。这些逻辑层列出了大数据解决方案的关键组件,包括从各种数据源获取数据的位置,以及向需要洞察的流程、设备和人员提供业务洞察所需的分析。

概述

这个 “大数据架构和模式” 系列的第 2 部分介绍了一种评估大数据解决方案可行性的基于维度的方法。如果您已经使用上一篇文章中的问题和提示分析了自己的情况,并且已经决定开始构建新的(或更新现有的)大数据解决方案,那么下一步就是识别定义项目的大数据解决方案所需的组件。

大数据解决方案的逻辑层

逻辑层提供了一种组织您的组件的方式。这些层提供了一种方法来组织执行特定功能的组件。这些层只是逻辑层;这并不意味着支持每层的功能在独立的机器或独立的进程上运行。大数据解决方案通常由以下逻辑层组成:

1、大数据来源

2、数据改动 (massaging) 和存储层

3、分析层

4、使用层

大数据来源:考虑来自所有渠道的,所有可用于分析的数据。要求组织中的数据科学家阐明执行您需要的分析类型所需的数据。数据的格式和起源各不相同:

格式— 结构化、半结构化或非结构化。

速度和数据量— 数据到达的速度和传送它的速率因数据源不同而不同。

收集点— 收集数据的位置,直接或通过数据提供程序,实时或以批量模式收集数据。数据可能来自某个主要来源,比如天气条件,也有可能来自一个辅助来源,比如媒体赞助的天气频道。

数据源的位置— 数据源可能位于企业内或外部。识别您具有有限访问权的数据,因为对数据的访问会影响可用于分析的数据范围。

数据改动和存储层:此层负责从数据源获取数据,并在必要时,将它转换为适合数据分析方式的格式。例如,可能需要转换一幅图,才能将它存储在 Hadoop Distributed FileSystem (HDFS) 存储或关系数据库管理系统 (RDBMS) 仓库中,以供进一步处理。合规性制度和治理策略要求为不同的数据类型提供合适的存储。

分析层:分析层读取数据改动和存储层整理 (digest) 的数据。在某些情况下,分析层直接从数据源访问数据。设计分析层需要认真地进行事先筹划和规划。必须制定如何管理以下任务的决策:

·生成想要的分析

·从数据中获取洞察

·找到所需的实体

·定位可提供这些实体的数据的数据源

·理解执行分析需要哪些算法和工具。

使用层:此层使用了分析层所提供的输出。使用者可以是可视化应用程序、人类、业务流程或服务。可视化分析层的结果可能具有挑战。有时,看看类似市场中的竞争对手是如何做的会有所帮助。

每一层包含多种组件类型,下面将会介绍这些类型。


该图显示了逻辑和垂直层的组件

大数据来源

此层包含所有必要的数据源,提供了解决业务问题所需的洞察。数据是结构化、半结构化和非结构化的数据,而且来自许多来源:

1、企业遗留系统—这些系统是企业应用程序,执行业务需要的分析并获取需要的洞察:

·客户关系管理系统

·结算操作

·大型机应用程序

·企业资源规划

·Web 应用程序开发

Web 应用程序和其他数据来源扩充了企业拥有的数据。这些应用程序可使用自定义的协议和机制来公开数据。

2、数据管理系统 (DMS)— 数据管理系统存储逻辑数据、流程、策略和各种其他类型的文档:

·Microsoft® Excel® 电子表格

·Microsoft Word 文档

这些文档可以转换为可用于分析的结构化数据。文档数据可公开为领域实体,或者数据改动和存储层可将它转换为领域实体。

3、数据存储— 数据存储包含企业数据仓库、操作数据库和事务数据库。此数据通常是结构化数据,可直接使用或轻松地转换来满足需求。这些数据不一定存储在分布式文件系统中,具体依赖于所处的上下文。

4、智慧设备— 智慧设备能够捕获、处理和传输使用最广泛的协议和格式的信息。这方面的示例包括智能电话、仪表和医疗设备。这些设备可用于执行各种类型的分析。绝大多数智慧设备都会执行实时分析,但从智慧设备传来的信息也可批量分析。

5、聚合的数据提供程序— 这些提供程序拥有或获取数据,并以复杂的格式和所需的频率通过特定的过滤器公开它。每天都会产生海量的数据,它们具有不同的格式,以不同的速度生成,而且通过各种数据提供程序、传感器和现有企业提供。

其他数据源— 有许多数据来自自动化的来源:

地理信息:

·地图

·地区详细信息

·位置详细信息

·矿井详细信息

人类生成的内容:

·社交媒体

·电子邮件

·博客

·在线信息

传感器数据:

·环境:天气、降雨量、湿度、光线

·电气:电流、能源潜力等

·导航装置

·电离辐射、亚原子粒子等

·靠近、存在等

·位置、角度、位移、距离、速度、加速度

·声音、声震动等

·汽车、运输等

·热量、热度、温度

·光学、光、成像、见光度

·化学

·压力

·流动、流体、速度

·力、密度级别等

·来自传感器供应商的其他数据

数据改动和存储层

因为传入的数据可能具有不同的特征,所以数据改动和存储层中的组件必须能够以各种频率、格式、大小和在各种通信渠道上读取数据:

数据获取— 从各种数据源获取数据,并将其发送到数据整理组件或存储在指定的位置中。此组件必须足够智能,能够选择是否和在何处存储传入的数据。它必须能够确定数据在存储前是否应改动,或者数据是否可直接发送到业务分析层。

数据整理— 负责将数据修改为需要的格式,以实现分析用途。此组件可拥有简单的转换逻辑或复杂的统计算法来转换源数据。分析引擎将会确定所需的特定的数据格式。主要的挑战是容纳非结构化数据格式,比如图像、音频、视频和其他二进制格式。

分布式数据存储— 负责存储来自数据源的数据。通常,这一层中提供了多个数据存储选项,比如分布式文件存储 (DFS)、云、结构化数据源、NoSQL 等。

分析层

这是从数据中提取业务洞察的层:

分析层实体识别— 负责识别和填充上下文实体。这是一个复杂的任务,需要高效的高性能流程。数据整理组件应为这个实体识别组件提供补充,将数据修改为需要的格式。分析引擎将需要上下文实体来执行分析。

分析引擎— 使用其他组件(具体来讲,包括实体鉴别、模型管理和分析算法)来处理和执行分析。分析引擎可具有支持并行处理的各种不同的工作流、算法和工具。

模型管理— 负责维护各种统计模型,验证和检验这些模型,通过持续培训模型来提高准确性。然后,模型管理组件会推广这些模型,它们可供实体识别或分析引擎组件使用。

使用层

这一层使用了从分析应用程序获取的业务洞察。分析的结果由组织内的各个用户和组织外部的实体(比如客户、供应商、合作伙伴和提供商)使用。此洞察可用于针对客户提供产品营销信息。例如,借助从分析中获取的洞察,公司可以使用客户偏好数据和位置感知,在客户经过通道或店铺时向他们提供个性化的营销信息。

该洞察可用于检测欺诈,实时拦截交易,并将它们与使用已存储在企业中的数据构建的视图进行关联。在欺诈性交易发生时,可以告知客户可能存在欺诈,以便及时采取更正操作。

此外,可以根据在数据改动层完成的分析来触发业务流程。可以启动自动化的步骤 — 例如,如果客户接受了一条可自动触发的营销信息,则需要创建一个新订单,如果客户报告了欺诈,那么可以触发对信用卡使用的阻止。

分析的输出也可由推荐引擎使用,该引擎可将客户与他们喜欢的产品相匹配。推荐引擎分析可用的信息,并提供个性化且实时的推荐。

使用层还为内部用户提供了理解、找到和导航企业内外的链信息的能力。对于内部使用者,为业务用户构建报告和仪表板的能力使得利益相关者能够制定精明的决策并设计恰当的战略。为了提高操作有效性,可以从数据中生成实时业务警告,而且可以监视操作性的关键绩效指标:

交易拦截器— 此组件可实时拦截高容量交易,将它们转换为一种容易被分析层理解的实时格式,以便在传入数据上执行实时分析。事务拦截器应能够集成并处理来自各种来源的数据,比如传感器、智能仪表、麦克风、摄像头、GPS 设备、ATM 和图像扫描仪。可以使用各种类型的适配器和 API 来连接到数据源。也可以使用各种加速器来简化开发,比如实时优化和流分析,视频分析,银行、保险、零售、电信和公共运输领域的加速器,社交媒体分析,以及情绪分析。

业务流程管理流程— 来自分析层的洞察可供业务流程执行语言 (BPEL) 流程、API 或其他业务流程使用,通过自动化上游和下游 IT 应用程序、人员和流程的功能,进一步获取业务价值。

实时监视— 可以使用从分析中得出的数据来生成实时警告。可以将警告发送给感兴趣的使用者和设备,比如智能电话和平板电脑。可以使用从分析组件生成的数据洞察,定义并监视关键绩效指标,以便确定操作有效性。实时数据可从各种来源以仪表板的形式向业务用户公开,以便监视系统的健康或度量营销活动的有效性。

报告引擎— 生成与传统商业智能报告类似的报告的能力至关重要。用户可基于从分析层中得到的洞察,创建临时报告、计划的报告或自助查询和分析。

推荐引擎— 基于来自分析层的分析结果,推荐引擎可向购物者提供实时的、相关的和个性化的推荐,提高电子商务交易中的转换率和每个订单的平均价值。该引擎实时处理可用信息并动态地响应每个用户,响应基于用户的实时活动、存储在 CRM 系统中的注册客户信息,以及非注册客户的社交概况。

可视化和发现— 数据可跨企业内外的各种联邦的数据源进行导航。数据可能具有不同的内容和格式,所有数据(结构化、半结构化和非结构化)可组合来进行可视化并提供给用户。此能力使得组织能够将其传统的企业内容(包含在企业内容管理系统和数据仓库中)与新的社交内容(例如 tweet 和博客文章)组合到单个用户界面中。

垂直层

影响逻辑层(大数据来源、数据改动和存储、分析和使用层)的所有组件的各方面都包含在垂直层中:

·信息集成

·大数据治理

·系统管理

·服务质量

信息集成

大数据应用程序从各种数据起源、提供程序和数据源获取数据,并存储在 HDFS、NoSQL 和 MongoDB 等数据存储系统中。这个垂直层可供各种组件使用(例如数据获取、数据整理、模型管理和交易拦截器),负责连接到各种数据源。集成将具有不同特征(例如协议和连接性)的数据源的信息,需要高质量的连接器和适配器。可以使用加速器连接到大多数已知和广泛使用的来源。这些加速器包括社交媒体适配器和天气数据适配器。各种组件还可以使用这一层在大数据存储中存储信息,从大数据存储中检索信息,以便处理这些信息。大多数大数据存储都提供了服务和 API 来存储和检索该信息。

大数据治理

数据治理涉及到定义指南来帮助企业制定有关数据的正确决策。大数据治理有助于处理企业内或从外部来源传入的数据的复杂性、量和种类。在将数据传入企业进行处理、存储、分析和清除或归档时,需要强有力的指南和流程来监视、构建、存储和保护数据。

除了正常的数据治理考虑因素之外,大数据治理还包含其他因素:

1、管理各种格式的大量数据。

2、持续培训和管理必要的统计模型,以便对非结构化数据和分析进行预处理。请记住,设置处理非结构化数据时的重要一步。

3、为外部数据设置有关其保留和使用的策略和合规性制度。

4、定义数据归档和清除策略。

5、创建如何跨各种系统复制数据的策略。

6、设置数据加密策略。

服务质量

此层复杂定义数据质量、围绕隐私和安全性的策略、数据频率、每次抓取的数据大小和数据过滤器:

数据质量

1、完整地识别所有必要的数据元素

2、以可接受的新鲜度提供数据的时间轴

3、依照数据准确性规则来验证数据的准确性

4、采用一种通用语言(数据元组满足使用简单业务语言所表达的需求)

5、依据数据一致性规则验证来自多个系统的数据一致性

6、在满足数据规范和信息架构指南基础上的技术符合性

围绕隐私和安全的策略

需要策略来保护敏感数据。从外部机构和提供程序获取的数据可能包含敏感数据(比如 Facebook 用户的联系信息或产品定价信息)。数据可以来源于不同的地区和国家,但必须进行相应的处理。必须制定有关数据屏蔽和这类数据的存储的决策。考虑以下数据访问策略:

A、数据可用性

B、数据关键性

C、数据真实性

D、数据共享和发布

E、数据存储和保留,包括能否存储外部数据等问题。如果能够存储数据,数据可存储多长时间?可存储何种类型的数据?

F、数据提供程序约束(政策、技术和地区)

G、社交媒体使用条款

数据频率

提供新鲜数据的频率是多少?它是按需、连续还是离线的?

抓取的数据大小

此属性有助于定义可抓取的数据以及每次抓取后可使用的数据大小。

过滤器

标准过滤器会删除不想要的数据和数据中的干扰数据,仅留下分析所需的数据。

系统管理

系统管理对大数据至关重要,因为它涉及到跨企业集群和边界的许多系统。对整个大数据生态系统的健康的监视包括:

A、管理系统日志、虚拟机、应用程序和其他设备

B、关联各种日志,帮助调查和监视具体情形

C、监视实时警告和通知

D、使用显示各种参数的实时仪表板

E、引用有关系统的报告和详细分析

F、设定和遵守服务水平协议

G、管理存储和容量

G、归档和管理归档检索

I、执行系统恢复、集群管理和网络管理

J、策略管理

结束语

对开发人员而言,层提供了一种对大数据解决方案必须执行的功能进行分类的途径,为组织建议必需执行这些功能所需的代码。但是,对于想要从大数据获取洞察的业务用户,考虑大数据需求和范围通常会有所帮助。原子模式解决了访问、处理、存储和使用大数据的机制,为业务用户提供了一种解决需求和范围的途径。下一篇文章将介绍用于此用途的原子模式。

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章