锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

大数据进行时:聚光灯后的四大推手

时间:2023-07-16 19:37:01 tesco顶驱传感器

原文链接:http://www.ifanr.com/141641

这是留英信息工程博士周文哲(@Wennie文哲)的贡献,她去年创业成立了幸福佩智公司,专注于提供 Hadoop 产品已应用于互联网广告、物联网等行业。

大数据这个话题自今年以来一直受到中国投资者的追捧,高科技人才不断选择这个方向创业;但事实上,大数据已经过了概念炒作阶段,实际应用出现,产生了实际效益。周文哲的贡献详细揭示了大数据流行背后的原因和大数据在国外的发展。

唐代诗人岑参描写了西北边塞早雪奇景的诗句,用来形容大数据的盛行,突如一夜春风来,千树万树梨花盛开。就在几个月前,大数据似乎只是一个遥远的话题。短期内,它像一夜春风吹来,经常出现在各种媒体、论坛甚至政府战略中。那么,是什么促进了它的流行呢?这些聚光灯背后的故事是什么?本文将从行业发展、应用推广、技术进步、金融和政策鼓励四个方面探讨大数据的幕后推动者。

推手一:数据爆发

大数据的概念可能并不陌生。大一词不仅意味着数量庞大,而且意味着数据种类繁多,结构复杂,变化非常快。这些特征的出现与互联网的发展密切相关。从搜索引擎和社交网络的普及到今天的移动终端,互联网上的信息总量每年都在使用 50% 其中,增长率不断扩大 90% 的信息来自近三年,包括每个月 Facebook 上分享的 30 每天都有亿条内容 12 TB 的 Twitter 信息,淘宝每天都超过 30 数亿家店铺、商品浏览记录、数千万交易、收藏记录等。据 IDC 统计,2011 全球年产生的数据总量是 1.8 ZB(10 的 21 如果将这些数据这些数据刻录到, CD 盘子里堆起来的高度等于地球到月球的距离!

数据不仅在量上疯狂增长,在源上也不断丰富。世界上产生的数据近乎是 80% 由个人用户产生;据估计,到 2020 年全球将有 500 1亿台设备连接到网络、地理位置、网络浏览行为、健康数据甚至基因信息,已成为技术服务个人的有效资源,也意味着企业将准确了解每个用户,真正实现与客户的零距离接触。正是这种巨大的商业利益驱使大数据成为国际一流企业投入使用的竞争武器。

推手二:应用推广

今年年初,一名美国男子闯入他家附近 Target 店铺(Target 是美国零售连超市)。你怎么能这样!男人对店长大喊:你居然给了我 17 一岁的女儿发了婴儿尿布和童车优惠券,她只是 17 岁啊!店长不知道发生了什么,立即向来访者道歉,说明一定是误会。然而,经理没有意识到公司正在运行大数据系统。一个月后,这个愤怒的父亲打来电话道歉,因为 Target 婴儿用品促销广告不是误发,女儿确实怀孕了。

这种应用在国际零售巨头中并不少见。我们使用它 Target 作为第一个案例,它的案例确实给人留下了强烈的印象:数据的力量不仅提高了企业的业绩,也让客户愿意为此付出代价。Target 如果用户从自己的店铺购买婴儿用品,创造了一套女性购买行为在怀孕期间发生变化的模型,Target 在接下来的几年里,这些客户将根据婴儿的生长周期定期推送相关产品,从而形成长期的忠诚度。

事实上,沃尔玛,Tesco(英国零售巨头)和其他巨头从数据中获得了巨大的利益,从而巩固了他们在行业中的繁荣。以 Tesco 例如,世界第二大利润零售商从其会员卡用户购买记录,充分了解用户是什么类别客户,如快餐、单身、学校儿童家庭等,基于一系列业务活动的分类,如通过电子邮件或信件发送给用户可以变得非常个性化,根据周围人的喜好和消费时间,店内货架上的商品和促销也可以更有针对性,从而改善商品的流通。这种做法是 Tesco 获得了丰厚的回报,仅在市场宣传一项,就能帮助 Tesco 每年节省 3.5 1亿英镑的费用。

在互联网行业,大数据为电子商务和广告商提供了丰厚的回报。雅虎于 2008 年初开始使用大数据技术,每天分析超过 200PB 数据使雅虎服务更加人性化,更贴近用户和客户。它与雅虎 IT 在搜索、广告、用户体验索、广告、用户体验和欺诈发现。AOL 也设立了 300 该节点的服务器集群将在其下属系列网站(如 AOL.com、Huffington Post、MapQuest 等)中每天 500TB 的用户浏览信息收集起来,分析和预测这些用户的行为,以便有针对性的为每个月 1.8 1亿独立用户提供个性化广告服务。

于亚马逊(Amazon)数据技术的应用为其成为信息公司,在电子商务领域占据领先地位奠定了稳定的基础。为了更深入地了解每个用户,亚马逊不仅从每个用户的购买行为中获取信息,还记录了每个用户在其网站上的所有行为:用户是否检查每个页面的停留时间 Review,亚马逊去年在亚马逊上搜索了每一个关键词、每一个浏览商品等。 11 月推出的 Kindle Fire 中,内嵌的 Silk 浏览器可以逐一记录用户的行为数据。这些数据的有效分析使亚马逊对客户的购买行为和偏好有了全面的了解,并对其商品类型、库存、仓储、物流和广告业务有了很大的效益反馈。

数据技术的应用不仅在零售和互联网行业获得了巨大的回报,而且其经济价值使各行业竞争。在能源行业,Opower 利用数据提高消费用电能效,取得显著成功。作为一庭提供 SaaS 创新公司服务(软件服务),Opower 与多家电力公司合作,分析美国家庭用电成本,并将其与邻居用电情况进行比较。被服务的家庭每月都会收到一份比较报告,显示他们在整个地区或美国的家庭水平,以鼓励节约用电。Opower 该服务覆盖了美国数百万家庭,预计每年为美国节省消费用电 5 亿美元。

最值得一提的是生物信息产业。生物信息是继互联网行业之后数据爆发最快的行业,将远远超过互联网生成的数据:人类使用 0 和 1 创造虚拟世界,创造主要用途 A/C/T/G 生命的产生、发展、消亡的奥秘就在其中。随着测序技术的发展,全基因组的测序价格从十年前的数亿美元降至今天的数千美元,这使得更多的人和物种 DNA 信息的获取成为可能。获取个人全基因组信息,使个性化诊疗服务成为可能。在华盛顿大学,研究人员通过分析白血病患者的基因信息,成功地发现了导致癌细胞迅速扩散的致癌基因,并发现了可以预防该基因的药物,有效地延长了患者的生命。

例如,上述应用程序正在悄然进行。数据带来的市场价值促进了一切,也构成了大数据产业发展的第二个驱动力。

推手三:技术发展

技术与应用之间的关系一直是互补的:应用的实现需要技术的支持,技术的进步可以促进应用的普及。在上述实例应用的背后,大数据技术使一切都成为可能。本文主要指大数据技术 Hadoop 在这一部分,我们将简要介绍非关系数据库系统和分布式操作架构的发展背景。

上世纪 60 20世纪末关系数据库技术的出现,使数据能够按固定结构存储,方便用户根据数据属性查询,同时也使管理非常简单。然而,数据量的爆炸性增长和数据结构的多样性不仅需要快速输入和提取大量的数据信息,还需要数据库的灵活扩展,数据存储不限于固定结构。此时,传统的关系数据库技术已不能满足这些需求,因此,NoSQL 上世纪末开始出现技术。

然而,直到非关系数据库技术在开始之前才得到广泛的应用 2009 2000年,在搜索引擎、社交网络等互联网应用流行,数据量迅速增加后,人们开始用。发展到今天,NoSQL 该技术形成了一系列不同用途的数据库管理系统,如 BigTable、Amazon DynamoDB、Hadoop/Hbase、Cassandra 等列族存储系统(Wide Column Store),MongoDB、CouchDB 等待文件存储系统,Neo4J 图形数据库系统等。由于列族存储系统支持多种类型的数据存储,目前应用最广泛。

2004 年初,Google 开始研发 BigTable 基于非关系数据库系统的非关系数据库系统 Google 一种压缩、高扩展的数据库技术可以在文件系统上使用 Google 低成本扩大自身新业务处理。8 个月后,BigTable 它开始投入内部使用,后来被广泛应用于一系列 Google 应用中,如 Google Reader、Google Earth、Google Maps、Gmail、YouTube 等等。为解决海量信息的计算问题,Google 又研发了 MapReduce 并行计算技术架构使 T 数量级以上的数据可以并行处理并通过 BigTable 存储和更改数据,有效支持 Google 数据处理任务的增长。而 BigTable 该模型激发了许多后来者数据技术。

Hadoop 就是其中之一。这个由 Yahoo! 的前员工 Doug Cutting(现任职于 Cloudera 公司)最初负责开发的项目已成为大数据行业的技术中心。Hadoop 由一系列开源技术组成的分布式架构,包括 Hbase 列数据库系统,MapReduce 并行计算框架,HDFS 分布式文件系统,Mahout 由于其扩展性高、数据类型灵活、成本低,算法库等。Hadoop 被广泛应用于各行各业,包括互联网、生物信息、物联网,甚至美国宇航局 NASA 也用 Hadoop 处理从宇宙望远镜传回的大量无线电数据,数据量达到每秒 700TB!

2008 年成立的 Cloudera 是最早将 Hadoop 商业公司为合作伙伴提供服务 Hadoop 商业解决方案包括 IBM、甲骨文(Oracle)、微软EMC、Teradata 行业领先的数据解决方案提供商,使得 NoSQL 技术已成为现存 SQL 强有力的补充数据解决方案;众巨头纷纷推出相应的产品,以适应其客户数据业务的爆 IBM 的 InfoSphere BigInsights,甲骨文的 BigData Appliance,EMC 的 GreenPlum 等等。Cloudera 公司的产品使开源技术能够有效地为商业客户提供服务,始人 Jeff Hammerbacher 也被福布斯评为美国 30 位 30 明以下科技领域的明日之星之一。

目前,Hadoop 各大互联网公司各大互联网公司得到了广泛的应用 acebook、亚马逊、苹果、AOL、Ebay、Twitter、Netflix、淘宝、百度等等;在生物信息行业中,也初步得到了应用,如大型制药公司提供研究服务的 NextBio 公司,设立了 100 个节点的 Hadoop 集群来帮助制药公司进行基因研究。先进技术的发展为企业提供了高效使用数据的便捷工具,是促进大数据行业发展的第三大推手。

推手四:金融与政策的鼓励

行业的发展,除了市场需求的驱动、技术水平的进步,还离不开资本与政策的瞩目。据麦肯锡报道,大数据已经实现了显著的经济价值:为美国的医疗服务业每年节省 3000 亿美元,为欧洲的公共部门管理每年节省 2500 亿欧元,为全球个人位置数据服务提供商贡献 1000 亿美元,帮助美国零售业净利润增长 60%,帮助制造业在产品开发、组装等环节节省 50% 的成本等等。大数据体现的巨大经济价值,成功地获得了金融界和政界的亲睐。

2011 年 11 月,曾投资 Facebook、DropBox、Cloudera、沃尔玛等 200 多家公司的硅谷著名风投机构阿克塞尔合伙人公司(Accel Partners),宣布成立一个金额 1 亿美金的大数据基金,专注于投资两种类型的数据创业公司:建设包括存储、安全和管理在内的新型架基础构类公司,以及在基础架构之上进行如 BI、行业应用、移动应用等开发的公司。这样的投资方向让我们看到,大数据的爆发增长使得数据驱动、数据制胜成为必然,那些能够解决这个过程中因数据而产生的各种问题的创业公司,将在市场上得到自身价值的回馈。

今年 4 月,成立于 2003 年的数据软件公司 Splunk 在纳斯达克以 16 亿美元的市值上市,给大数据行业打了一管兴奋剂。Splunk 提供的软件产品可以用于监控、分析实时及历史的机器数据,这些数据可以是日志、配置文件、消息和告警等。Splunk 可以帮助企业的 IT 管理员集中监控分布部署在多个数据中心的成千上万台服务器,免去了错误发生时需要逐个排查纠错的苦恼。从创立至今,Splunk 的客户数量已接近 4000 家,财富 100 强的大部分成员皆为其客户,包括瑞士信贷、美国银行、Comcast、Salesforce、Zynga、LinkedIn、T-Mobile、Swisscom、Shutterfly、Heroku 以及美国劳工部和能源部等。

与此同时,政府也将大数据列入了国家发展战略。今年 3 月底,奥巴马政府宣布,白宫将投入 2 亿美金的研发费用来推动大数据技术的发展,其主要目标是为了让大数据技术更好的服务于科研、环境、生物医药、教育和国家安全领域。同时,奥巴马政府对于投资的核心技术领域,也作出了明确的表示,将主要用来鼓励那些在数据采集、存储、管理、分析和共享等方面的技术研发。

综上所述,我们可以看到,大数据成为今天众人瞩目的焦点,是经过了在市场、技术、资金、以及政府多方因素推动的结果。在文章的最后,我们列出三个关键词来总结大数据技术在实际应用中的特性,希望帮助读者对于大数据的应用有一个概览性的了解。

人才。人才是大数据技术能够真正发挥其价值的首要因素,也是最大的挑战。据麦肯锡调查,至 2018 年,美国市场将出现近 20 万深度大数据分析的专业人才、150 万能够进行数据解析的职业经理人的职位缺口。大数据专业人才不仅需要多年的数学知识积累,还需要有编程、业务知识等综合能力,是稀缺的复合型人才;而对于聘用企业来说,也很难有合适的职位适合此类人才。

用户为中心。大数据技术的应用,可以帮助企业从业务的整体设计角度,发展到针对客户的个性化服务,例如,零售企业对于过剩的库存会进行整体促销,如果对于用户购买数据进行分析,就可以针对用户的喜好进行个性化促销,同时也根据用户的购买行为对库存进行准确的调配,以减少浪费。

行业化。在基础的数据采集、存储及查询方面,各行业所通用的技术架构并无显著差异;但由于每个行业的属性及需求各异,数据分析将具有较强的行业性。例如,生物信息行业中,进行基因诊断所用到的比对数据库需要专业的生物知识来进行翻译,更为深入的致病基因锁定则需要用到一系列专业算法及实验设计;在能源行业,智能电网中的电力调度,则需要通过无数的传感器数据预测下一时刻电网中各节点的配电需求,这就要求系统对于实时海量数据的高效处理能力,以及预测算法的精准。

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章