大数据时代 是什么让你的数据准备跑偏了?_行业资讯_关于我们_山东普邦信息技术有限公司官方网站

大数据时代 是什么让你的数据准备跑偏了?

文章来源:本站   日期:2017-08-21 15:51   作者:pubang

我们常说,机会总是留给有准备的人。这句话同样适用于大数据分析,数据准备在大数据分析的过程中虽然很少被完全忽视,但也常常会

被低估。

数据准备过程可能是企业从高级分析技术获得商业利益(如增加收入,提高运营效率,改善决策等)的绊脚石。随着大数据环境的不断发展,集成和准备分析数据的工作正在发生显著的变化。在前端有更多样化的数据来源,这些数据丰富了大数据分析,也颠覆了传统的数据管道,进入企业数据仓库的单向数据流的方式正在衰落。在大数据的世界中,数据通常需要在数据仓库,Hadoop集群,Spark系统和其他平台之间来回迁移,以支持不同的分析应用程序。在后端还有更多的数据可以服务于人们对数据使用的需求。例如,数据科学家可能想要访问原始数据,以便根据需要对其进行过滤,从而支持特定的预测分析或机器学习应用程序。与典型的业务分析师的需求相比,这会创建更多的数据准备导航步骤。为了满足这些越来越复杂的需求,一个数据管道可以支持大量的自动化操作,作为数据准备的一部分,而另一个数据管道可能必须实现结构化,帮助数据科学家能够在沙箱的数据分析,这要与主数据存储隔离或是在单独的系统上进行设置。对于IT团队来说,这意味着将多种功能结合到数据工作流中,以确保不同的分析用户可以访问正在查找的信息。数据挑战不仅仅是大小的问题

来自某保险公司的数据架构主管Jason Brannon 表示:“大数据的崛起不仅仅表现在数据的大小上,它还关系到数据源的多样化。”

Jason所在的保险公司提供定期寿险策略和各种医疗保险选项,旨在对事故、严重疾病和其他健康问题进行初级的补充覆盖。保险公司的业务需要公司和业务合作伙伴及其客户之间的保险注册信息保持同步。从数据处理和分析的角度来看,“这样的需求是日益增长的,”Jason说。Brosp Christoval是Flyspan系统公司(该公司的业务主要围绕无人机展开,为用户提供无人机的商业价值)的创始人和首席执行官,对

他来说用于分析所需的各种数据准备也是一个问题。他的公司正在为商业无人机行业建立一个数据分析平台。该系统称为FlyView,目前正在设置通过物联网(IoT)从无人机获取大量传感器数据。这样一来,在各个有着大量无人机的公司中,分析团队就能够对数据进行拖拽,以分析现场的无人机活动,并支持设备上的预测性维护“我们所做的工作需要处理视频数据流,遥测数据和它们之间的一切,”Christoval说,增加使用JavaScript Object Notation(JSON)数据交换格式可能会为遥测等事件带来统一性。但物联网和无人机行业都是相对较新的,Christoval希望数据类型的差异遵循一定的规则,而不是让Flyspan及其客户成为例外。

数据准备软件选项增加

IBM,Informatica,SAS,Syncsort和Pentaho等已经成熟的数据管理供应商为帮助用户处理日益增长的数据流量提供了工具。但是,近

年来对于采取多样化的数据并为不同的用途做好准备的迫切需求使得一些新的供应商通过自助数据准备软件和其他技术参与到竞争中来,这些竞争者包括Alation,Alteryx,Attivio,Datameer,Looker,Paxata,RedPoint Global,Tamr和Trifacta USAble Life的数据管理团队使用Pentaho的同名软件,而Brannon表示,该软件在减少脚本提取,转换和加载(ETL)等集成作业相关的工作中特别有帮助。例如,Pentaho在2016年4月添加的所谓的元数据注入功能会自动执行ETL和数据准备步骤,从而提高了重复工作流程的速度。

“该软件使USAble的开发人员免于必须支持一种形式的脚本进行文件操作,而用另一种脚本进行ETL,”Brannon解释道。因此,它简化了开发过程,能够更好对数据的需求进行响应。从数据整合和准备周期中削减时间对他来说尤为重要,因为他必须满足内部和外部用户对分析数据的需求。

Christoval在Flyspan看到了Trifacta软件的好处,即它有能力为数据准备过程提供一个全面的视图并将所需步骤自动化。“它可以让我们从遥测中获取不同类型的数据,从原始数据中提取决策者所需的数据。”

数据准备的自动化

随着越来越多的数据需要被更快地处理,这种自动化变得越发的迫切。

David Stodder是一家IT研究和教育服务提供商TDWI的主管,TDWI也为其公司的自动化方法和对大数据和高级分析应用的关注贡献了自

助数据准备工具。“他们都试图减少所需的步骤,使事情更可重复和更容易,”他说,比起主流商业智能和报告,它对于涉及大量和多样化的数据集的预测分析和机器学习来说更加重要

TDWI在2016年7月发布的一份报告表明,越来越需要将不同类型的数据混合并加以分析,这与IT和分析团队在这方面面临的挑战如出一

在该报告中,Stodder写道,用户越来越想看到数据的集成视图,以帮助他们识别关系,相关性和趋势。根据报告的一项调查,关系数据库

和数据仓库引导的一系列数据源让自助数据准备成为可能,这并不奇怪。但是,JSON,点击流,社交媒体和实时流数据是调查受访者添加到分析组合中的较新类型的信息。

尽管如此,在许多企业中,“很多用户每天都在处理数据混乱,”Stodder写道。 在411个受访者中,只有43%的受访者表示,他们的用

户对于能够轻松地找到和了解相关数据感到满意;另一方面,37%的用户表示有点不满或不满意。不断增长的数据需求和相关问题促使公司重新思考传统的数据准备流程。Stodder指出,适当的改进可以帮助业务和IT变得更高效。

分享到: