更好的可扩展性 让语义技术逐步敲开了企业的大门_行业资讯_关于我们_山东普邦信息技术有限公司官方网站

更好的可扩展性 让语义技术逐步敲开了企业的大门

文章来源:本站   日期:2017-08-21 15:51   作者:pubang

Cambridge Semantics的 CTO Sean Martin 表示,更好的可扩展性可以带来更丰富的数据展示。扩展性的提升是当下企业对语义技术重拾兴趣的动力之一。

在图形数据领域,一些企业开始逐渐关注语义技术。语义方法有助于改进数据分析的关联方法,但使用者还必须克服一些障碍。为了更好的了解图形数据领域的发展情况,TechTarget记者采访了语义技术领域的顶尖专家之一——Cambridge Semantics的首席技术官Sean Martin。Sean Martin曾在IBM从事过多年的相关技术研究工作,后来在2007年成立了ambridge Semantics,以便进一步研究企业领域图形数据和语义技术。

他表示,可扩展性一直是一个挑战,他一直在致力于提升可扩展性。他的公司去年发布了Anzo Smart Data Lake,基于内存大规模并行处理(MPP)图形数据库引擎。该产品来自于2015年Cambridge Semantic对SPARQL City的收购,其主要基于Netezza和ParAccel等技术。Anzo Smart Data Lake使用 Resource Description Framework/SPARQL标准来进行数据存储和查询。

图形和语义技术已经发展了很长的时间,但最近这两种技术似乎有联合的迹象。这是真的吗?Sean Martin:语义标准在15年前或更久以前就出现了,但其一直被可扩展性掣肘。现在,图形技术取得了长足进步。大多数人一直希望使用图形技术进行在线事务处理。我们的重点一直在在线分析处理,使用图形技术进行分析。

阻止图形技术应用于分析的一直都是可扩展性问题。这些年曾数次有人表示攻克了这一难题,但问题都依然存在。在小规模数据集上,你可能会看到惊人的进步,但在企业这种大规模数据集上却发展缓慢。而现在,我们将查询技术和MPP技术应用到图形技术中。现在,大数据规模上的图形技术也取得了显而易见的进步。

从我们的视角来看,现在已经具备了应对数据仓库负载的能力,我们可以实现复杂的数据湖泊,图形是其中一个很大的元素。不过,我们看到一些人使用图形技术的同时,还使用其他技术来规避风险;如运用图形技术的同时,使用Hadoop类软件用于分析。

语义技术给企业带来了什么?它的意义是什么?

Sean Martin:你会看到更丰富的数据表示。人们目前面临的一个问题是,使用传统的工具集进行数据展示,其形式相当有限。对于当前的数据,这些数据展示方式已经不实用了。人们可以创建非常复杂的关系结构,但结构越丰富,数据类型越多,存储并查询这些数据就变得越复杂,你需要创建许多不同的表结构,围绕数据的实际存储,又会产生一系列的问题。因此,实际上,使用传统的工具,是无法简单且生动的对数据进行描述的。

今天企业使用的关系工具或表格工具也很难从文本中提取数据并完成丰富的数据表示。也许有时候通过一定的努力可以实现,但这是不切实际的。

同时,用户可能需要不同的数据切片。现在,对信息的多维抽取需求越来越多。

另一个问题是,人们不断地想从其他外部数据源中获取数据。这些都是现在语义技术要解决的问题。

许多技术现在已经逐渐成熟,你认为哪些因素有助于这些系统的成功?

Martin:现在有了一系列标准。OWL(Web Ontology Language),它是一种建模语言。它使得用户能够描述其希望看到的数据类型,并描述数据与其他实体的关系。

OWL的关键在于是它对数据的存储和查询是中立的。它可以作为一个数据存储的模板。这是一个开放的标准,有很多遵循OWL标准的工具。这是一个很好的共享模型。它被应用在不同的领域,例如在金融服务业使用的Financial Industry Business Ontology模型就遵循这一标准。

第二个技术是图形存储。但它多年来依然没有很好的可伸缩性。这就阻碍了语义技术的应用。特别是对于计算密集型和存储密集型的应用,如数据仓库和数据集市,超出了语义技术应用规模。但现在的一些新兴技术,包括内存技术,商业CPU核心,快速互连,云物联网,已经为语义技术的发展创造了良好的条件。

此外,还有一项技术,就是SPARQL,该技术是SQL应用到图形数据领域的关键因素。它是与远程数据库交换数据的标准协议,也是一种查询语言。它可以做任何SQL能为你做的事,在关系查询上,它具有更好的性能。它也更容易实现自动代码生成和用户界面构建。

所以,有了OWL,你就相当于有了一把万用钥匙,无需专门学习SPARQL,你就可以轻松使用它。

我认为“关系”对于图形数据库来说同样有好处,您觉得呢?

Martin:正如我的一个同事也指出,在关系数据库中,当你考虑关系时,你必须明确地知道数据是如何关联的,而使用SPARQL,你可以做一个查询,给出条件“给我所有的一切与此相关的东西”,它将为你列出所有相关数据。而在关系技术中,你实现必须知道所有的关联方式,然后根据每个关联进行单独的查询。

分享到: