Google使软件开发人员更容易编写应用程序并将其与其Cloud Dataflow托管服务集成,以处理大型数据集。该公司于12月18日向开源社区发布了一个用于Cloud Dataflow的Java软件开发套件,该套件描述为旨在推动围绕该技术的应用程序开发的工作。
Google软件工程师Sam McVeety在博客中表示,将SDK开源后,其想法还在于帮助开发人员将Cloud Dataflow移植到其他语言和其他服务执行环境。
McVeety写道:“可重用的编程模式是提高开发人员效率的关键因素。” 他说:“ Cloud Dataflow SDK引入了用于批处理和流数据处理的统一模型”,开发人员可以通过创新的新方式加以利用。
McVeety说:“我们期待着共同构建一个系统,该系统能够为所有背景的用户提供分布式数据处理。”
谷歌在6月的Google I / O会议上宣布了Cloud Dataflow,这是一项托管服务,可帮助企业实时和以批处理方式提取和分析大量数据集。
该公司将 Cloud Dataflow 描述为基于MapReduce的技术以及Flume和MillWheel等最新技术,Google在内部使用了所有这些技术来分析真正的海量数据存储。
通过整合所有这些技术的要素,Google希望提供一种数据处理服务,从而使公司能够灵活地对大型数据集进行批处理分析,以及对流进数据库的数据进行近乎实时的分析。它还将使公司能够摄取数据并分阶段存储数据,以供其他分析工具和服务(例如Google自己的BigQuery)使用。
对于希望从大数据中获取业务价值的公司而言,这种功能至关重要。云服务,移动设备和传感器技术的激增使企业可以从无数来源收集越来越多的数据。挑战一直是寻找一种方法来组织和管理数据,从而从中获取业务价值。
亚马逊是最大的云服务提供商之一,已经提供了一项称为Kinesis的托管服务,该服务类似于Google计划通过Cloud Dataflow推出的服务。亚马逊将Kinesis视为一项用于大规模实时处理流数据的服务。它旨在作为一项服务来帮助公司捕获,存储和分析从在线交易,Web日志,社交媒体源和移动设备中提取的TB级数据。
借助Cloud Dataflow,Google希望能够为开发人员和企业提供类似的功能。McVeety在他的博客文章中指出:“数据的价值在于分析-以及分析所产生的情报。
“随着数据集变得庞大并分布在不同的存储系统中,将数据转换为智能可能会非常具有挑战性。此外,对实时分析的需求不断增长,从数据集提取价值的障碍也对开发人员构成了巨大的挑战,”他说。