数据融合:处理分布式计算的规模

我们生活在一场数据爆炸中。现在正在创造比以往任何时候都更多的信息。网络化的设备比以往任何时候都多。这种趋势很可能会持续到未来。虽然这使公司易于收集数据，但也带来了纯粹规模的挑战。企业如何处理来自数百万，可能是数十亿来源的数据？

为了深入了解分布式数据收集的前沿，来自硅钢媒体团队的共同主办人JeffFrick（@JeffFrick）访问了加州旧金山的首席数据科学家活动。在那里，他会见了山姆莱特斯通，杰出的工程师和首席建筑师数据仓库在IBM。

讨论以最近宣布的一项名为“数据汇合”的概念技术开始。莱特斯通解释说，数据汇合是他们在IBM酝酿的一个全新想法。它来自于一种意识，即大量的数据即将来自手机、汽车、智能眼镜等分布式来源的业务。

“这真的是一大堆数据，”Lightstone说。

数据融合背后的思想是将数据留在原地。莱特斯通将其描述为允许数据源在计算网格中相互查找和协作处理数据科学问题。

莱特斯通提到了这一概念的一个巨大优势，它能够带来数十万个，甚至数百万个处理器来处理它所居住的数据。他称这是一个非常强大和必要的概念。这样的网络必须是自动的，才能扩展到数十万个设备。

这样一个系统的复杂性对人类来说太多了。莱特斯通说，他的目标是使这种自动和弹性，适应状态的设备连接它。他说，随着数据的融合，他们希望利用物联网、企业和云用例的数据科学。

*披露：Corinium Global Intelligence和其他公司赞助了一些首席数据科学家，部分关于硅钢媒体的CUBE。无论是CoriniumGlobal Intelligence还是其他赞助商，都没有编辑控制权。