Apache Spark的内存存储Alluxio即将发布1.0版

随着Hadoop文件系统在Spark采用者中继续失去吸引力,新的和更复杂的存储框架开始取代它。 最受欢迎的选择之一是开源的Alluxio(以前被称为Tachyon),它今天上午在一个专门的基金会的机翼下移动,因为它的第一个主要版本击中了一般可用性。

这次发射是一项为期三年的发展努力的高潮,这项努力得到了技术界一些最大的名字的支持,这些名字始于加州大学伯克利分校的一位博士生的工作。 李浩源在大学AMPlab的研究中亲眼目睹了Spark的兴起,在该校,分析引擎于2010年启动,并发现了阻碍早期实现尝试的瓶颈:当时能够有效支持内存中处理的少数数据存储都依赖于容错复制。

星火集群中的记录将被复制到多个服务器上,以确保如果节点故障,它们仍然可以被访问。 尽管各组织正在处理的信息量以加速的速度增长,但这种方法仍然是目前维持分析引擎可靠性的首选方法。 因此,越来越多的带宽被用于复制数据,这使得其他任务的带宽越来越少,从而最终阻碍了处理。 浩源预见了这一挑战,并设计了一种替代的容错技术,将继续形成Alluxio的基础。

该平台将从Spark在一个特殊的日志中接收到的每一个更改都注册到一个记录中,该日志在任何时候都可以随时访问。 如果承载文件的服务器在分析过程中失败,Alluxio可以让另一台机器拿起松弛,重新执行在故障运行中执行的所有计算,并继续从那里好像什么都没有发生。 该机制利用了企业处理能力比带宽丰富得多的事实,大大提高了集群性能。

业巨头巴克莱集团(Barclays PLC)声称,其数据科学家能够利用Alluxio将某些分析的持续时间从小时缩短到分钟。 该框架使开发人员能够更快地工作,将其内部的复杂性隐藏在编程接口后面,从而使控制信息流相对简单。 记录可以从各种第三方系统导入内存,并在处理完成后自动移动到磁盘永久存储。

Alluxio可以自己处理后一项任务,或者将分析的数据重新传递给常规文件系统,如Gluster FS和Open StackSwift。 该框架还提供了大量开放式执行引擎的集成,以适应那些需求可能无法完全满足的组织。

(0)
上一篇 2022年4月6日
下一篇 2022年4月6日

相关推荐