Apache Spark的内存存储Alluxio即将发布1.0版

随着Hadoop文件系统在Spark采用者中继续失去吸引力，新的和更复杂的存储框架开始取代它。最受欢迎的选择之一是开源的Alluxio(以前被称为Tachyon)，它今天上午在一个专门的基金会的机翼下移动，因为它的第一个主要版本击中了一般可用性。

这次发射是一项为期三年的发展努力的高潮，这项努力得到了技术界一些最大的名字的支持，这些名字始于加州大学伯克利分校的一位博士生的工作。李浩源在大学AMPlab的研究中亲眼目睹了Spark的兴起，在该校，分析引擎于2010年启动，并发现了阻碍早期实现尝试的瓶颈：当时能够有效支持内存中处理的少数数据存储都依赖于容错复制。

星火集群中的记录将被复制到多个服务器上，以确保如果节点故障，它们仍然可以被访问。尽管各组织正在处理的信息量以加速的速度增长，但这种方法仍然是目前维持分析引擎可靠性的首选方法。因此，越来越多的带宽被用于复制数据，这使得其他任务的带宽越来越少，从而最终阻碍了处理。浩源预见了这一挑战，并设计了一种替代的容错技术，将继续形成Alluxio的基础。

该平台将从Spark在一个特殊的日志中接收到的每一个更改都注册到一个记录中，该日志在任何时候都可以随时访问。如果承载文件的服务器在分析过程中失败，Alluxio可以让另一台机器拿起松弛，重新执行在故障运行中执行的所有计算，并继续从那里好像什么都没有发生。该机制利用了企业处理能力比带宽丰富得多的事实，大大提高了集群性能。

业巨头巴克莱集团(Barclays PLC)声称，其数据科学家能够利用Alluxio将某些分析的持续时间从小时缩短到分钟。该框架使开发人员能够更快地工作，将其内部的复杂性隐藏在编程接口后面，从而使控制信息流相对简单。记录可以从各种第三方系统导入内存，并在处理完成后自动移动到磁盘永久存储。

Alluxio可以自己处理后一项任务，或者将分析的数据重新传递给常规文件系统，如Gluster FS和Open StackSwift。该框架还提供了大量开放式执行引擎的集成，以适应那些需求可能无法完全满足的组织。

Apache Spark的内存存储Alluxio即将发布1.0版

相关推荐