Alluxio Inc.开发了一个虚拟分布式文件系统,专门针对数据科学和分析工作负载,该公司今天发布了它所称的自三年多前首次发布以来对其平台最重要的增强。
该公司出售与其同名的开源数据编配技术的商业版本,该技术的前身是Tachyon,它在存储和计算资源之间提供了一个一致的层,使分析应用程序能够快速地访问数据,而不必考虑位置。
Alluxio不依赖于带宽密集型的复制,而是使用一个全局名称空间以及智能缓存和内存中的元数据来跟踪数据的位置和其源数据的更改。Alluxio表示,其技术的开源版本被全球十大互联网公司中的七家使用。
在2.0版本中,这个过程现在可以由用户定义的策略来管理,这些策略在自动进行的基础上自动跨存储系统进行数据移动。新版本还支持跨多个云的数据移动、更好的可伸缩性、集群分区以及通过具象状态传输或REST接口与外部数据源集成。
Alluxio表示,它为困扰大多数大型组织的数据竖井问题提供了一种独特的解决方法。试图构建跨企业运行的分析程序的数据科学家必须处理多个数据源,这些数据源通过部门计划、收购和遗留应用程序涌现出来。数据虚拟化是一种相对较新的解决此问题的方法,它尝试在不需要复制的情况下协调不同的源,这是一个资源密集型的过程,可能会引入危险的数据质量问题。
然而,许多解决方案的目的是优化存储而不是计算,该技术的创始人李浩元(音)说。他在加州大学伯克利分校(University of California at Berkeley)的实验室实验室(samplab)攻读博士学位期间与人合作开发了这项技术。尽管这些方法可能会减少副本并优化存储效率,但它们并不能帮助分析例程更快地运行。
“筒仓是不可避免的,”李说。与其通过创建副本来解决问题,“我们在逻辑上集成了数据,这样您就可以通过软件层作为文件夹来访问它。该软件绑定到分析应用程序,如Apache Spark或Presto,以优化应用层的性能。
Alluxio 2.0中的新策略特性提供了跨任意数量的存储系统(包括本地存储系统和多云存储系统)的热、暖和冷数据的自动分层。用户可以在任何目录和文件夹级别配置策略,以自定义和简化数据访问,单个数据集的定义可以涵盖写入数据或与存储系统同步数据等功能。
当使用基于云的数据源时,用户现在可以划分Alluxio层,这样不同分析框架使用的数据集就不会相互污染。来自外部源的数据也可以通过RESTful接口进行聚合,方法是根据需要将源文件指向Alluxio进行访问。
负责产品管理和营销的副总裁迪普提博卡(Dipti Borkar)说,随着最近向谷歌LLC的开源远程过程框架gRPC的转变,Alluxio现在可以在一个集群中扩展到5000个节点。对开源的RocksDB持久键值存储的支持提高了性能,并允许分层元数据管理扩展到数十亿个文件。
Alluxio提供了一个免费的社区版和一个企业版,具有增强的安全性、额外的编排功能和技术支持。软件被交付到Docker容器中进行内部部署。定价没有指定。