通过一种称为细胞绘画的技术,Recursion Pharmaceuticals正在创造一个真实的身体细胞形态图。但那只是一个开始; 真正困难的部分是知道如何通过机器学习提问图像的问题,以及如何管理数PB的数据。当机器学习应用于特定的工业领域时,定义目标是最突出的问题之一。你想知道什么?在生物科学领域,这可能是一个非常棘手的问题,因为六年前的创业公司Recursion Pharmaceuticals从经验中学到了很多东西。数据量迅速扩大,并且知道如何构建一个能够从数据中获得洞察力的目标是一件艺术。
“它仍然是一个大数据问题,”Recursion的首席技术专家Mason Victors表示,该公司位于犹他州盐湖城。他在接受ZDNet采访时说:“我们已经选择了大量的生物学技术来开发我们的平台多年。” 这带来了挑战。
该公司每周收集65TB的数据,并存储在谷歌的云计算设施中。递归在四年多一点的时间内积累了大约2.5 PB的信息。
递归试图做两件互补但又雄心勃勃的事情。名义上,Recursion的使命是找到治疗疾病的方法,以减少昂贵的开发渠道。
细胞绘画图像递归-2019.png
用多种荧光染料染色的人肾细胞的图像。在Recursion采用的细胞绘制方法中,目标是识别机器学习程序随后可以分析的少数几个或几千个细胞特征。
递归药物
作为联合创始人兼首席执行官克里斯吉布森在接受ZDNet采访时解释说,该公司的“二十年”愿景是能够“预测任何大小分子对任何的影响”。细胞。这是他和胜利者所称的所有人类细胞生物学的地图,尽可能多的细节关于细胞的“形态”,它们的形状和结构。
递归已经为这个非常大的数据科学项目获得了大量资金。它最近在由英国投资基金Baillie Gifford领导的C轮融资中获得了1.21亿美元的风险资金,迄今为止总投资额达2亿美元。
在管理创建所有人体细胞图的雄心勃勃的项目的同时寻找治疗方法是一种平衡行为,其中目标函数可以很简单,但数据管理可能非常复杂。
另外:人工智能先驱Sejnowski说这完全是关于渐变的
大数据
数据和人工智能市场格局2019:下一波混合出现
数字化转型:一家如何使用人工智能,大数据和聊天机制来创建新服务
将大数据转化为业务见解
黑客攻击:数十年的数据消失,无法实现复苏(ZDNet YouTube)
FaceApp是一个测试。我们没通过(CNET)
如何作为数据科学家失败:3个常见错误(TechRepublic)
它开始于一个称为“细胞绘画”的程序,它覆盖尽可能多的荧光模具中的细胞,以显示细胞结构的各个方面。细胞绘画是麻省理工学院麻省理工学院和哈佛大学的安妮卡彭特在马萨诸塞州剑桥开发的,他在那里经营着卡彭特实验室。她创建的软件“CellProfiler” 可免费下载。
绘制细胞超出了细胞的典型“筛选”,旨在挑选出一些特征。相反,创建细胞“轮廓”的过程量化了数百或数千个关于细胞结构的特征,然后可以将其作为输入引入机器学习模型,进而发现随着扰动而变化的感兴趣特征。扰动可能包括改变细胞RNA以了解它如何改变细胞结构。
吉布森在犹他大学攻读博士学位时首次发现了卡彭特的方法。“这是拍摄细胞照片的一种奇特方式,”吉布森说,但这对他来说也是一种启示。他回忆起使用蛋白质印迹技术来探索一种称为“ 脑海绵状血管畸形 ” 的病症,即CCM,其中大脑中的血管变形,这可能导致相当于微型中风。蛋白质印迹方法很繁琐,一次检测一种蛋白质。
递归首席执行官克里斯吉布森在攻读博士学位时遇到了各种各样的顿悟,并遇到了安妮卡彭特的染色细胞创造大量剖面的技术。他在此基础上创立了公司,关于细胞形态学的更多信息可以为疾病提供新的线索。
递归药物
“我们已经熟悉了Carpenter的方法,在那里她能够将东西送入机器分类器,”他回忆说,并且可以同时自动检测多种分子。Gibson和他的导师,当时的大学医学和生物学教授Dean Li尝试了这种方法。细胞绘画能够在CCM的痕迹中确认Gibson的一些预感,但是,“它看到了我没有看到的东西,”他在将机器学习应用于信息丰富的图像时说。Gibson与Li一起创建了Recursion,其前提是细胞丰富的图片可以产生原始的洞察力,而定期筛查不能。第三位联合创始人,生物信息学家Blake Borgeson加入了他们的行列。
Carpenter是该公司的科学和技术顾问。其他顾问包括着名的深度学习研究员Yoshua Bengio,蒙特利尔着名的MILA机器学习机构负责人,以及今年ACM图灵终身计算机科学成就奖的三位获奖者之一,以及Facebook的Yann LeCun和大学的Geoffrey Hinton多伦多
从细胞绘画中,应用机器学习来梳理一些可能很重要的基本关系。“重要的是你训练网络的任务是什么,你如何找到你关心的事情,”CTO Victors说道,他拥有杨百翰大学的数学硕士学位,曾担任过数据科学家。初创公司。
另外: Instagram预测流感。谁知道?我知道,那是谁
一个直截了当的问题是,这些细胞看起来一样吗?“你向网络提供三胞胎的细胞,其中两个应该是相似的,第三个应该是不同的,”他解释道。三元组是将细胞绘画的特征编码为“嵌入”的结果,或者是Victors将它们置于“潜在表示空间”中的结果。可以使用一些非常简单的统计方法,例如测量不同细胞的特征之间的“角距离”。
他说:“我们在几何学建模方面发现了很多牵引力。” “与欧几里德距离相反,角距离确实是一个有用的指标。”
但仅仅测量特征是不够的,这就是为什么公司维持一个“湿实验室”,在那里可以在体外试验扰动以观察给定分子如何响应化合物。Victors表示,从巨大的数据中汲取意义的舞蹈是一件大事,它使公司在生物学和医学的AI中脱颖而出。
Victors观察到,“药物发现中的其他群体被手铐绑在他们无法控制的现有静态数据集上”,而递归正在不断产生新的数据。因此,他坚持认为,公司不仅可以培训,还可以更加谨慎地验证机器学习模型。
“它归结为能够以极其巨大的规模生成数据,并在紧密的反馈循环中生成数据,”他说。“它通常涉及数据科学家,机器学习专家和生命科学专家之间的紧密合作,以弄清楚我们如何实际模拟生物学本身,以及这对分析的影响是什么我们采纳。“
“从商业角度来看,它让我们能够以一种非常有效的方式迅速追踪潜在的候选药物,”Victors说。“我们可以进行实验来生成数据,以确定我们是否认为这种化合物具有潜在的有效性,然后如果我们这样做,可以通过增加剂量和更多重复进行更深入的研究,以验证其他疾病试剂,看看我们是否在那里看到类似的功效。“
“我们不必外包所有这些,”他指出,体外测试和筛选,“因此我们可以消除更长的等待时间和它带来的成本。”
递归首席技术专家梅森·维克托斯(Mason Victors)不仅要教导每周收集的65TB数据的含义,还要管理积累的2.5PB生物数据库存。
递归药物
Victors表示,它不仅仅是一个湿实验室,还有“必须构建的所有工程基础设施来处理大量的流数据”,换句话说,大数据挑战。“这是关于如何处理数据,将其传输到云,将其存储在那里,它是关于具有可扩展的分布式系统,然后以适当的格式返回数据以进行一次性或临时分析 – 所有这些由于我们正在努力实现的目标的总体范围和雄心,这也是一个巨大的挑战。“
控制数据非常重要,因为公司可以留意数据分布随时间的变化。“当我们改进我们使用的生物工具时,为了更加具体和有选择性,这可能导致与过去不同的分布,”Victors观察到。了解数据的“复古”,如果您愿意,公司可以调整其分析,以考虑这种偏差可能如何影响机器学习。由于大部分AI都受到数据中小的统计变化的影响,因此认识到诸如分布变化之类的事物可能会在模型中获得有用的分析。
大数据工作的一个结果是一个新的公开数据集,Recursion 在5月发布,称为RxRx1。它包含300千兆字节的超过100,000张“代表不同生物背景的图像”。递归希望数据集能够刺激研究人员开发新的机器学习技术。它是在当月的学习代表国际会议上宣布的。
递归在今天的机器学习中需要做的大部分,例如三胞胎的角距离,不需要深度学习的AI,相反,它可以用非常基本的工具来完成。“深度学习方法不是我们在这里所做的大部分工作,”Victors说。“我们在那里找到了互补信号,但标准方法可以让你获得90%的信号。”
他指出,深度学习存在问题。“变分自动编码器”是一种流行的无监督深度学习形式,可能会产生问题,因为它没有足够的选择性。
“任何时候你生成生物数据,都会产生批量效应,”Victors指出。“这些只是由于实验过程本身造成的滋扰因素 – 比如,此时温度不同,湿度不同,或者细胞处理的时间比之前的时间长。”
变量自动编码器“也将学习如何在表示中表示那些你不想要的批处理效果,”他指出。
扰动给定分子并观察发生的事情的过程听起来有点像机器学习领域中的“强化学习”。正如Victors所描述的那样,有一种“状态 – 行动”模型,与强化学习中的概念相同。“我们使用我们的图像来表示细胞状态的快照,然后我们可以通过引入扰动来对这些细胞状态起作用,并学习行动的意义。”
但是,他急忙补充说,它“在很多方面与强化学习完全不同 – 它不仅仅是学习状态 – 行动关系,我们还必须确保进入这些功能的数据配对得恰到好处。”
特色
人工智能与商业的未来
人工智能与商业的未来
机器学习,任务自动化和机器人技术已经广泛应用于商业领域。这些和其他人工智能技术即将繁衍,我们将研究组织如何最好地利用它们。
阅读更多
他认为,从长远来看,在创建统一的细胞生物学图谱方面有深层学习的作用。
“我们希望深度学习真正有效的一个领域是创建一个通用的潜在表示空间,一个所有数据所在的空间,你没有学过你不想知道的东西,只学习你想要的东西知道,跨越时间和跨越不同条件的实验,距离和相似性意味着在这个空间中的某些东西 – 这仍然是为此目的进行积极研究的领域。“
首席执行官吉布森说,所有这些都可以追溯到发现的临床效用。他指出,“试剂并不完美,它们很杂乱,我们必须有一个非常严格的门槛”,对计算机发现的内容具有统计信心。“我担心这个行业有很多过度适应的事情,”他谈到生物学中的机器学习。“有很多机器学习应用于静态的公共数据集。” 吉布森表示有信心该公司没有陷入这个陷阱,部分原因是该公司已经回顾性地将其工具应用于一些已知数据,并提出了与已知数据相匹配的药物与疾病之间的关系,显示该过程有效。
正如他所说,真正的考验在于人,这需要资金和伙伴关系。利用它的资本,Recursion正处于CCM治疗的第一阶段临床试验中,当Gibson有关于细胞绘画和大数据的顿悟时,他正在研究这个问题。该公司还正在准备一项治疗神经退行性疾病(II型神经纤维瘤病)的II期临床试验。(关于Recursion管道的信息可以在公司网站上找到。)
就试验成本而言,这类疾病的资源密集程度较低。更大的项目需要更大的口袋,吉布森说,未来两年公司临床结果的巨大收益可能来自与肿瘤学领域的大合作伙伴进行的一项研究。“我们认为它有机会超越其他两个。”
Gibson认为,选择合作伙伴并单独进行某些调查是灵活性,反映了平台的价值。了解数据的特性,并知道如何提出数据的问题,具有可以通过多种方式开采的价值。