他们的新颖框架在不牺牲公共监视任务效率的情况下实现了最先进的性能。实现可以同时跟踪多个对象的算法对于解锁从自动驾驶到高级公共监控的许多应用程序至关重要。然而,计算机很难根据它们的外观来区分检测到的对象。现在,光州科学技术研究院 (GIST) 的研究人员在多目标跟踪框架中采用了深度学习技术,克服了短期遮挡问题,在不牺牲计算速度的情况下实现了卓越的性能。
计算机视觉在过去十年中取得了很大进展,并进入了学术界和我们日常生活中的各种相关应用程序。然而,该领域中的一些任务对于计算机来说仍然极其难以以可接受的精度和速度执行。一个例子是对象跟踪,它涉及识别视频片段中的持久对象并跟踪它们的移动。虽然计算机可以同时跟踪比人类更多的物体,但它们通常无法区分不同物体的外观。这反过来又会导致算法混淆场景中的对象并最终产生不正确的跟踪结果。
在韩国光州科学技术学院,由 Moongu Jeon 教授领导的一组研究人员试图通过将深度学习技术融入多目标跟踪框架来解决这些问题。在最近发表在《信息科学》上的一项研究中,他们提出了一种新的跟踪模型,该模型基于一种他们称为“深度时间外观匹配关联 (Deep-TAMA)”的技术,该技术有望为多对象跟踪中一些最普遍的问题提供创新的解决方案。这篇论文于 2020 年 10 月在线发布,并于 2021 年 6 月发表在该杂志的第 561 卷中。
传统的跟踪方法通过将边界框与每个检测到的对象相关联并建立几何约束来确定对象轨迹。这种方法的固有困难在于将先前跟踪的对象与当前帧中检测到的对象准确匹配。由于光照条件和遮挡的变化,基于手工制作的特征(如颜色)区分检测到的对象通常会失败。因此,研究人员专注于使跟踪模型能够准确提取检测到的物体的已知特征,并将它们不仅与帧中其他物体的特征进行比较,而且还与已知特征的记录历史进行比较。为此,他们将联合推理神经网络 (JI-Nets) 与长短期记忆网络 (LSTMs) 结合起来。
LSTM 有助于将存储的外观与当前帧中的外观相关联,而 JI-Net 允许从头开始同时比较两个检测到的对象的外观——这是这种新方法最独特的方面之一。以这种方式使用历史外观允许算法克服被跟踪对象的短期遮挡。“与独立地从每个对象中预先提取特征的传统方法相比,所提出的联合推理方法在公共监视任务中表现出更好的准确性,即行人跟踪,”全博士强调。此外,研究人员还通过采用基于索引的 GPU 并行化来减少计算时间,从而抵消了深度学习的主要缺点——低速。对公共监控数据集的测试证实,提议的跟踪框架提供了最先进的准确性,因此可以部署。
多目标跟踪解锁了从自动驾驶到公共监控的众多应用,可以帮助打击并降低事故频率。“我们相信我们的方法可以激励其他研究人员开发基于深度学习的新颖方法,以最终改善公共安全,”Jeon 博士总结道。对于每个人“的缘故,让我们希望他们的愿景早日成为现实!