由 AI技术驱动的软件公司Sightcorp通过创造性地迭代和改进了面部分析和识别软件的检测方面,这要归功于他们对深度学习的独特关注 ,而不是传统的Haar Cascade检测器方法。这是在Sightcorp努力为希望对转瞬即逝的交互获得更深入洞察的用户增强其AI驱动的软件的有效性之后所进行的。
从捕获和量化情绪和心情,到分析人口统计信息,并提供有关客户关注范围的可操作且可靠的数据,Sightcorp旨在为用户提供尽可能多的洞察力,以做出明智的预测性决策。该计划的重点是深化软件以更高的准确性,速度和粒度来检测各种头部姿势下的面部的能力。对于Sightcorp而言,这不仅关系到他们的声誉,而且在各种应用中使用基于AI的面部检测解决方案的目标有了更大的成就。
事实是,并非所有面孔和行为都是相同的。也不能期望所有面孔在任何时候都完全可见。例如,在一些东方,戴上口罩很难检测到面部的存在。除此之外,在不同的图像和视频分辨率,距离,光线条件,摄像机角度和头部姿势方面,准确性的难题也很严重。
Sightcorp决定通过引入一种新方法,在成为主要问题之前决定直面解决这一问题。首先,Sightcorp团队决定解决各种头部姿势变化中的面部检测性能测量问题。
由于大多数现代数据集已经在批注中包含了有关头部姿势的注释,因此Sightcorp有一个工作基准。使用WIDER FACE数据集(包括“典型姿势”或“非典型姿势”的标签)和VGGFace数据集(将姿势分为“前”,“四分之三”和“轮廓”)的集,Sightcorp获得了清晰可见:他们自己的解决方案需要通过在横摆,俯仰和横摇的颗粒变化范围内量化检测性能来取得进步。
这个新的重点将给予球队一个额外的好处:测试时,事情对 没有 工作。如果存在某些偏航,俯仰和横滚不起作用的值,则可以记录下来。他们还可以测量偏航,俯仰和横滚的截止值,超过此范围,他们将需要提高检测过程的鲁棒性。于是他们卷起袖子开始工作。该团队使用了来自INRIA Rhone-Alpes的Prima项目的“头部姿势图像数据库”,这是一个“头部姿势数据库”,该基准是15个人的2790个单眼面部图像的基准,其摇摄和倾斜角度在-90到+90度之间变化。对于每个人,都可以使用2系列93幅图像(93种不同的姿势)。”
利用Python的便捷功能,该团队设计了一个小脚本来创建地面真实CSV文件,该文件具有该数据集中每个文件的路径以及相应的俯仰和偏航值。Head Pose数据集是不可或缺的,对于该计划的成功是绝对有价值的,因为它将偏航和俯仰编码为文件名。
接下来,对于每个偏航和俯仰值,至少有30张图像。这就是真正获得数据的粒度。但这不仅仅是考虑每种变化。这是关于创建一个基准,然后该基准允许该软件的AI方面接管工作,对图像集运行其自己的“学习”过程,而不仅仅是代码编写的脚本。对于这些图像,面部检测器应该能够针对偏航和俯仰的每种组合检测30个面部。基准测试脚本读取文件后,它将在path列下的每个图像上运行面部检测器,并返回检测到的具体面部数量。
现在,如果仅检测到一张脸,则输出还将包括脸矩形(x,y,宽度,高度)。并且,为了具体地可视化他们自己的,新设计的解决方案的准确性,而不是“经典的” Haar Cascade方法,该团队通过热图重新格式化了数据。结果是惊人的。
通过热图,可以清楚地看到,使用Haar级联方法时,在10×10的网格中超过30%的正方形返回的结果没有任何检测(检测到0%的面)。显然,Haar Cascade探测器对于正面和略微侧向的脸部,正如预期的那样,工作得相当好。事实证明,这个问题是极端头部姿势的标志。在此,测量性能“迅速”下降。
另一方面,Sightcorp自己的解决方案(新铸造的“深度学习人脸检测器”)的结果返回了一个10×10的网格,几乎包含了100%的人脸检测全套。这是与众不同的,这使Sightcorp在校准“极端”头部姿势方面具有显着的优势-这是已经充分发挥作用的解决方案中的又一根羽毛。
团队说:“这些可视化技术使我们对人脸检测器可以做得更好的头部姿势有切实可行的见解。” 对于Sightcorp,这只是一小步。对于其用户而言,这是一次巨大的飞跃-该平台已用于零售和数字标牌,情感识别,注意力时间和多人跟踪。通过这种深度学习面部检测测量,Sightcorp现在能够确保不仅捕获头部位置和凝视,还可以将其转换为更多可用数据。
实际上,Sightcorp首席执行官乔伊斯·卡拉多纳(Joyce Caradonna)说:“我为团队通过这种面部检测模型所取得的成就感到非常自豪。这项改进不仅增强了软件的核心承诺,还改变了数据集的使用方式,为必将出现的下一代可比分析平台提供了创新基础。”