微软的新AI技术可以为人类提供准确的字幕图像

自研究人员开始研究人工智能(AI)以来，主要目标之一一直是先进的图像字幕系统。许多公司正在将自己的宝贵资源投资于AI，以开发越来越好的产品。现在，微软提出了一个新的AI系统，该系统可以比人类更准确地为图像添加字幕和描述图像。

在微软巨头最近宣布通过官方博客留言本的突破。尽管图像字幕是AI系统最难掌握的任务之一，但微软表示，他们的新“增强型图像字幕” AI具有与人类一样出色的图像字幕功能。人工智能技术的这一突破将帮助该公司提升其在市场上的产品和服务。

现在，自动图像字幕听起来可能并不重要，但是请相信我。这项精美的技术可帮助用户访问图像中的内容，无论是在您的画廊中还是在5页文档中的某个位置。例如，当您在图片库中搜索“狗”时，指定的应用程序将使用其图像识别功能来整理其中包含狗的每张图片，然后将其缩小到搜索范围。这是要求系统具有出色图像识别功能的众多任务之一。

微软的新模型可以为其图像生成比其前身更好的字幕。这些标题确实类似于人类为描述图像而写的内容。

因此，如您所见，新的“增强型图像字幕” AI在图像描述方面比以前更加准确。而且，这种新模型甚至可以识别图像的上下文。看看其他图片。

在上面的这张图中，以前的系统在不告诉玩家正在做什么的情况下给出了模糊的描述。但是，新模型知道正在庆祝的球员实际上是足球运动员，而不是棒球运动员!

辅助功能：对于视障人士

现在，这种图像字幕功能对用户很有用，但是对于该技术而言，最重要的人是盲人或视力低下的人。这些人在计算机系统中导航时必须依靠语音命令。因此，图像字幕可帮助他们更轻松地浏览社交媒体或消息。

微软AI部门软件工程师经理Saqib Shaikh表示：“使用图像标题在网页或文档中生成照片描述，称为替换文本，对于盲人或视力低下的人尤其重要，”雷德蒙德

因此，这家Windows制造商现在将这个新的图像字幕AI系统集成到其通话摄像头应用程序Seeing AI中，该应用程序专门为视障人士设计。该应用程序使用AI的图像字幕功能来描述用户的移动设备甚至社交媒体资料中的图片。

除了与Seeing AI应用程序集成外，Microsoft还为Azure AI客户端提供了新的AI系统。现在，它已作为Azure认知服务计算机视觉的一部分存在，并且开发人员可以根据需要在自己的应用程序和服务中使用其功能。

此外，人工智能图像字幕技术还将在今年晚些时候推广到Microsoft Office应用程序，例如Microsoft Word，PowerPoint和Outlook。

微软的新AI技术可以为人类提供准确的字幕图像

相关推荐