设备上的AI已为我们所熟知,但是直到现在OEM才开始认真实施该技术。谷歌最近宣布了一种全神经的设备上语音识别器,它不会在很大程度上依赖于网络。这意味着端到端语音识别将通过RNN换能器(RNN-T)技术在设备中发生。发生的情况是语音识别器驻留在设备内部,使其功能强大到足以在Gboard中进行语音输入。它被描述为非常紧凑,足以存储在手机上。
这个想法是语音识别器无论离线还是在线都可以一直使用。逐个字符地检查单词,以便对其进行实时检查和识别。
它仅像键盘听写系统一样工作,它听您的声音。谷歌表示,斑点或网络延迟得以减少。
这种新系统称为递归神经网络换能器(RNN-T)。它被描述为不采用注意力机制的序列到序列模型。它连续处理输入采样,流输出输出符号以进行语音听写。
RNN-T允许离线识别。这是可能的,因为模型直接托管在设备上。搜索在经过RNN-T训练的单个神经网络中进行,并且只有80MB的空间非常轻。
这款全神经和设备上的Gboard语音识别器将在所有Pixel型号上就绪。目前仅是英语,但预计不久的将来将提供其他语言。