亚马逊发布了针对Alexa技能的长篇演讲风格

亚马逊今天宣布了一个长格式的新闻和音乐内容的Alexa技能(即Alexa技能)。、语音应用程序)。本周在开始在,开发人员可以使用这种针对大量文本信息进行优化的风格来朗读web页面、文章、播客和游戏的讲故事部分。

这种新的说话风格可以通过让文字听起来更自然来提高用户体验,进而提高用户的整体参与度。此外,它还可以节省开发人员的资金和精力,因为它不需要雇佣专业的配音演员,也不需要在录音棚里录制音频。

亚马逊表示,这种长篇大论的演讲风格是由一种人工智能文本转换成语音的模式驱动的,这种模式在从一段话过渡到下一段话、甚至从一个对话过渡到另一个对话的过程中,结合了自然停顿。这类似于最近推出的谷歌助手功能,该功能使用更自然、更人性化的声音在网站和Android应用程序中读取长篇内容。

除了冗长的演讲风格,亚马逊表示,开发人员现在还可以使用Amazon Polly提供的新闻和会话风格。Amazon Polly是亚马逊的云服务,可以将文本转换为栩栩如生的语音,并提供29种语言的Alexa技能语音选择功能,分别称为Matthew、Joanna和Lupe。新闻演讲的风格听起来和你可能从电视新闻主播和电台主持人那里听到的很相似,而谈话的风格会让声音听起来不那么正式,就好像他们在和朋友和家人说话一样。

亚马逊的详细工作AI-generated演讲去年晚些时候,在一份研究报告中,研究人员描述了一种系统,可以采用一个新的说话风格从几小时的培训——而不是数万小时可能需要一个声音演员阅读目标的风格。该公司的模型由一个生成神经网络组成,它可以将一个音素序列转换成一个声谱图序列,或者将随时间变化的声音频谱的可视表示形式,再加上一个声码器,将这些声谱图转换成一个连续的音频信号。

最终的结果是一个AI model-training方法,该方法结合了大量neutral-style语音数据与几个小时的补充数据所需的风格,以及一个人工智能系统能够区分元素的言论都独立的说话风格和独特的风格。亚马逊已经在内部使用它来为Alexa生成新的语音,以及面向开发者的声音在亚马逊Polly中跨越几种语言。

最后,亚马逊表示,Alexa语音应用程序开发人员可以使用10个额外的亚马逊Polly语音,包括英语、西班牙语、加拿大法语、巴西葡萄牙语等多种新语言。

亚马逊发布了针对Alexa技能的新情感和演讲风格,包括“快乐/兴奋”、“失望/移情”和短篇幅新闻和音乐风格。在去年11月的一篇博客文章中,亚马逊声称,情感化的声音提高了30%的客户满意度,用户认为新闻风格和音乐风格比Alexa的标准声音分别自然31%和84%。

亚马逊最近还推出了品牌之声(Brand Voices),这是一项利用人工智能生成自定义代言人的亚马逊Polly功能。这项全面管理的服务将客户与内部工程师配对,让人工智能生成的声音代表某些角色,比如加拿大肯德基(KFC)的南部英语口音,以及澳大利亚(National Australia Bank)的澳大利亚英语口音。

(0)
上一篇 2022年4月3日
下一篇 2022年4月3日

相关推荐