Google以其在研究和开发方面的努力而闻名,该研究旨在向不同和地区的用户提供上下文信息。为了在推进这一计划,这家科技巨头在其Google for India活动中宣布了针对语言的多语言表示形式,或简称为MuRIL。MuRIL被吹捧为一种现代的多语言检测模型,旨在在多种区域语言中提供基于上下文和基于情感的搜索结果。是一个多元化的,拥有数十种主流语言。对于像Google这样的国公司来说,这使得吸引用户变得更加复杂。但是使用MuRIL,任务可能会变得稍微容易一些。让我们通过此公告详细了解Google希望如何转变的Google搜索。
什么是Google的MuRIL?
语言的多语言表示形式是BERT,是变形金刚的双向编码器表示形式的缩写。那是什么 BERT是一种基于AI的技术,它使用自然语言来区分人们正在搜索的内容的细微差别。
例如,“”一词在搜索词中可以表示不同的事物,例如“分行”或“河岸”。为了帮助进行这些查询,Google去年在其搜索产品中加入了BERT算法,以使查询更加相关。
新推出的MuRIL旨在进一步解决与Google搜索上的区域语言用户相关的问题。它已经接受了总共17种语言的预培训-阿萨姆语,孟加拉语,英语,古吉拉特语,印地语,卡纳达语,克什米尔语,马拉雅拉姆语,马拉地语,尼泊尔语,奥里亚语,旁遮普语,梵语,信德语,泰米尔语,泰卢固语和乌尔都语(按字母顺序)。这些主要语言涵盖了人口的绝大多数。
为什么将其放置到位?
谷歌表示,有很多用户使用英语进行Google搜索。例如,考虑有几位Oriya或泰卢固语的讲者会用英语键入他们的查询,但可能不熟练用语言来解释结果。根据Google的说法,当您意识到以母语书写语言通常会比较困难,并且通常需要三倍的时间(英语)时,这种情况可能会变得更加普遍。
对于此类用户,搜索将在合适的情况下以17种受支持的语言显示相关内容。尽管Google并未明确说明这些自动推荐的因素,但我们猜测地理位置和搜索历史与它有很大关系。该功能将首先以五种语言推出:印地语,孟加拉语,马拉地语,泰米尔语和泰卢固语。
Google的新MuRIL算法可以帮助您解决的另一种方法是在解释音译文本时,包括您使用罗马脚本编写印地语单词的时间。例如,“ Achha hua account bandh nahi hua”是一个短语,现在将具有肯定的含义,而不是以前的否定。谷歌还表示,诸如“ Shirdi ke sai baba”之类的搜索查询现在将针对个性而不是位置给出准确的结果。
然后,Google还使用MuRIL将对语言选择器的支持扩展到Google Assistant,Discover和Google Maps之类的应用程序。此外,您现在可以在Google搜索页面上在英语和四种其他语言(泰米尔语,泰卢固语,孟加拉语和马拉地语,除了印地语)之间进行切换。
可能性是无止境
谷歌已经宣布将使MuRIL免费开放源码。这意味着其生态系统中的成千上万的应用程序开发人员可以利用这种复杂的自然语言技术为地区语言用户开发更好的产品。例如,具有搜索引擎的应用程序的开发人员,包括诸如亚马逊之类的电子商务应用程序,诸如Facebook之类的社交应用程序,可能会利用这项技术,并向用户显示更多相关内容。
为了实现Google达到下一个十亿用户的梦想,MuRIL似乎是朝着正确方向迈出的一步。