「AI自创语言」的标题党和恐惧只会令我们忽略更迫切的科技问题

今年6月中，我读到一篇说有人工智能发展出非人类语言的文章，于是翻查内文提到的研究，发现那是标题党，也见到一些夸张报道。不过当时见没太多人在Facebook分享这新闻，就没有写，毕竟人工智能非我专长，要了解得花太多时间（一字记之曰懒）。

于是我后悔了。近日外国一些大媒体陆续发现这份来自Facebook人工智能研究小组（FAIR）的研究，然后纷纷变成标题党，煽动读者对人工智能恐惧。这是破解流言的永恆两难︰没人传的流言破解后也没有人看，而真相总是追不上多人传的流言。

近来跟「人工智能创造语言」有关并引起媒体关注的研究最少有三个，由于语言使用、翻译等是人工智能的重要领域，未来肯定会有更多类似研究，相信也会有更多标题党，所以还是先写清楚比较好。

Google翻译AI发明了中介语言？

三项研究中，最早出现的一个跟Google翻译有关。2016年9月，Google翻译改用新系统，称为Google神经机器翻译（Google Neural Machine Translation, GNMT）。从数以百万计的例子中学习，GNMT能大幅提升其翻译质素。然而Google表示，把系统应用到Google翻译所支援的103种语言是一个巨大挑战。

同年11月，Google在其研究网誌介绍其团队如何解决这个难题，并把解决方案应用到Google翻译。研究人员扩展了GNMT，令单一系统可以翻译多种语言，更实现所谓的「零数据翻译」（zero-shot translation）——系统未曾明确学习翻译两种语言下，仍然可以成功翻译。

听起来好像很神奇，以下用Google提供的例子解说︰假设系统只需要处理三种语言——日语、韩语及英语，而研究人员先训练其多语言GNMT系统学习双向的日英、韩英翻译，系统会把翻译这四对语言（日英、英日、韩英、英韩）的参数共同储存，从而可以把「翻译知识」转移，即使系统未受过日韩翻译训练，仍然可以把日语翻译成韩语（反之亦然）。

文章指出，实现「零数据翻译」带出另一重要问题︰系统是否学会了一种「中介语言」（interlingua），可以独立于各种语言来代表语句的意义？研究人员分析数据后认为，这个神经网络会把句子的语意编码，而非单纯记住不同语言的词语配对，所以他们视这为「中介语言」存在的迹象。

这固然是一项重要的研究发现，不过有媒体就将之夸大成「电脑把字词及概念配对」或「人工智能创造了一种通用语言」。实际上，这种「中介语言」是用来描述翻译对象语言的特质，让系统处理多种语言之间的翻译，仍然把每种语言的数据分开处理，只是不同语言意思相近的句子会放在相近位置，而非系统创造了一种新语言。

学习沟通的人工智能

第二项容易引起误解的研究，在今年3月中由非牟利人工智能研究公司OpenAI公开。

研究的两名作者Igor Mordatch及Pieter Abbeel指出，透过在语料库中寻找统计模式，机器学习在处理自然语言上有显着进展，包括机械翻译、对答以及情绪分析等。然而两人认为要让程序有智慧地跟人类互动，单靠统计模式并不足够，因此他们研究能够让AI在合作达成目标期间，创造出有基碍的组合性语言（grounded compositional language）。

「有基础」是指语言中的字词直接跟使用者的经验连结，例如「树」这个字跟树的影像、接触树的经验关联。「组合性」则是指使用者可以把语言中不同字词组合成句子，以表达特定意念，例如把「我」、「喜欢」及「猫」三个词语，结合成句子「我喜欢猫」。

他们于是建立一个实验环境，三个AI（分别以红、蓝、绿色代表）「活」在一个简单的平面世界，这个世界有三个分别为红、蓝、绿色的地标。每个均可以做三件事︰移向某个地方、把「视线」指往某个方向，以及跟其他AI沟通（如下图所示）。

在这个环境中，AI都是以「单热向量」（one-hot vector，只有一个「1」其他均为「0」的向量）来沟通，为方便理解，作者把这些向量加上「前往」、「望向」及「不做任何事」等标籤。每个AI採取行动前，都会先观察其他AI之前的通讯，以及所有物件（三名AI及三个地标）的位置。

实验中，每个AI都被指派一个只有自己知道的目标，这些目标可能是要求其他AI前往某个地方，由于别的AI无法得知这个目标，从而促使AI互相沟通。实验中研究人员比较这些AI在各种设定下的分别，例如可以使用语言沟通、不可使用语言沟通、只可以使用非语言沟通（例如调整视线）等。

简单来说，研究人员透过设计这个多参与者环境，令AI在未有接触人类语言的情况下，自行产生一套有基础的组合性语言。受到实验环境所限，这套抽象语言非常简陋，Mordatch和Abbeel希望未来在实验中容许更多行动，引发出语法更複杂、更多词汇的语言，他们亦想让AI在实验过程中接触人类语言。

据说令Facebook害怕的研究

最后一项，则是文章最初提及的研究。整件事就是FAIR的研究员让两个AI学习谈判，并设定好谈判目标和分数，让它们对话。

这项研究取得不错成果，程式学会了一些谈判技巧，例如起初伪装对一些无价值的物品有兴趣，再于谈判期间「让步」放弃，Facebook介绍此研究的网誌提到，这项技巧并非预先编写好，而是程式在尝试达成目标时发现的方法。

该网誌最后亦指出，其中一个研究模型令程式发展出自己的语言来谈判，跟人类有别，然而研究员的目标是建立可以跟人类沟通的程式，所以改用其他方法来得到他们想要的结果。

不过研究到了传媒手上，就变成「AI叛变！聊天机械人发展出自己语言　吓到fb煞停」（当然夸张报道的不仅是《苹果日报》）︰

由于已有同事在本网撰文解释，我就不再重複。

如何避免受标题党误导

除了都跟人工智能和语言有关外，三项研究的共通点是其公司——分别是Google、Open AI和Facebook——都有撰写文章解说其研究。除了专家外，相信没有太多人会读人工智能的论文，这些解说文章——就如科研的大学新闻稿一样——是给传媒和有兴趣的大众了解其研究。

不幸的是，媒体往往为追求点击率而过度简化研究，甚至曲解和夸大其内容，透过误导的标题引发惊讶、恐惧等有利散播文章的情绪。一如所有流言，事后才澄清作用有限，引起的恐惧亦无法完全消除。

对此我有一点建议︰分享这类「令人惊呆了」的新闻前，请先追寻资讯源头，细读一遍相关解说文章，甚至读一点论文的简介部份，知道研究人员大概在做甚么（大概就好，一般人不可能透彻理解）。

这样太麻烦了？《Geek Time》的Gedalyah Reback有另一个建议︰

阅读科技新闻时，永远假设没有任何接近天网（Skynet）或创造Matrix的机器。要建造这些东西，人类还需多年甚至数十年时间，在这段期间，当看到有人宣称电脑程式在没有指引下做到一些事情时，永远保持健康的怀疑。更有可能的是程式做了一些程式员没发现自己编写了的事情，或者解释远远比表面看来简单。

这些被煽动出来对人工智能的恐惧，无助令我们更了解人工智能发展，只会让人忽略资讯科技领域中更严重和迫切的问题，例如网络缺乏私隐、企业操控我们的数据、政治势力借演算法左右民意、人工智能取代生产或导致大量失业、资助的数码恐袭，以至假新闻越来越逼真等等。

「AI自创语言」的标题党和恐惧只会令我们忽略更迫切的科技问题

相关推荐