神经模型寻求不适当以减少聊天机器人的尴尬

Skoltech 的研究人员和他们来自 Mobile TeleSystems 的同事引入了不适当文本消息的概念，并发布了一种能够检测它们的神经模型，以及大量此类消息以供进一步研究。潜在的应用包括防止企业聊天机器人让运营它们的公司难堪、论坛帖子审核和家长控制。该研究发表在第 8 届波罗地斯拉夫自然语言处理研讨会的论文集上。

聊天机器人因寻找创造性和意想不到的方式来让主人难堪而臭名昭著。从在对用户生成的数据进行培训后发布种族主义推文到鼓励自杀和支持奴隶制，聊天机器人在处理该研究的作者所称的“敏感话题”方面有着令人遗憾的历史。

敏感话题是指在遭到破坏时可能引发无礼对话的话题。虽然讨论它们本质上没有什么不可接受的，但从统计上讲，它们对演讲者的声誉来说不太安全，因此需要企业聊天机器人开发人员特别注意。根据移动电信系统公关和法律官员的建议，研究人员列出了 18 个此类主题，其中包括性少数群体、政治、宗教、色情、自杀和。该团队将其列表视为一个起点，并没有声称它是详尽无遗的。

基于敏感话题的概念，本文介绍了不当言论。这些不一定是有毒的，但仍然会使读者感到沮丧并损害演讲者的声誉。根据定义，不当陈述的主题是敏感的。人为判断某条信息是否危及演讲者的声誉被认为是衡量适当性的主要衡量标准。

该研究的资深作者、Skoltech 助理教授 Alexander Panchenko 评论说：“不当行为超出了熟悉的毒性概念。这是一个更微妙的概念，涵盖更广泛的情况，聊天机器人所有者的声誉最终可能会受到威胁。例如，考虑一个聊天机器人，它就自杀的“最佳方式”进行礼貌和有益的对话。它显然会产生有问题的内容——但没有任何毒性。”

为了训练识别敏感话题和不当信息的神经模型，该团队在一个大规模众包项目中编译了两个标记数据集。

在第一阶段，讲俄语的人的任务是识别普通信息中敏感话题的陈述，并识别相关话题。文本样本来自俄罗斯问答平台和类似 Reddit 的网站。然后通过使用它来训练分类器模型，在同一网站上发现更多具有相似性质的句子，由此产生的“敏感数据集”大致翻了一番。

在后续任务中，标记者将分类器扩展的敏感性数据集标记为不适当。该研究的合著者 Vavara Logacheva 解释说：“真实文本中不当话语的百分比通常很低。因此，为了节省成本，我们没有为第二阶段标记提供任意消息。相反，我们使用了敏感主题语料库中的内容，因为期望其中包含不适当的内容是合理的。” 基本上，标签商不得不反复回答这个问题：这条信息会损害公司的声誉吗?这产生了不适当的话语语料库，用于训练识别不适当消息的神经模型。

“我们已经证明，虽然话题敏感性和信息不当的概念相当微妙并且依赖于人类的直觉，但它们仍然可以被神经网络检测到，”该研究的合著者 Skoltech 的 Nikolay Babakov 评论道。“在 89% 的案例中，我们的分类器正确地猜测了人工标注者认为不合适的哪些话语。”

MTS-Skoltech 团队已公开提供用于发现不当性和敏感性的模型，以及包含约 163,000 个标记为(不)适当性的句子和约 33,000 个处理敏感主题的句子的数据集。

“这些模型可以通过集成或使用替代架构来改进，”巴巴科夫补充道。“在这项工作的基础上建立一个特别有趣的方法是将适当性的概念扩展到其他语言。话题敏感性在很大程度上取决于文化。每种文化在它认为不合适的主题方面都是特殊的，因此使用其他语言是完全不同的情况。另一个需要探索的领域是搜索我们合作过的 18 个之外的敏感话题。”

神经模型寻求不适当以减少聊天机器人的尴尬

相关推荐