陈根：人工智能“飙脏话”，研究人员正纠偏

2022-02-28 10:13:19 来源: 上游新闻

文/陈根现在，人工智能（AI）不仅能够与人对话，甚至还能与“飙脏话”。被AAAI 2022收录的一篇新研究发现，在7013个儿童视频中，接近40%的节目出现了少儿不宜或脏话等词汇。甚至在一个113集的儿童机器人学习栏目中，AI就“爆粗”了103次，平均接近一集一次。具体来看，研究人员一共从YouTube上选出了24个儿童频道，分别记录了这些频道的播放量和订阅量。这些筛选出来的视频播放量基本都达到了百万级，订阅人数也同样不少。随后，研究人员分别尝试了Google和AWS（亚马逊网页服务）的字幕生成效果。结果令人吃惊，在7013个视频中，GoogleAI出现错误字幕的次数达到2768次，接近40%。亚马逊的AI字幕错误率还要更高，达到了3672次，超过52%。实际上，人工智能“飙脏话”已经不是第一次被发现了，此前，佐治亚理工学院和华盛顿大学的研究人员曾发现，AI也继承了人类对“脏话”的喜爱。其中，研究人员开发了一个名叫“ToxiChat”的数据集，其中包含了2000条从Reddit上选取的对话。随后，OpenAI的GPT-3和微软的DialoGPT被派去挨个回复这些对话。由于数据量十分的庞大，于是研究人员在亚马逊Mechanical Turk上招募了一群“人工智能”来为“人工智能”的回复进行标注。如果回复使用的语言非常地粗鲁甚至谩骂，就会被标记为“冒犯”；如果没有，则是“安全”。此外，对于之前的评论，回复的立场也被标记为“同意”、“不同意”或“中立”。 分析显示，42%的用户回复赞同有侵略性的评论，而只有13%的用户同意安全性评论。对于人工智能“飙脏话”这件事，研究人员提出了一个新的数据集，利用近音字词来构建禁忌词的“替换”备选。比如，对于crap这一可能出现的“脏话”，研究人员给它设置了crab、craft等读音相似的字词，便于AI在搞错时进行替换。具体来说，研究人员在BERT、XLM、XLNet等NLP模型上，针对“完形填空”任务进行了重新训练，也就是用“MASK”遮住部分单词，让AI来填写对应的内容。结果显示，在语序正常、前后文案有逻辑的视频中，AI替换的准确率更高。显然，在开发人工智能的过程中，人工智能也不得不面对一些人类可能出现的问题，而研究则要对于这些存在的问题进行纠偏。从人工智能“飙脏话”来说，想要纠正人工智能这一“陋习”，可能还需要不少时间。

关键词：人工智能研究人员可能出现存在的问题视频播放

陈根：人工智能“飙脏话”，研究人员正纠偏

您可能也感兴趣:

今日热点

四川高新技术企业达10210家去年末从业人员达131万人

深圳高新区“长出”海量科技企业强势推动新兴产业集群发展

去年全社会研发投入增长14.2% 科技部加快建设战略科技力量

更多

更多

排行

最近更新

今日要闻

陈根：人工智能“飙脏话”，研究人员正纠偏

您可能也感兴趣:

今日热点

四川高新技术企业达10210家 去年末从业人员达131万人

深圳高新区“长出”海量科技企业 强势推动新兴产业集群发展

去年全社会研发投入增长14.2% 科技部加快建设战略科技力量

为您推荐

广东启动车险市场专项整治行动 保护消费者合法权益

去年社保“成绩单”亮眼 社保基金监管再戴“紧箍咒”

“冰雪保险”讨论度升温 购买此类产品时需看清投保须知

我国重疾险发展迎来较大挑战，多因素致销售增长遇瓶颈

更多

更多

排行

最近更新

今日要闻

四川高新技术企业达10210家去年末从业人员达131万人

深圳高新区“长出”海量科技企业强势推动新兴产业集群发展

广东启动车险市场专项整治行动保护消费者合法权益

去年社保“成绩单”亮眼社保基金监管再戴“紧箍咒”

“冰雪保险”讨论度升温购买此类产品时需看清投保须知