2017年2月26日星期日

对抗网络暴力,Google 的新工具可以识别恶意评论

在成千上万的网络言论中,区分出恶意的内容需要大量的金钱、劳动力和时间。不少网站因为不堪其扰关闭了评论区,这并不是合适的解决方案。


用人工智能给评论评分


Google 正在解决这个问题。周四,这家公司公开发布了一项名为 Perspective (意为“明察”)的人工智能工具,可以给网络发言评定恶意程度。这是内部智库 Jigsaw(之前的 Google Ideas)去年 9 月发起项目的成果,也是开源项目 Conversation AI 计划的一部分。

Perspective 使用机器学习自动检测网络侮辱、骚扰和辱骂言论。在示范界面中输入一个句子或短语,AI 可以立即评定其恶意程度,结果以“和攻击性评论相似度为百分之几”的形式显示,比任何关键字黑名单和人类管理员都要快。
Perspective 是开放的 API,可以接入现有网站,帮助管理员获取评论的得分情况。但 Perspective 不会决定如何处理恶意的评论。是否标记,会不会删除,或者是开发类似的打分系统,处理方式由内容发布商决定。

为了建立评分模型,Jigsaw 团队获得了来自《纽约时报》的 1700 万条读者评论,维基百科编辑页面的数百万条讨论和其他合作网站的内容,并聘请了数千人来打分,每个评论会给 10 个人来评判。
这个工具已经在纽约时报、经济学人和卫报等网站测试,以期改善评论部分。目前测试需要邀请,年内接口将放开。

对抗网络暴力的一种思路


与以往方法的不同之处在于,新方法主要侧重于语言的评估,而非观点的评判。也就是说,不受欢迎的想法是可以接受的,只要清楚理性地提供论据即可。影响打分的是情绪化和攻击性的语言。这保护了不同观点的表达,同时有助于理性讨论环境的营造。

一个例子是,如果有人写“XXX是叛徒”,攻击指数为 72%。但如果补充了论据支撑,如“XXX 通过在阿萨德的新闻发布会以俄罗斯力不能及的方式帮他背书以帮助境外势力破坏美国在叙利亚的利益犯下叛国罪”(原文见福布斯报道),工具评分就只有 11%。
也就是说,情绪化的短句子攻击指数更高,而有论据支撑的长句子评分会降低。至于论据是不是真相,Perspective 暂时还不能判断——这项工作还是读者自己查证比较好。

审查与自我审查


这项工具可以帮助促进更理性的互联网环境,或者,像批评者所称,是在以算法干扰公共讨论。

Perspective 遇到的问题首先是文法上的:一些字词在不同社群内有着不同的内涵。对特定群体有侮辱性的词,往往以各种方式被群体接纳,中文的例子比如“小粉红”和“白左”,在没有上下文的情况下判断评论者的立场显然很难。
此外,哪怕不考虑所谓的反串黑和春秋笔法,对社交媒体常见的略缩语、替换词、拼写重复目前也没有办法。而文字游戏正是网友擅长的,特别是长期受屏蔽词库训练的网友。
另一个担忧是 Perspective 是否会损害言论自由。为了提高评论的评分,用户要么会开始自我审查,要么转而使用其他的服务,或者索性弃用。

对此,Jigsaw 总裁 Jared Cohen 说,工具不是为了绕过人类的判断,而是把内容标记出来呈现给管理员。
没有评分工具的时候,默认的制度是人为的举报和审核。Perspective 只是提高了网站的效率,让他们不会再以关闭评论区的方式来解决问题。

Cohen 强调说,Perspective 是一项还在进行中的工作,需要人们为它作出贡献才会有所改善。并希望可以用于英语以外的其它语言。
Twitter、Facebook 等社交巨头都有反仇恨言论的工作。但靠压抑的方式营造出的理性乌托邦,在观点越来越撕裂的今天,有没有可能成为另一个言论滤泡?
但至少,目前攻击性言论让许多人感到不舒服的情况下,需要采取某种形式的行动。

您可能感兴趣:








没有评论:

发表评论