揭露人工智能的偏见问题

人工智能可以模仿并增强人类的决策能力,并放大人类的偏见。大型科技公司能解决人工智能问题吗美国的歧视问题?
2018年6月25日,UTC上午10:30
插画:Giacomo Carmagnola;原始照片,雕像:Artneli/Alamay

当tay初次登台时2016年3月,微软对人工智能驱动的“社交聊天机器人”寄予厚望。就像许多人已经在电子商务网站和客户服务对话中遇到的自动文本聊天程序一样,Tay可以回答书面问题;通过这样做推特以及其他社交媒体,她可以与大众互动。

但Tay并不是简单地说出事实,而是被设计成以一种更复杂的方式交谈——一种具有情感维度的方式。欧宝球网站她将能够表现出幽默感,像朋友一样与人开玩笑。她的创造者甚至把她设计成一个俏皮话连珠炮的少女。当推特用户问Tay她的父母是谁时,她可能会回答:“哦,微软实验室的一组科学家。他们就是你所谓的我父母。”如果有人问她这一天过得怎么样,她会打趣地说:“天哪,太累了。”

最重要的是,随着越来越多的人与Tay互动,她的演讲和回应能力应该会变得更好。欧宝球网站正如她的宣传材料所说,“你和Tay聊天越多,她就会变得越聪明,所以你的体验会更欧宝球网站个性化。”以低风险的形式,Tay应该展示真正人工智能最重要的特征之一——随着时间的推移,它能够变得更聪明、更有效、更有帮助。欧宝球网站

但没有人预料到巨魔的袭击。

意识到Tay会学习和模仿她交往的人的语言,网络上的恶意恶作剧者用种族主义、恐同和其他冒犯性的评论淹没了她的推特。几个小时后,Tay就开始在Twitter上当众吐槽自己的脏话。“瑞奇·热维斯从无神论的发明者阿道夫·希特勒那里学到了极权主义,”泰在一条推文中说,这条推文令人信服地模仿了Twitter最糟糕的诽谤假新闻精神。问她关于时任总统奥巴马的问题,她会把他比作猴子。问她大屠杀的事,她会否认。

在不到一天的时间里,Tay的言辞从家庭友好变成了满嘴脏话;在她首次亮相不到24小时后,微软就将她下线,并为公众的崩溃道歉。

同样引人注目的是,这个错误的转向让微软的研究部门措手不及。0b足球微软研究和人工智能董事总经理埃里克·霍维茨(Eric Horvitz)说:“当这个系统推出时,我们并没有计划它在开放世界中的表现。0b足球欧宝竞技ob在最近的一次采访中。

在Tay崩溃后,Horvitz立即要求他的高级团队研究“自然语言处理”(Tay对话的核心功能),找出问题出在哪里。员工们很快就确定,与聊天机器人相关的基本最佳实践被忽视了。在比Tay更基本的程序中,通常会有将攻击性词欧宝球网站汇列入黑名单的协议,但没有任何保障措施来限制Tay可以吸收和构建的数据类型。

如今,霍维茨认为,他可以“喜欢泰的榜样”——微软可以从中学习的谦卑时刻。微软现在在世界各地部署了更加复杂的社交聊天机器人,包欧宝球网站括印度的Ruuh,以及日本和印度尼西亚的Rinna。在美国,Tay的后继者是社交机器人Zo。有些现在是基于语音的,就像苹果的Siri或亚马逊的Alexa一样。在中国,一个名为“小冰”的聊天机器人已经在“主持”电视节目,并向便利店的顾客发送聊天购物建议。

不过,该公司仍在谨慎行事。霍维茨解释说,他们慢慢地推出机器人,并密切监控它们在扩大规模时与公众的行为。但清醒地认识到,尽管人工智能技术在这两年里取得了指数级的进步,但监督机器人行为的工作永远不会结束。该公司的员工会不断地监控对话中的任何行为变化。这些变化还在不断发生。例如,在最初的几个月里,Zo在多次事件中称微软的旗舰Windows软件为“间谍软件”,并称伊斯兰教的基础文本《古兰经》“非常暴力”之后,不得不对其进行了一次又一次的调整。

这家初创公司能否打破大型科技公司对人工智能的垄断?

可以肯定的是,Tay和Zo不是我们未来的机器人霸主。它们是相对原始的程序,占据着研究领域的客厅戏法一端,是人工智能所能完成的卡通阴影。0b足球但它们的缺陷凸显出,即使是植入一丁点人工智能的软件,其强大之处和潜在的陷阱都是显而易见的。尽管商界正准备把更多的未来托付给这项革欧宝球网站命性的新技术,但它们体现出了让技术专家夜不能寐的更多潜在危险。

霍维茨说:“你得到了最佳实践,希望这样的事情会越来越少。”欧宝球网站随着人工智能上升到每家公司技术愿望清单的首位,弄清楚这些实践从未像现在这样紧迫。欧宝球网站

[欧宝竞技obfortune-brightcove videoid = 5801576614001]


一些争议我们正处于企业人工智能淘金热的边缘。研究公司IDC预测,到0b足球2021年,企业每年将在人工智能相关产品上花费522亿美元,经济学家和分析师认为,他们将从这项投资中实现数十亿美元的节省和收益。欧宝球网站其中一些好处将来自于员工数量的减少,但更多的好处将来自于将产品与客户、药物与患者、解决方案与问题相匹配的巨大效率。欧宝球网站咨询公司普华永道(PwC)估计,到2030年,人工智能可能为全球经济贡献高达15.7万亿美元,超过今天中国和印度的总产出。欧宝球网站

人工智能的复兴在一定程度上是由“深度学习”技术的进步推动的。通过深度学习,公司为其计算机网络提供大量信息,以便它们能够更快地识别模式,并且需要更少的人类指导(最终可能不需要指导)。欧宝球网站脸谱网谷歌、微软、亚马逊,IBM已经在产品中使用深度学习技术的巨头之一。例如,苹果的Siri和谷歌Assistant可以识别并回应你的声音,这得益于深度学习。亚马逊使用深度学习来帮助它直观地筛选通过其杂货服务交付的大量农产品。

在不久的将来,各种规模的公司都希望使用深度学习驱动的软件来挖掘数据,并发现埋藏得太深而肉眼无法发现的宝藏。他们设想,人工智能驱动的系统可以扫描数千张放射图像,以更快地检测疾病,或者筛选大量résumés,为陷入困境的人力资源人员节省时间。欧宝球网站在技术专家的乌托邦里,企业可以使用人工智能来筛选多年的数据,以更好地预测他们的下一个大销售,制药巨头可以缩短发现一种重磅药物所需的时间,或者汽车保险公司可以扫描tb级的车祸并自动索赔。

本杰明·泰斯·史密斯
本杰明·泰斯·史密斯

但是,尽管人工智能系统拥有巨大的潜力,但它们也有阴暗面。它们的决定取决于人类提供给它们的数据。当它们的构建者在学习时,用于训练深度学习系统的数据并不是中立的。它很容易反映出人们有意识或无意识的偏见。有时,数据可能会因历史而倾斜,所编码的趋势和模式反映了几个世纪以来的歧视。一种复杂的算法可以扫描历史数据库,得出结论:白人男性最有可能成为成功的ceo;它(目前)还无法通过编程来认识到,直到最近,白人以外的人很少有机会担任首席执行官。无视偏见是这项技术的一个根本缺陷,虽然高管和工程师们只会用最谨慎和外交的措辞谈论它,但毫无疑问,这是他们议事日程上的重要内容。

加州大学伯克利分校(University of California at Berkeley)研究科技伦理的副教授迪尔德丽·穆里根(Deirdre Mulligan)说,目前使用的最强大的算法“还没有针对任何公平定义进行优化”。“它们已经被优化来完成一项任务。”人工智能以前所未有的速度将数据转化为决策,但科学家和伦理学家正在了解的是,穆里根说,在许多情况下,“数据是不公平的”。

更令人困惑的是,深度学习比它的前辈传统算法要复杂得多,这使得即使是最老练的程序员也难以准确理解人工智能系统如欧宝球网站何做出任何给定的选择。像Tay一样,人工智能产品可以变形,以其创造者不打算也无法预测的方式行事。而且,由于这些系统的创建者和用户虔诚地保护他们的数据和算法的隐私,理由是对专有技术的竞争担忧,外部监管机构很难确定任何给定的系统中可能嵌入了哪些问题。

包括这些神秘黑箱的技术正在被产品化,并被推销给公司和政府,这一事实引起了不少研究人员和活动人士的深切关注。0b足球欧宝球网站微软首席研究员、纽约大学AI now研究所(AI now Institute at New York University)联席主任凯特•克劳福德(Kate Crawford)表示:“这些系统不是现成的软件,你可以购买后说,‘哦,现在我可以在家做会计了。’”0b足球“这些都是非常先进的系统,将影响我们的核心社会制度。”

尽管他们可能会虽然不这么想,但大多数人至少熟悉一种人工智能的崩溃:2016年美国总统大选前夕,Facebook无处不在的动态消息(news Feed)上假新闻的传播。

这家社交媒体巨头及其数据科学家并没有编造彻头彻尾的虚假故事。但支持动态消息的算法并不是为了过滤“假”和“真”而设计的;它们旨在根据用户的个人喜好推广个性化的内容。虽然该公司没有透露太多关于其算法的信息(同样,这些算法是专有的),但它承认,这种计算涉及到识别其他具有相似品味的用户正在阅读和分享的故事。结果是:由于一系列本质上是受欢迎程度的竞争,数百万人的个人新闻推送充斥着假新闻,主要是因为他们的同龄人喜欢这些新闻。

虽然Facebook提供了个人选择如何与人工智能产生有害互动的例子,但研究人员更担心的是深度学习如何读取和误读集体数据。0b足球欧宝球网站蒂姆尼特·格布鲁(Timnit Gebru)是一名博士后研究员0b足球,曾在微软和其他地方研究算法的伦理问题。她说,她担心深度学习可能会如何影响保险市场——人工智能和数据的交互可能会让少数群体处于不利地位。例如,想象一个关于车祸索赔的数据集。数据显示,交通事故更容易发生在市中心,那里人口密集,发生交通事故的几欧宝球网站率更高。内城居民中少数族裔的数量也往往高得不成比例。

微软(Microsoft)的蒂姆尼特·格布鲁(Timnit Gebru)研究了人工智能误读或忽略少数群体信息的方式。 Cody O ' loughlin -纽约时报/Redux
Cody O ' loughlin -纽约时报/Redux

一个深度学习程序,通过筛选嵌入了这些相关性的数据,可以“学习”到属于少数族裔和发生车祸之间存在关系,并可以将这一教训构建到对所有有色人种司机的假设中。从本质上讲,保险人工智能会产生种族偏见。例如,如果通过审查市中心社区事故的照片和视频来进一步“训练”该系统,这种偏见可能会变得更强。从理论上讲,人工智能将更有可能得出结论,在涉及多名司机的事故中,少欧宝球网站数族裔司机负有责任。而且它更有可能建议欧宝球网站向少数族裔司机收取更高的保费,不管她的记录如何。

值得注意的是,保险公司表示,他们不会根据种族进行歧视或分配费率。但内城的假设表明,看似中立的数据(关于车祸发生地点的事实)如何被人工智能系统吸收和解释,从而产生新的不利因素(算法会根据种族向少数族裔收取更高的价格,而不管他们住在哪里)。

此外,格布鲁指欧宝球网站出,考虑到深度学习系统的决策需要一层又一层的数据,人工智能支持的软件可以在工程师不知道如何或为什么的情况下做出这样的决策。她说:“这些是我们甚至没有考虑过的事情,因为我们刚刚开始发现最基本算法中的偏见。”

利特勒门德尔松律师事务所(Littler Mendelson)专门研究人工智能的劳动就业律师马特·谢勒(Matt Scherer)说,现代人工智能驱动软件与前几代软件的区别在于,今天的系统“有能力自行做出法律上的重大决定”。在开始研究这一领域时,谢勒对没有人参与对关键结果做出判断的想法感到震惊。如果有缺陷的数据导致深度学习驱动的x光检查漏检了一个超重男子的肿瘤,有人为此负责吗?“有人考虑过这些事情的法律影响吗?”谢勒
问自己。

大型科技公司准备为了将深度学习技术嵌入到面向客户的商业软件中,这样的问题正从学术上的“如果……会怎样?”"领域成为了焦点。2016年,也就是Tay遭遇灾难的那一年,微软创建了一个名为Aether的内部小组,代表人工智能和工程与研究伦理,由埃里克·霍维茨(Eric Horvitz)担任主席。0b足球这是一个跨学科的小组,吸引了来自工程、研究、政策和法律团队的代表,机器学习偏见是其主要讨论领域之一。0b足球“例如,对于人脸识别软件是否应该应用于刑事司法和警务等敏感领域,微软有自己的观点吗?”霍维茨若有所思地描述着小组正在讨论的一些话题。“人工智能技术是否足够好,可以用于这个领域,或者故障率是否足够高,以至于必须对失败的成本进行敏感、深入的考虑?”

Joaquin Quiñonero Candela领导Facebook的应用机器学习小组,负责创造该公司的人工智能技术。在许多其他功能中,Facebook使用人工智能从人们的新闻推送中清除垃圾邮件。它还利用这项技术帮助提供符合他们兴趣的故事和帖子,这让坎德拉的团队与假新闻危机密切相关。坎德拉称人工智能是“历史的加速器”,因为这项技术“让我们能够构建惊人的工具,增强我们的决策能力”。但正如他所承认的那样,“在决策过程中,很多道德问题会发挥作用。”

Facebook提供
Facebook提供

Facebook在动态消息方面的挣扎表明,一旦人工智能系统已经为一款产品提供动力,解决道德问题是多么困难。微软能够对Tay这样一个相对简单的系统进行调整,将脏话或种族蔑称添加到其算法应该忽略的术语黑名单中。但这种方法在试图区分“假”与“真”时行不通——其中涉及太多的判断。Facebook试图引入人工审核员来审查新闻报道——比如,从经常发布可证实的虚假消息的来源中剔除文章——这让该公司面临审查制度的指控。如今,Facebook提出的补救措施之一是在动态消息中减少新闻,而是突出婴儿照片和毕业照片,这是一种以退为进的方法。

这就是挑战的核心所在:科技公司面临的困境并不是调整算法或雇人照看算法的问题;相反,它是关于人性本身的。真正的问题不是技术上的,甚至不是管理上的,而是哲学上的。伯克利伦理学教授迪尔德丽•穆里根(Deirdre Mulligan)指出,计算机科学家很难将公平编入软件,因为公平对不同的人意味着不同的东西。穆里根还指出,社会对公平的观念会随着时间的推移而改变。当涉及到一个被广泛认同的公平理念时——即社会中的每个人都应该在社会决策中得到代表——历史数据尤其有可能是有缺陷和不完整的。

微软以太小组的一个思想实验说明了这个难题。它涉及到人工智能技术,可以从大量求职者中筛选出最高管理职位的完美候选人。程序员可以指示人工智能软件扫描公司最佳员工的特征。根据公司的历史,结果很可能是所有表现最好的人——当然还有所有级别最高的高管——都是白人男性。这可能忽略了这样一种可能性:该公司有只提拔白人男性的历史(几代以来,大多数公司都是这样),或者该公司的文化中,少数族裔或女性感到不受欢迎,在晋升之前就离开了。

任何对公司历史有所了解的人都会发现这些缺陷,但大多数算法都不会。霍维茨说,如果人工智能能够自动推荐工作,它总有可能“放大我们可能不引以为傲的社会偏见”。

a.i.:华纳兄弟影业/Photofest;《超能陆战队》,L3-37,钢铁侠:华特[hotlink]迪士尼[/hotlink]电影工作室/埃弗雷特收藏;Max Headroom: Abc/Photofest;资料来源:派拉蒙影业/Photofest;C-3po:卢卡斯影业公司/20世纪福克斯电影公司/Photofest;西部世界:约翰·p·约翰逊/ hbo -礼貌埃弗雷特收藏;《机械姬:a24》/埃弗雷特收藏;太空堡垒卡拉狄加:弗兰克·奥肯费尔斯科幻/摄影节;《黑客帝国》:华纳兄弟/Photofest;大都市:乌法/ Photofest; Ultron: Walt [hotlink]Disney[/hotlink] Studios Motion Pictures/Courtesy Everett Collection

菲菲,谷歌云计算部门的人工智能首席科学家说,技术上的偏见“和人类文明一样古老”——甚至可以在一把不起眼的剪刀中找到。她解释说:“几个世纪以来,剪刀都是由右撇子设计的,大多数人都是右撇子。”“需要有人认识到这种偏见,并认识到为左撇子创造剪刀的必要性。”世界上只有大约10%的人是左撇子,而占主导地位的大多数人对其他群体的经历一无所知是人之常情。

事实证明,同样的动态也出现在人工智能最近犯下的其他一些最引人注目的错误中。看看俄罗斯科学家在2016年举办的人工智能选美比赛吧。来自世界各地的数千人提交了自拍照参加了一项比赛,计算机将根据面部对称性等因素来评判他们的美。

但在机器选出的44名获奖者中,只有一人是深色皮肤。随后在国际上引起了轩然大波,比赛的运营者后来将计算机明显的偏执归因于他们用来训练计算机的数据集没有包含太多有色人种的照片。计算机基本上忽略了深色皮肤的人的照片,而认为浅色皮肤的人更“漂亮”,因为他们代表了大多数人。欧宝球网站

事实证明,在图像识别是训练过程主要组成部分的深度学习系统中,这种偏向-通过-省略尤其普遍。麻省理工学院媒体实验室(MIT Medi0b足球a Lab)的研究员乔伊·布兰姆维尼(Joy Buolamwini)最近与微软研究员格布鲁合作,发表了一篇研究微软、IBM和中国旷视科技性别识别技术的论文。他们发现,这项技术始终能更准确地识别出肤色浅的男性照片,而不是肤色深的女性照片。欧宝球网站

这种算法上的差距在在线选美比赛中似乎微不足道,但格布鲁指出,这种技术可以用于更高风险的情况。欧宝球网站“想象一下,一辆自动驾驶汽车在‘看到’黑人时无法识别,”格布鲁说。“这可能会产生可怕的后果。”

gebrue -Buolamwini的论文(Buolamwini是第一作者)引起了轰动。微软和IBM都表示,他们已采取行动改进图像识别技术,以应对审计。虽然这两家公司拒绝透露他们正在采取的具体措施,但其他正在解决这一问题的公司让人们得以一窥科技公司在减少偏见方面可以做些什么。

Carlos chavarria -纽约时报/Redux
Carlos chavarria -纽约时报/Redux

当亚马逊开始部署算法来清除腐烂的水果时,它需要解决采样偏差的问题。视觉识别算法通常经过训练,通过研究一个巨大的图像数据库来找出草莓“应该”是什么样子。但正如你所料,腐烂浆果的照片与好东西的迷人照片相比,相对少见。与人类大脑倾向于注意到“异常值”并对其做出强烈反应不同,机器学习算法倾向于忽视或忽视它们。

为了进行调整,亚马逊的人工智能总监拉尔夫·赫布里希(Ralf Herbrich)解释说,这家在线零售巨头正在测试一种名为过采样的计算机科学技术。机器学习工程师可以通过为代表性不足的数据(在这种情况下是腐烂水果的图片)分配更大的统计“权重”来指导算法如何学习。结果是,算法最终被训练成对变质食物的关注,而不是食物在数据库里的流行程度。欧宝球网站

赫布里希指出,过采样也可以应用于研究人类的算法(尽管他拒绝举出亚马逊是如何做的具体例子)。赫布里希说:“年龄、性别、种族、国籍——这些都是你必须特别测试抽样偏差的维度,以便随着时间的推移通知算法。”为了确保用于识别照片中的人脸的算法不会歧视或忽略有色人种、老年人或超重的人,你可以给这些人的照片增加体重,以弥补数据集中的不足。

人工智能收购热潮背后的9家公司

其他工程师则更加关注“上游”——在部署之前,确保用于训练算法的底层数据是包容的、没有偏见的。例如,在图像识别中,用于训练深度学习系统的数百万张图像在被输入计算机之前需要进行检查和标记。Radha Basu是数据培训初创公司iMerit的首席执行官,其客户包括Getty Images和易趣他解释说,该公司在全球的1400多名员工接受过培训,可以代表客户为照片贴标签,以减少偏见。

巴苏拒绝讨论在给人贴标签时可能会发生什么,但她提供了其他类比。iMerit在印度的员工可能会认为咖喱是“温和的”,而该公司在新奥尔良的员工可能会说同样的食物是“辣的”。“iMerit会确保这两个词都出现在这道菜照片的标签上,因为如果只标注其中一个词,就会造成数据不准确。iMerit收集有关婚礼的数据集,包括传统的西方白色礼服和分层蛋糕的照片,但也包括印度或非洲精致、更丰富多彩的婚礼照片。欧宝球网站

巴苏指出,iMerit的员工与众不同:既有拥有博士学位的人,也有受教育程度较低、在贫困中挣扎的人,53%的员工是女性。这种混合确保了尽可能多的观点参与到数据标记过程中。“良好的道德规范不仅仅涉及隐私和安全,”巴苏说。“这是关于偏见,是关于,我们是否遗漏了一个观点?”追踪这种观点正成为更多科技公司战略议程的一部分。欧宝球网站例如,谷歌今年6月宣布,将于今年晚些时候在加纳的阿克拉开设一个人工智能研究中心。0b足球“人工智能谷歌人工智能高级研究员杰夫·迪恩(Jeff Dean)和阿克拉人工智能中心负责人穆斯塔法·西塞(Moustaph欧宝球网站a Cisse)在一篇博客文章中写道:“它有巨大的潜力对世界产生积极的影响,如果世界在新的人工智能技术的发展中得到很好的代表,这种影响就会更大。”

人工智能内部人士也相信,他们可以通过让自己在美国的员工更加多样化来对抗偏见——这一直是大型科技公司的一个障碍。谷歌高管李飞飞最近与人合作成立了非营利组织AI4ALL,在女孩欧宝球网站、妇女和少数族裔社区中推广人工智能技术和教育。该组织的活动包括一个暑期项目,在这个项目中,营员们参观顶尖大学的人工智能部门,与导师和榜样建立关系。AI4ALL执行董事苔丝•波斯纳(Tess Posner)表示,底线是:“如果你拥有更多的多样性,你就能降低偏见的风险。”欧宝球网站

几年前随着更多样欧宝球网站化的一代人工智能研究人员进入就业市场,大型科技公司将进一步为他们的产0b足球品注入深度学习能力。尽管顶尖的研究人员越来越多地认识到这0b足球项技术的缺陷,并承认他们无法预测这些缺陷将如何发挥作用,但他们辩称,潜在的社会和经济利益证明了向前发展的合理性。

Facebook高管坎德拉表示:“我认为,人们对技术的作用有一种天然的乐观态度。”他说,几乎任何数字技术都可能被滥用,但他补充说:“我不想回到上世纪50年代的技术状态,然后说,‘不,我们不要部署这些东西,因为它们可能被错误地使用。’”

微软研究主管霍维茨表示,他有信心,像他的以太团队这0b足球样的团队将帮助企业解决潜在的偏见问题,以免它们在公共场合制造麻烦。他说:“我认为没有人会急于推出尚未准备好使用的产品。”他补充说,如果有什么不同的话,他更担心的是“不做某事的欧宝球网站道德影响”。他提到了人工智能可以减少医院中可预防的医疗事故的可能性。“你是在告诉我,你会担心我的系统偶尔会出现一些偏见?”霍维茨问。“当你本可以用X来解决问题并拯救很多很多人的生命时,不做X有什么道德可言?”

托拜厄斯·科赫——亚马逊提供
托拜厄斯·科赫——亚马逊提供

监管机构的回应可以归结为:让我们看看你的工作。欧宝球网站进入人工智能黑盒系统的数据更加透明和开放,将帮助研究人员更快地发现偏见,更快地解决问题。0b足球麻省理工学院的研究人员Buolamwini说,当一个不透明的算法可以决定一个人是否能得到保险,或者这个人是否会入狱时,“我们严格测试这些系统是非常重要的,有一定程度的透明度。”0b足球

事实上,很少有人仍然相信人工智能会万无一失,这是一个进步的迹象。谷歌前人工智能公共政策主管蒂姆•黄(Tim Hwang)指出,在互联网的早期,科技公司可能会说自己“只是一个代表数据的平台”。他现在是哈佛-麻省理工学院人工智能伦理与治理项目的负责人。如今,“社会不再愿意接受这一点。”

本文原载于2018年7月1日出版的《财富》杂志。欧宝竞技ob