可能会很吵:硅谷争夺语音技术之战内幕

亚马逊(Amazon)、苹果(Apple)和谷歌正在投资数十亿美元,使语音识别成为我们与互联网交流的主要方式。这将是史蒂夫•乔布斯(Steve Jobs)推出iPhone以来最大的技术变革。
2018年10月24日,UTC上午10:30
摄影:山姆·卡普兰《财富》杂志,造型:惠美·emoto -欧宝竞技ob安德森·霍普金斯

短短四年前,亚马逊仅仅是一个非常成功的在线零售商和主要的公司在线虚拟主机提供商。亚马逊还销售自己的消费电子产品系列,包括Kindle电子阅读器,这是亚马逊作为下一代书商先锋角色的大胆但可以理解的褒奖产物。如今,由于无处不在的亚马逊Echo智能音箱及其Alexa语音识别引擎,亚马逊引发了自史蒂夫·乔布斯(Steve Jobs)发布iPhone以来个人计算和通信领域的最大转变。

起初,这一切似乎都很新奇。2014年11月,亚马逊推出了Echo,这是一个高科技精灵,它使用人工智能来倾听人类的询问,在连接互联网的数据库中扫描数百万字,并提供从深奥到平凡的答案。如今,在销售了大约4700万台Echo设备之后,亚马逊每天要回复来自80个国家的消费者,从阿尔巴尼亚到赞比亚,平均每天要回答1.3亿个问题。Alexa以亚历山大港的古埃及图书馆命名,可以接收音乐请求,提供天气预报和体育比分,还可以远程调节用户的恒温器。它会讲笑话;回答琐事问题;表演一些平凡的,甚至是幼稚的把戏。(如果有必要,可以问Alexa放个屁。)

语音识别技术并不是亚马逊发明的,该技术已经存在了几十年。它甚至不是第一个提供主流语音应用程序的科技巨头。苹果的Siri和谷歌的Assistant比Alexa早几年微软微软在Alexa发布的同时推出了小娜。但随着Echo的大获成功,亚马逊掀起了一场主导“智能”家居设备市场的激烈竞争,有可能让这些设备变得像个人电脑甚至智能手机一样重要。就像谷歌的搜索算法彻底改变了信息消0b足球费,颠覆了广告业一样,人工智能驱动的语音计算也有望实现类似的转变。亚马逊Alexa首席科学家罗希特•普拉萨德(Rohit Prasad)表示:“我们希望为客户消除摩擦,最自然的方式就是语音。它不仅仅是一个有一堆结果的搜索引擎,0b足球告诉你“选择一个”。’它会告诉你答案。”

亚马逊提供

人工智能与新的语音驱动用户体验的强大结合,使得这场竞争不仅仅是圣诞节最热门产品的竞争——尽管它也是如此。谷歌、苹果、脸谱网微软和其他公司都在投入大量资金开发竞争产品。事实上,据投资公司Loup Ventures的吉恩·蒙斯特估计,科技巨头们在语音识别领域的研发预算合计超过50亿美元,占年度研发预算的10%。0b足球欧宝球网站他将语音技术的出现称为计算领域的“重大变革”,并预测语音指令,而不是键盘或手机屏幕,将迅速成为“我们与互联网互动的最常见方式”。

赌注如此之高,竞争激烈也就不足为奇了。研究公司Canalys的数据显示,亚马逊在全球智能音箱市场的份额为42%,处于领先地位。0b足球谷歌也在发出自己的声音。它的Echo系列谷歌家用设备由谷歌助手提供支持,市场份额为34%,最近销量超过了亚马逊。价格昂贵且即将上市的苹果HomePod远远排在第三位。今年10月,Facebook发布了其Portal音频和视频设备系列,这些设备可以完成一些但不是全部的语音识别任务,尤其是由Alexa提供支持。

目前,联网扬声器和类似设备的市场很大,而且还在不断增长,但对科技巨头来说,这未必是与语音相关的最引人注目的机会。研究公司Global Market Insights预计0b足球,2017年全球智能音箱销售额将达到45亿美元,到2024年这一数字将增长到300亿美元。然而,硬件收入在很大程度上并不是重点。例如,亚马逊以盈亏平衡或更低的价格出售Echo。上个假日销售季,亚马逊以29美元的价格推出了Echo Dot的基本款,ABI Research认为这比设备的零部件成本还低。0b足球相反,每个主要参与者都有一个战略,以某种方式实现其更大的目标,即锁定客户使用其其他商品和服务。例如,亚马逊使用Echo系列来增加其亚马逊Prime订阅服务的价值。谷歌希望语音搜索最终能提升本已庞大的数0b足球据宝库,为其广告业务提供支撑。通过Siri,苹果看到了一种将其手机、电脑、电视控制器,甚至汽车制造商正在捆绑到车载系统中的软件连接起来的方法。

由谷歌提供

考虑到所有的投资和快速发展的创新,现在预测赢家还为时过早。但可以肯定的是,业界已经一致认为,语音技术是未来的用户界面,人工智能技术的最新进步增强了语音技术。它还有望对这个将新手和专家区分开来的行业产生民主化的影响。谷歌副总裁尼克·福克斯(Nick Fox)负责谷歌助手和搜索的产品和设计,他说:“语音可以实现各种各样的功能。0b足球“它能让文化水平较低的人使用这个系统。它能帮助开车的人。它能让人们在烹饪时听到食谱。每隔一段时间,技术就会发生结构性变化,我们认为语音技术就是其中之一。”

尽管如此,语音识别仍处于起步阶段。与研究人员预期的应用相比,它的应用还很初级,而且语音有一个重要的恶心因素。0b足球科技公司在多大程度上窃听了他们的客户,以及他们从收集的语音信息中获得了多少数据,这些都是合理的担忧。“有了人工智能语音识别,我们已经从双翼飞机时代进入了喷气式飞机时代,”华盛顿大学(University of Washington)电气工程教授、语音和语言技术领域世界顶尖科学家之一马里·奥斯坦多夫(Mari Ostendorf)说。她指出,计算机已经很擅长回答直接的问题,但在实际对话方面仍然相对无望。“就语音人工智能现在可以识别的单词数量和可以理解的命令数量而言,大型科技公司所做的事情确实令人印象深刻。但我们还没有进入火箭时代。”

语音识别已经被几十年来的下一个杀手级应用。在20世纪50年代,贝尔实验室创建了一个名为Audrey的系统,可以识别从1到9的语音数字。在20世纪90年代,个人电脑用户安装了Dragon NaturallySpeaking,这是一个可以处理简单语音的程序,说话者不必在每个单词后尴尬地暂停。但直到2010年苹果公司(Apple)在iPhone上推出Siri,消费者才真正体会到语音识别引擎与强大的计算能力相结合的能力。大约在同一时间,亚马逊,一家充满星际迷航迷的公司——由真正的星际迷首席执行官杰夫·贝佐斯领导——开始梦想在企业号星舰上复制会说话的计算机。亚马逊的普拉萨德说:“我们设想了一个未来,你可以通过语音与任何服务互动。”普拉萨德已经发表了100多篇关于对话式人工智能和其他主题的科学文章。欧宝球网站结果就是Alexa,一个多面设备,旨在让消费者更容易地与亚马逊沟通。欧宝球网站

随着语音识别技术的改进——计算能力变得更快、更便宜、更普遍,从而变得更主流——亚马逊、谷歌、苹果和其他公司可以更容易地建立一个无缝网络,将他们的智能家居设备与其他系统连接欧宝球网站起来。例如,苹果CarPlay用户可以在开车回家的路上告诉Siri,在苹果电视上播放最新一集的《权力的游戏》(Game of Thrones),并在他们到家后命令HomePod播放。两年前,谷歌发布了语音Home,将其音乐产品,YouTube以及最新的Pixel手机和平板电脑。换句话说,每个科技巨头都将语音视为其正在创造的无数数字产品的纽带。

阅读:人工智能改变商业的25种方式

各家公司都利润丰厚,因此有能力为充足的研究和营销活动提供资金,它们各自拿出了不同的资产。0b足球例如,苹果和谷歌分别拥有两大主要的移动操作系统iOS和Android。这意味着Siri和谷歌Assistant几乎预装在所有新手机上。相比之下,亚马逊需要让消费者在iphone或安卓设备上安装并打开Alexa应用程序。“打开Alexa语音应用的额外步骤使亚马逊处于明显的劣势,”Loup的蒙斯特说,他曾是计算机公司的华尔街分析师。相比之下,激活Siri和谷歌Assistant所需要的只是说出它们的名字。

也就是说,iOS和Android对所有类型的第三方开发者都是开放的,亚马逊就是其中之一,这意味着没有什么能阻止这两个平台上的开发者编写Alexa程序。贝佐斯在今年早些时候的财报发布会上吹嘘说,“来自150多个国家的数万名开发人员”正在开发Alexa应用程序,并将它们整合到非亚马逊的设备中。欧宝球网站事实上,合作伙伴关系是语音应用的关键战场。Alexa内置在Sonos的“条形音箱”、Jabra的耳机和宝马、福特等品牌的汽车中丰田.谷歌拥有与音频设备制造商的集成索尼Bang & Olufsen、August智能锁和飞利浦LED照明系统,苹果的HomePod也与First Alert Security系统合作霍尼韦尔智能恒温器。谷歌的福克斯说:“这些合作关系的美妙之处在于,它们允许我们将语音与整个智能家电生态系统联系起来。我不需要打开手机打开应用程序。我只需对设备说,‘告诉我谁在我家前门’,它就会立即弹出。它通过统一来简化。”

[欧宝竞技obfortune-brightcove videoid = 5852558858001]

长期以来,人工智能一直是反乌托邦流行文化的主要内容,尤其是在《反乌托邦》等电影中《终结者》而且矩阵在那里,邪恶的聪明机器崛起,对人类构成威胁。值得庆幸的是,我们还没有到那个地步,但人工智能的进步和廉价计算的可用性已经让令人印象深刻的未来应用成为现实。早期的语音识别程序只和编写它们的程序员一样好。现在这些应用程序变得越来越好,因为它们通过互联网连接到数据中心。这些复杂的数学模型筛选了公司花费数年时间汇编的大量数据,并学习识别不同的语音模式。他们可以通过分析词汇、地区口音、口语和对话上下文来识别,例如,通过分析呼叫中心座席与客户交谈或与数字助理互动的录音。

Pope: Heinz-Dieter Falkenstein-Getty images;爱迪生:贝特曼/盖蒂图片社;奥黛丽:由诺基亚[/hotlink]提供,贝尔实验室:电话:Sheila Terry-Science来源;鞋盒:由[hotlink ignore=true]IBM[/hotlink]公司档案提供,©1961 [hotlink]IBM[/hotlink]公司;哈尔:凯文·布雷-米高梅/Photofest;哈比:Raj Reddy-Youtube;设备:由亚马逊、苹果和谷歌提供
语音识别系统对物理学的依赖不亚于对计算机科学的依赖。语音在空气中产生振动,语音引擎将其作为模拟声波接收,然后转换为数字格式。然后计算机可以分析这些数字数据的意义。人工智能首先通过检测客户选择的“唤醒词”(如“Alexa”)来判断声音是否指向其系统,从而加速这一过程。然后,他们使用机器学习模型,根据数百万其他客户之前对他们说过的话进行训练,对他们所说的话做出高度准确的猜测。谷歌Assistant的工程副总裁约翰·斯卡尔克维克(Johan Schalkwyk)解释说:“语音识别系统首先识别声音,然后将单词放在上下文中。”“如果我说,‘……的天气怎么样’,人工智能就知道下一个单词是一个国家或城市。我们的数据库中有500万个英语单词,在没有上下文的情况下从500万个单词中识别出一个单词是一个超级困难的问题。如果人工智能知道你问的是一个城市,那么这个任务只有三万分之一的概率,更容易答对。”

计算能力为系统提供了多种学习机会。为了让Alexa打开微波炉——一个真实的例子——语音引擎首先需要理解这个命令。这意味着要学会破译厚厚的文字南部口音(“MAH-cruhwave”),高音调的孩子的声音,非母语人士的声音等等,同时过滤掉收音机里播放的歌词等背景噪音。然后,它必须理解人们可能要求使用微波炉的多种方式:“重新加热我的食物”,“打开我的微波炉”,“把食物加热两分钟”。Alexa和其他语音助手将问题与数据库中的类似命令进行匹配,从而“了解”到“重新加热我的食物”是某个特定用户未来可能会问的问题。

这项技术的发展在一定程度上是因为它在将人类命令转化为行动方面非常熟练。谷歌的斯卡尔克维克说,该公司的语音引擎现在的响应准确率为95%,而2013年只有80%,与人类听众的响应准确率大致相当。该领域最近取得的重大成就之一是教会引擎过滤掉非语言背景噪音,这种噪音会让最敏锐的人的耳朵感到沮丧。然而,这些系统只有在问题很简单的时候才能达到这个水平,比如“几点了?使命:不可能的玩?”向谷歌Assistant或Alexa询问意见,或者尝试进行长时间的来回对话,机器可能会给出一个预先编程好的笑话答案,或者简单地提出异议:“嗯,我不知道这个。”

给消费者,语音驱动的小工具是有用的,有时是有趣的“助手”。对于制造它们的科技巨头来说——并将它们与数据中心的计算机连接起来——它们虽然很小,但却是极其高效的数据收集器。根据消费者情报研究伙伴(Consumer Intelligence Research Partners)的数据,约60%的亚马逊Echo和谷歌家庭用户至少连接了一种家用配件,比如恒温器、安全系统或电器。0b足球语音家居配件可以记录下用户日常生活中的无数事实。亚马逊、谷歌和苹欧宝球网站果积累的数据越多,他们就能更好地服务这些消费者,无论是通过额外的设备、订阅服务,还是代表其他商家做广告。

商业机会是显而易见的。将Echo与恒温器连接起来的消费者可能会接受购买智能照明系统的提议。虽然这听起来可能让隐私倡导者感到毛骨悚然,但科技巨头正坐在个人数据的宝库之上,更好地利用这些数据更有效地向消费者营销。欧宝球网站

就像他们的整体战略一样,科技巨头对他们收集的数据有不同的方法。亚马逊表示,他们使用Alexa的数据使该软件更智能,对客户更有用。欧宝球网站该公司声称,Alexa变得越好,就会有更多的客户看到其产品和服务的价值,包括其Prime会员计划。欧宝球网站尽管亚马逊正在大力推进广告业务——研究公司eMarketer预计该公司2018年将从数字广告中获得46.1亿美元的收入—0b足球—但一位发言人表示,亚马逊目前还没有使用Alexa的数据来销售广告。与直觉相反,谷歌考虑到其庞大的广告业务,也没有将语音定位为广告机会。苹果大肆宣扬自己不愿利用客户数据获取商业利益的优点,称其接近语音功能只是为了改善用户体验,并销售更多昂贵的HomePods。欧宝球网站

尽管是亚马逊的早期的卖点,人们并没有要求他们的设备帮助他们购物。亚马逊不愿透露有多少Echo用户使用该设备购物,但咨询公司Codex Group最近对图书买家的调查表明,这仍处于早期阶段。调查发现,只有8%的人用Echo买书,13%的人用Echo听有声书。“人们是习惯的生物,”研究公司Canalys的分析师文森特·希尔克(Vincent Thielke)说,“当你想买一个咖啡杯时,很难向智能音箱描述0b足球你想要什么。”Canalys专注于科技领域。

亚马逊确实表示,它并没有过度关注Echo作为购物助手的作用,尤其是考虑到该设备与亚马逊通过Prime订阅提供的其他服务的联系。尽管如此,该公司仍希望放置在客户家中的经过亚马逊优化的电脑能提振其零售业务。亚马逊的自然语言处理科学家普拉萨德说:“可供购物的是你的购买历史。”“如果你想买双a电池,你不需要看到它们,也不需要记住哪些电池。如果你以前从未买过电池,我们当然会推荐亚马逊的品牌。”

促进购物的潜力仍然远远大于销售替换电池,特别是因为许多商家都想与科技巨头的平台合作并利用它们。研究公司OC0b足球&C Strategy Consultants预测,到2022年,Echo、谷歌Home等同类产品的语音购物销售额将从目前的20亿美元增长到400亿美元。发言者的关键演变有助于解释这一承诺。亚马逊和谷歌现在都推出了带屏幕的智能家居设备,这些设备让人感觉更像是小型电脑和电视机的混合体,因此更适合在线购物。欧宝球网站亚马逊在2017年春季推出了售价230美元的Echo Show。和其他Echo设备一样,Show也嵌入了Alexa,但它也能让用户看到图像。这意味着购物者可以看到他们订购的产品,以及他们的购物清单、电视节目、音乐歌词、监控摄像头提供的信息,以及在蒙大拿州度假时的照片,而无需按任何按钮或操作电脑鼠标。

谷歌与四家消费电子产品制造商合作,其中一些制造商最近开始销售与谷歌Assistant集成的智能屏幕。例如,联想智能显示器(Lenovo Smart Display)看起来很像Facebook的新Portal,零售价为250美元,与JBL Link View价格相同。LG电子计划推出ThinQ View。今年10月,谷歌开始销售自己的Home Hub,售价149美元,屏幕为7英寸。

从长远来看,谷歌押注于拥有屏幕将使语音购物更容易。这家搜索0b足球公司不像亚马逊那样直接销售产品,但其谷歌购物网站将零售商与谷歌搜索引擎连接起来。它已经将谷歌Home设备作为一种购物工具。它与星巴克,例如,它允许用户告诉谷歌Assistant订购“我通常的”,订单将在到达时准备好。去年,谷歌与沃尔玛沃尔玛是全球最大的零售商。购物者可以将他们现有的沃尔玛在线账户链接到谷歌的购物网站,只需询问谷歌Home,就可以查看最喜欢的跑鞋是否有货,预订平板电视当天取货,或者找到最近的沃尔玛商店。

视觉识别技术的兴起——语音识别的人工智能兄弟,长期以来被用于在人群中匹配罪犯的面孔——将使在这些设备上购物更加方便。欧宝球网站今年9月,亚马逊宣布正在测试Snapchat这款应用可以让购物者用Snapchat的相机拍下产品或条形码,然后在屏幕上看到亚马逊的产品页面。不难想象,购物者的下一步将是使用Echo Show中嵌入的摄像头拍下他们想买的东西,然后在屏幕上看到相同或类似的商品,以及价格、评级,以及是否可以享受Prime两日包邮。

如此激动人心技术是,非技术爱好者可能需要一段时间才能习惯与机器交谈。科技巨头目前不是最受信任的公司,他们需要让消费者相信,他们的设备不是出于邪恶的原因被窃听。智能音箱应该只有在检测到“唤醒词”时才会进入收听模式,比如“Alexa”或“嘿,谷歌”。今年5月,亚马逊(Amazon)错误地将一名波特兰高管与妻子关于硬木地板的对话发给了他的一名员工。亚马逊公开为这次混乱道歉,称它“误解了”这次对话。

语音的潜在错误远远超过打字命令。这可能会产生商业影响。去年,一个6岁的达拉斯女孩和Alexa谈论饼干和玩偶屋,几天后,4磅饼干和一个170美元的玩偶屋被送到了她家的门口。亚马逊表示,Alexa具有家长控制功能,如果使用该功能,就可以防止事故发生。

不过,由于语音连接的世界越来越方便,智能手机可能会被广泛采用。目前已经安欧宝球网站装了超过1亿台这样的设备,并处于监听模式,语音成为人类和机器相互交流的主要方式只是时间问题,即使对话中只有粪便声和尖声的笑声。

布莱恩·杜梅因(Brian Dumaine)是斯克里布纳(Scribner)即将在亚马逊上出版的一本书的作者。

本文原载于2018年11月1日出版的《财富》杂志。欧宝竞技ob