亞馬遜于 2014 年推出的 Echo 設備普及了設備的概念,其中唯一的交互方式是通過(guò)語(yǔ)音和對話(huà)?,F在似乎每個(gè)月都會(huì )在處理語(yǔ)音命令和執行操作的專(zhuān)用設備方面帶來(lái)新的發(fā)展。然而,這些設備究竟是什么?
大眾媒體稱(chēng)它們?yōu)椤爸悄芤粝洹被颉罢Z(yǔ)音助手”或“智能個(gè)人助理”,但這兩個(gè)詞并不完全相似。智能音箱讓人聯(lián)想到一個(gè)主要面向輸出的設備,旨在用語(yǔ)音命令取代鍵盤(pán)或按鈕交互。然而,對于亞馬遜、谷歌、微軟、蘋(píng)果、阿里巴巴、騰訊、三星、百度等公司投資的數十億美元來(lái)說(shuō),這是一個(gè)特別微不足道的應用程序,這些公司認為這是一個(gè)試圖占據主導地位的關(guān)鍵市場(chǎng)。畢竟,如果所有這些供應商所做的只是允許您根據聲音要求播放 Taylor Swift 或讓您詢(xún)問(wèn)天氣,為什么所有這些供應商都如此積極地營(yíng)銷(xiāo)和推廣這些設備?
顯然,這里有比簡(jiǎn)單的聲控揚聲器更大的作用。智能音箱是一種與客戶(hù)群進(jìn)行更智能互動(dòng)、進(jìn)入更多家庭和企業(yè)并讓人們習慣使用這些設備的方式。真正的游戲不僅僅是您可以用聲音控制的揚聲器。動(dòng)力不在于音箱,而在于為設備供電的基于云的技術(shù),不是智能音箱,智能對話(huà)助手。
如果您詢(xún)問(wèn) Amazon 和其他公司,您就會(huì )知道播放音樂(lè )、游戲和簡(jiǎn)單地回答查詢(xún)并不是他們對這些對話(huà)網(wǎng)關(guān)設備的愿景的最終狀態(tài)。這些設備是低成本的輸入和輸出硬件,是通往位于主要科技公司數據中心的更強大基礎設施的門(mén)戶(hù)。智能對話(huà)助手不僅可以作為被動(dòng)設備,還可以代表您主動(dòng)采取行動(dòng),執行需要與其他人互動(dòng)的任務(wù),也許很快,另一端的其他對話(huà)助手。具有諷刺意味的是,揚聲器部分是實(shí)現它的最不相關(guān)的部分。它只是提供輸出。所有功率都發(fā)生在該輸出之前。
的確,會(huì )話(huà)設備到底在哪里?例如,在 Google 助理與餐廳互動(dòng)進(jìn)行預訂的 Google Duplex 演示中,揚聲器本身甚至不在那里。這一切都發(fā)生在基于云的交互的幕后。我們沒(méi)有看到設備,因為這里不需要設備。這些設備只是通往基于云的數據中心中發(fā)生的真實(shí)活動(dòng)的網(wǎng)關(guān)。在 Google Duplex 演示中,對話(huà)代理完全在 Google 數據中心的幕后運作,通過(guò) IP 電話(huà) (VoIP) 電話(huà)線(xiàn)與另一端的人進(jìn)行交互。
這些設備有多智能?
2018 年,Cognilytica 宣布創(chuàng )建語(yǔ)音助手基準測試以測試設備的智能,并在 2019 年跟進(jìn)了另一個(gè)基準測試?;鶞蕼y試的目的不是測試設備的自然語(yǔ)言處理 (NLP) 或自然語(yǔ)言生成 (NLG) 功能,這些功能現在對于想要獲得高質(zhì)量自然語(yǔ)言功能的任何人來(lái)說(shuō)都是相當標準的?;鶞蕼y試的目的也不是查看這些設備可以執行什么樣的技能。我們知道,更好的 NLP/NLG 意味著(zhù)能夠處理更廣泛的語(yǔ)音、口音、語(yǔ)言和說(shuō)話(huà)者特征,更多的技能意味著(zhù)更多的單任務(wù)能力。就我們而言,這些都是“賭注”?;鶞蕼y試的目的是了解這些設備的真正智能程度,而不僅僅是聲控搜索和檢索工具。
如果設備的力量不在于設備本身,而在于賦予這些設備真正功能的后端智能,那么我們需要測試一下后端到底有多智能。當你將兩件事放在一起比較時(shí),對話(huà)代理能理解嗎?他們是否理解需要常識或文化知識的隱含的不言而喻的事情?例如,安排理發(fā)預約的對話(huà)代理應該知道您不應該在上次理發(fā)后幾天安排理發(fā),或者在晚宴前安排根管牙醫預約。這些是人類(lèi)可以做的事情,因為我們擁有知識、智慧和常識。然而,正如我們在最初的基準測試中所展示的那樣,無(wú)論是 Google Home、Amazon Echo 還是 Apple Siri 設備都無(wú)法回答“什么更大:太陽(yáng)還是地球?”這個(gè)問(wèn)題。您會(huì )相信這些設備會(huì )影響您的生活嗎?沒(méi)有。但是,我們的目標是幫助朝著(zhù)這個(gè)方向發(fā)展。
智能對話(huà)助理的意義
在不遠的將來(lái),智能助手將無(wú)處不在。在我們的個(gè)人和商業(yè)生活中,我們每天都會(huì )與他們互動(dòng)。我們將與家中的助理聊天,并與其他人和企業(yè)的對話(huà)代理互動(dòng)。在未來(lái),每個(gè)人都將擁有個(gè)人電子虛擬助理,我們將讓他們做所有事情,從在您舉辦生日派對時(shí)向朋友發(fā)送消息,到為該派對安排所有后勤工作,再到處理遲到者的來(lái)電誰(shuí)做不到。很快,就像我們現在依賴(lài) GPS 系統防止迷路和我們的手機讓我們始終保持聯(lián)系一樣,我們將依賴(lài)這些智能助手來(lái)維持我們的生活。
在我們的助手成為我們在科幻電影和電視節目中看到的那種類(lèi)型之前,我們還有很長(cháng)的路要走。如果我們想讓我們的智能對話(huà)助手像《星際迷航:下一代》中的計算機一樣,我們需要它們變得更有用、更智能、更值得信賴(lài)。這就是為什么我們需要智能助手而不僅僅是所謂的“智能音箱”。