AI這個詞是在1955年由達(dá)特茅斯大學(xué)的數(shù)學(xué)教授John McCarthy提出的,他在次年組織了這個主題的開創(chuàng)性會議。從那以后,或許是由于這個令人回味名字的原因,這個領(lǐng)域的發(fā)展遠(yuǎn)遠(yuǎn)超過了人們的想象。1957年,經(jīng)濟(jì)學(xué)家 Herbert Simon 預(yù)言計算機(jī)將在10年內(nèi)擊敗人類(實際上花了40年)。1967年,認(rèn)知科學(xué)家Marvin Minsky說,“在一代人的時間內(nèi),人工智能的問題將得到極大的解決?!?Simon和Minsky都是智力巨人,但顯然他們都錯了。
我們先來看看AI已經(jīng)在做什么,以及這個領(lǐng)域的進(jìn)展有多快。最大的進(jìn)展來自于兩大領(lǐng)域:感知(perception)和認(rèn)知(cognition)。在前一類中,最前沿的進(jìn)展大部分是和語音相關(guān)的。語音識別還沒有達(dá)到完美,但現(xiàn)在有數(shù)百萬人已經(jīng)在使用它們了——想想Siri、Alexa和Google Assistant。你現(xiàn)在正在閱讀的這篇文章最初是由我們口述給計算機(jī)的,已經(jīng)比我們自己打字更快了。斯坦福大學(xué)計算機(jī)科學(xué)家James Landay和他的同事進(jìn)行的一項研究發(fā)現(xiàn),語音識別的速度大約是手機(jī)上打字速度的三倍。語音識別的錯誤率已經(jīng)從過去的8.5%,下降到4.9%了。令人驚訝的是,這種實質(zhì)性的進(jìn)步并非在過去10年,而是從2016年夏天開始。
圖像識別領(lǐng)域的進(jìn)展也讓人驚嘆。你可能已經(jīng)注意到,F(xiàn)acebook和其他app現(xiàn)在已經(jīng)能從你上傳的圖片中識別出你的朋友,并提示你用他們的名字來標(biāo)記他們。在你的智能手機(jī)上運行的app可以識別任何野生鳥類。圖像識別甚至取代了公司門禁卡。自動駕駛汽車中所使用的視覺系統(tǒng),在識別一個行人的時候,通常會在30幀中出現(xiàn)一次錯誤(在這些系統(tǒng)中,相機(jī)記錄大約每秒30幀);而現(xiàn)在,它們的錯誤頻率要少于1千萬幀。ImageNet這個大型數(shù)據(jù)庫中識別圖像的錯誤率,已經(jīng)從2010年的30%下降到了2016年的4%。
近年來,隨著大規(guī)模深度神經(jīng)網(wǎng)絡(luò)的使用,AI領(lǐng)域的進(jìn)展日新月異。當(dāng)然,目前基于機(jī)器學(xué)習(xí)的視覺系統(tǒng)還遠(yuǎn)遠(yuǎn)沒有完美無缺——但即使是人也不是無所不能的嘛。
AI領(lǐng)域第二類的主要進(jìn)步是集中在認(rèn)知和問題解決方向。機(jī)器已經(jīng)打敗了最優(yōu)秀的(人類)撲克玩家和圍棋選手——雖然原來專家們預(yù)測至少還要再過十年。谷歌的DeepMind團(tuán)隊使用了機(jī)器學(xué)習(xí)系統(tǒng)來提高數(shù)據(jù)中心的冷卻效率提升了15%。像Paypal這樣注重網(wǎng)絡(luò)安全的公司也正在用AI來檢測惡意軟件。由IBM技術(shù)支撐的系統(tǒng)使得新加坡一家保險公司的索賠過程進(jìn)入了自動化。數(shù)十家公司正在使用機(jī)器學(xué)習(xí)來幫助進(jìn)行金融交易決策,而且越來越多的信貸決定是在AI幫助下做出的。亞馬遜采用機(jī)器學(xué)習(xí)來優(yōu)化庫存,并提升給客戶的產(chǎn)品推薦。Infinite Analytics公司開發(fā)了一個機(jī)器學(xué)習(xí)系統(tǒng)來預(yù)測用戶是否會點擊某個特定的廣告,為一家全球消費包裝產(chǎn)品公司的在線廣告位置進(jìn)行了優(yōu)化。另一個開發(fā)的系統(tǒng)幫助巴西的一家在線零售商改進(jìn)客戶的搜索和發(fā)現(xiàn)過程。第一個系統(tǒng)將廣告的ROI提升了三倍,而第二個系統(tǒng)使得年收入增加了1.25億美元。
機(jī)器學(xué)習(xí)系統(tǒng)不僅在許多應(yīng)用中取代了舊有的算法,而且在許多曾經(jīng)被人類做得最好的任務(wù)上也占盡先機(jī)。盡管這些系統(tǒng)并不完美,但它們的錯誤率已經(jīng)表現(xiàn)比人類更好了。語音識別,即使在嘈雜的環(huán)境中,現(xiàn)在也幾乎等同于人類的表現(xiàn)。這為改變?nèi)藗兊墓ぷ骱徒?jīng)濟(jì)帶來了巨大的新可能性。一旦基于AI的系統(tǒng)在給定的任務(wù)中超過人類的表現(xiàn),它們就更有可能迅速傳播。例如,Aptonomy和Sanbot,這兩家分別是無人機(jī)和機(jī)器人的制造商,他們正在使用改進(jìn)的視覺系統(tǒng)來自動化大部分保安人員的工作。軟件公司Affectiva使用它們來識別諸如快樂、驚訝和焦點小組的憤怒等情緒。Enlitic是幾家利用AI來識別醫(yī)療影像,進(jìn)而幫助診斷癌癥的深度學(xué)習(xí)的初創(chuàng)公司之一。
這些成果都令人印象深刻,但是基于AI的系統(tǒng)的適用性仍然相當(dāng)狹窄。例如,既然AI在擁有數(shù)百萬圖片的ImageNet數(shù)據(jù)庫上表現(xiàn)出色,也并不總能在現(xiàn)實環(huán)境中取得同樣的成功。因為在現(xiàn)實世界里,光線條件、角度、圖像分辨率和背景可能會非常不同。更重要的是,如果人類完成了一項任務(wù),我們會很自然地假設(shè)此人在相關(guān)任務(wù)中具有一定的能力。但是,機(jī)器學(xué)習(xí)系統(tǒng)是被訓(xùn)練來完成特定的任務(wù),因此通常他們的知識不會泛化。我們離那些能在不同領(lǐng)域展現(xiàn)通用智力的機(jī)器還非常遙遠(yuǎn)。