智能水平由數(shù)據(jù)能力決定
張靖笙
關(guān)于智力是先天具足還是后天習(xí)得的爭(zhēng)論自古就有,放到人工智能就演化成設(shè)計(jì)派和學(xué)習(xí)派兩個(gè)學(xué)術(shù)方向。我在上世紀(jì)九十年代末開(kāi)始從事商業(yè)智能方面的數(shù)據(jù)應(yīng)用開(kāi)發(fā),我那時(shí)毫無(wú)疑問(wèn)是屬于設(shè)計(jì)派,今天我卻是不折不扣的學(xué)習(xí)派。
在我十多年的商業(yè)智能項(xiàng)目工作中,我認(rèn)為技術(shù)上做到最高水平的是十多年前在澳門(mén)某本地銀行總行數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目上做的單一授信戶風(fēng)險(xiǎn)查詢分析與預(yù)警應(yīng)用程序,這個(gè)應(yīng)用源自一個(gè)非常復(fù)雜而且后來(lái)不斷加深難度的業(yè)務(wù)需求。我當(dāng)年還是一個(gè)代碼為王的直男碼農(nóng),不喜歡也不善于寫(xiě)文檔,可后來(lái)這個(gè)需求的文檔也累積成近百頁(yè)的word文件,而這些文字陳述的也僅僅是需求的幾分乃至于十分之一,其他很難言傳的細(xì)節(jié)只能體現(xiàn)在程序代碼里,而這些代碼又是邊聽(tīng)需求邊分析、邊開(kāi)發(fā)、邊調(diào)試、邊修正這樣形成的,當(dāng)然關(guān)于這個(gè)應(yīng)用的需求和解決方案最后只停留在我一個(gè)人的頭腦里面,我當(dāng)時(shí)也沒(méi)有足夠的理論水平予以建構(gòu),后來(lái)做完了也沒(méi)有總結(jié)的動(dòng)力,很多寶貴的設(shè)計(jì)細(xì)節(jié)隨時(shí)間流逝遺忘了,甚至今天我自己再看這些文檔和代碼都有些搞不清楚其中的玄機(jī)了。
簡(jiǎn)單描述一下,通過(guò)這個(gè)程序幾乎可以遍歷到當(dāng)時(shí)澳門(mén)常住人口一半以上的各種融資擔(dān)保社會(huì)關(guān)系,全量數(shù)據(jù)每跑一次都要花上若干小時(shí)才能出結(jié)果,是的,這背后的算法就近乎于是一個(gè)社會(huì)金融關(guān)系關(guān)聯(lián)分析的數(shù)據(jù)挖掘算法。這個(gè)程序連實(shí)際數(shù)據(jù)試運(yùn)行和優(yōu)化做了大概一年多時(shí)間左右,開(kāi)發(fā)成果客戶是滿意的,他們根據(jù)這個(gè)程序的數(shù)據(jù)輸出報(bào)告專門(mén)成立了一個(gè)全行級(jí)信貸數(shù)據(jù)風(fēng)險(xiǎn)分析委員會(huì),直接影響到對(duì)其每一筆授信和信貸業(yè)務(wù)的審批決策。
但我今天回憶起來(lái),卻對(duì)自己在這個(gè)項(xiàng)目的表現(xiàn)有些不滿意,也覺(jué)得很可惜,浪費(fèi)了一次非常寶貴的實(shí)戰(zhàn)突破機(jī)會(huì)。這個(gè)項(xiàng)目的數(shù)據(jù)應(yīng)用深度完全是由客戶需求提出人、該總行信貸業(yè)務(wù)負(fù)責(zé)人何高理高超的業(yè)務(wù)水平?jīng)Q定的,當(dāng)年我沒(méi)有咨詢顧問(wèn)的功力,實(shí)際上就是根據(jù)何高理的需求,學(xué)習(xí)消化何高理的業(yè)務(wù)和思路之后把加工數(shù)據(jù)的計(jì)算機(jī)程序編寫(xiě)出來(lái),除此之外我并沒(méi)有更多的創(chuàng)造和賦能。
換句話說(shuō),我的當(dāng)年和眾多的程序員是一樣的,我們的應(yīng)用開(kāi)發(fā)高度完全取決于需求提出者的業(yè)務(wù)水平和數(shù)據(jù)理解,我做過(guò)的商業(yè)智能項(xiàng)目中,除了澳門(mén)大豐、銀監(jiān)會(huì)、華為、廣汽本田這些甲方有數(shù)據(jù)能力和理解水平很高的需求提出人員,其余大部分的商業(yè)智能應(yīng)用水平也就是簡(jiǎn)單查詢和報(bào)表開(kāi)發(fā),數(shù)據(jù)智能水平其實(shí)很低下或者說(shuō)初級(jí)。
我后來(lái)為什么皈依了學(xué)習(xí)派,也是因?yàn)槲以趯?shí)際工作中逐漸感悟到了設(shè)計(jì)的巨大瓶頸和局限。我不能抱怨我過(guò)去客戶的需求水平,歸根到底還是我當(dāng)時(shí)缺乏人工智能學(xué)習(xí)派的理論水平和從事數(shù)字化戰(zhàn)略咨詢工作以后的顧問(wèn)功力,要不我過(guò)去曾面對(duì)這么多寶貴的數(shù)據(jù)資源,是可以做出比程序設(shè)計(jì)高出十倍百倍的數(shù)據(jù)創(chuàng)新智能應(yīng)用的。
人工智能許多早期的成功發(fā)生在相對(duì)樸素且形式化的應(yīng)用環(huán)境中,而且不要求計(jì)算機(jī)具備很多關(guān)于世界的知識(shí),那些可以通過(guò)一系列形式化的數(shù)學(xué)規(guī)則來(lái)描述的問(wèn)題,對(duì)計(jì)算機(jī)來(lái)說(shuō)只要可以轉(zhuǎn)化成算法程序,依靠計(jì)算機(jī)強(qiáng)大的算力讓問(wèn)題得到迅速解決,例如IBM的深藍(lán)國(guó)際象棋系統(tǒng)打敗了人類的世界冠軍。依靠預(yù)先設(shè)計(jì)的算法來(lái)解決智能問(wèn)題,這就是所謂設(shè)計(jì)派的路數(shù),而其最大死穴也在于妄圖用復(fù)雜的算法解決智能問(wèn)題的一切,這個(gè)套路在上世紀(jì)六十年代末幾乎走不下去。
就像我在澳門(mén)某銀行開(kāi)發(fā)的那個(gè)商業(yè)智能應(yīng)用,雖然我們已經(jīng)研究得足以深入,可這種精心設(shè)計(jì)的算法實(shí)際上也僅僅把何高理那些可以言傳的顯性知識(shí)轉(zhuǎn)化成為計(jì)算機(jī)的搜索+統(tǒng)計(jì)分析算法,就我的了解,所體現(xiàn)的僅僅是何高理深不可測(cè)的專業(yè)智慧冰山中顯露出來(lái)的一角,我花了一年時(shí)間也就學(xué)了點(diǎn)皮毛,更遑論發(fā)掘出什么我們都意想不到的隱性知識(shí)模式,做到后面再發(fā)展也比較吃力了。
比較諷刺的是,抽象和形式化的任務(wù)對(duì)人類而言是最困難的腦力任務(wù)之一,但對(duì)計(jì)算機(jī)而言卻屬于最容易的。計(jì)算機(jī)雖然能夠打敗人類最好的世界象棋選手,但直到最近計(jì)算機(jī)才在識(shí)別對(duì)象或語(yǔ)音任務(wù)中達(dá)到人類的中低水平,一個(gè)人的日常生活需要關(guān)于世界的巨量知識(shí)。很多這方面的知識(shí)是主觀的、經(jīng)驗(yàn)化和個(gè)性化的,因此很難通過(guò)形式化的方式表達(dá)清楚。計(jì)算機(jī)需要獲取同樣的知識(shí)才能表現(xiàn)出智能,人工智能的一個(gè)關(guān)鍵挑戰(zhàn)就是如何將這些非形式化的知識(shí)傳達(dá)給計(jì)算機(jī),以讓其人工智能系統(tǒng)能解決現(xiàn)實(shí)中一些對(duì)人來(lái)說(shuō)很顯而易見(jiàn)的常識(shí)問(wèn)題。
于是我們可以看到,即使在相對(duì)樸素且形式化的環(huán)境中,設(shè)計(jì)派的人工智能系統(tǒng),在業(yè)界也被稱為“人工智能1.0”也很快遇到發(fā)展不下去的窘境,被深藍(lán)打敗的國(guó)際象棋世界冠軍知道算法原理后也很不服氣,認(rèn)為比賽并不公平,他只是被自己的失誤所打敗的。
到上世紀(jì)七十年代,人工智能的發(fā)展開(kāi)始嘗試走上數(shù)據(jù)驅(qū)動(dòng)的道路,簡(jiǎn)單來(lái)說(shuō)是我之前曾解釋過(guò)的從數(shù)據(jù)中學(xué)習(xí)新知識(shí)的方法和手段,就是實(shí)現(xiàn)對(duì)數(shù)據(jù)資源的學(xué)習(xí)行為,幫助人類和計(jì)算機(jī)從現(xiàn)有的數(shù)據(jù)資源中獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身表現(xiàn)及技能。數(shù)據(jù)或者我所定義的數(shù)據(jù)學(xué)習(xí)驅(qū)動(dòng)下的人工智能,現(xiàn)在被稱為人工智能2.0。
引用吳軍博士的觀點(diǎn):“在有大數(shù)據(jù)之前,計(jì)算機(jī)并不擅長(zhǎng)解決需要人類智能來(lái)解決的問(wèn)題,但是今天這些問(wèn)題換了一個(gè)思路加以解決,其核心就是變智能問(wèn)題為數(shù)據(jù)問(wèn)題?!睂?duì)此觀點(diǎn),我大體上是認(rèn)同的,只是我認(rèn)為智能問(wèn)題并不能等價(jià)于數(shù)據(jù)問(wèn)題,我們用數(shù)據(jù)學(xué)習(xí)的方法來(lái)解決智能問(wèn)題,這中間涉及知識(shí)的數(shù)據(jù)表示或者數(shù)據(jù)建模的技術(shù)問(wèn)題,如果不解決這個(gè)技術(shù)問(wèn)題,智能問(wèn)題也無(wú)法轉(zhuǎn)化為數(shù)據(jù)問(wèn)題而加以有效解決。
其實(shí)設(shè)計(jì)派和學(xué)習(xí)派兩個(gè)人工智能方向都各有長(zhǎng)短,一般而言,設(shè)計(jì)派的人工智能算法基于嚴(yán)謹(jǐn)?shù)倪壿嬐评砗蛿?shù)學(xué)分析,結(jié)果是比較精準(zhǔn)、穩(wěn)定而高效的,而對(duì)于現(xiàn)實(shí)世界中大多數(shù)智能應(yīng)用場(chǎng)景,很難排除無(wú)限的環(huán)境影響因素而只關(guān)心有限幾個(gè)抽象變量之間的變化規(guī)律,所以設(shè)計(jì)派做再多的努力都難免百密一疏,這一疏就足以讓其前功盡棄,而學(xué)習(xí)派的智能系統(tǒng)卻能隨著數(shù)據(jù)學(xué)習(xí)經(jīng)驗(yàn)的積累而越來(lái)越聰明。
今天對(duì)大數(shù)據(jù)的深度學(xué)習(xí)事實(shí)上是AI向強(qiáng)人工智能應(yīng)用向上發(fā)展的主流,數(shù)據(jù)是人工智能的基礎(chǔ),如我在《數(shù)字化轉(zhuǎn)型首先要提升數(shù)據(jù)學(xué)習(xí)能力》一文中的分析,即使淺表學(xué)習(xí)的低智能應(yīng)用也需要有相應(yīng)的數(shù)據(jù)能力支撐,沒(méi)有數(shù)據(jù)基礎(chǔ)的智能應(yīng)用只能是巧婦難為無(wú)米之炊,這個(gè)道理已經(jīng)是比較淺白的了。
我說(shuō)“智能水平由數(shù)據(jù)能力決定”這句話的意思,是對(duì)當(dāng)前我國(guó)廣大組織普遍的數(shù)據(jù)管理和應(yīng)用能力而言,各組織低下的數(shù)據(jù)能力,不但制約了對(duì)人工智能技術(shù)的應(yīng)用水平,還是數(shù)字化轉(zhuǎn)型最主要的瓶頸,這時(shí)組織遇到大量的數(shù)據(jù)問(wèn)題不是智能問(wèn)題,本質(zhì)上還是落后的管理水平或者生產(chǎn)力的問(wèn)題,在數(shù)據(jù)能力低下的基礎(chǔ)上,我們做不出人工智能系統(tǒng),只能做出大量的人工愚蠢系統(tǒng)或人工弱智系統(tǒng)。
既然我提出的數(shù)據(jù)學(xué)習(xí)概念不僅僅是針對(duì)機(jī)器,對(duì)于我們?nèi)祟愔悄軄?lái)說(shuō),“智能水平由數(shù)據(jù)能力決定”這句話是否也有效呢?我認(rèn)為也是有效的,我們?nèi)祟惖乃季S活動(dòng)同樣也需要“數(shù)據(jù)”,這些“數(shù)據(jù)”就是我們頭腦里面通過(guò)感知和認(rèn)知所獲得的各種經(jīng)驗(yàn)和體驗(yàn)的記憶,常言道:“實(shí)踐出真知”、“吃一塹長(zhǎng)一智”,我們的經(jīng)驗(yàn)越多,我們頭腦里面的“數(shù)據(jù)”量就越來(lái)越多,而形成人類創(chuàng)造性思維主力的頓悟就是基于這些“數(shù)據(jù)”的厚積薄發(fā),要是我們的“數(shù)據(jù)”不夠,創(chuàng)新淪為撞大運(yùn)或瞎折騰。
最后分享點(diǎn)小心得,我發(fā)現(xiàn)通過(guò)碼文字寫(xiě)文章,我頭腦里很多模糊的認(rèn)知可以轉(zhuǎn)化成為條理清晰的文本數(shù)據(jù),這無(wú)疑也是一種有效的數(shù)據(jù)治理行動(dòng),這些治理過(guò)的數(shù)據(jù)能大大提升我的學(xué)習(xí)能力,從而高效加深我對(duì)知識(shí)的理解。
(本稿完成于2020年7月8日,如需轉(zhuǎn)載請(qǐng)注明出處)