123,123

張靖笙:智能水平由數(shù)據(jù)能力決定

2020-07-08 2436

智能水平由數(shù)據(jù)能力決定

張靖笙

關(guān)于智力是先天具足還是后天習(xí)得的爭(zhēng)論自古就有，放到人工智能就演化成設(shè)計(jì)派和學(xué)習(xí)派兩個(gè)學(xué)術(shù)方向。我在上世紀(jì)九十年代末開始從事商業(yè)智能方面的數(shù)據(jù)應(yīng)用開發(fā)，我那時(shí)毫無疑問是屬于設(shè)計(jì)派，今天我卻是不折不扣的學(xué)習(xí)派。

在我十多年的商業(yè)智能項(xiàng)目工作中，我認(rèn)為技術(shù)上做到最高水平的是十多年前在澳門某本地銀行總行數(shù)據(jù)倉庫項(xiàng)目上做的單一授信戶風(fēng)險(xiǎn)查詢分析與預(yù)警應(yīng)用程序，這個(gè)應(yīng)用源自一個(gè)非常復(fù)雜而且后來不斷加深難度的業(yè)務(wù)需求。我當(dāng)年還是一個(gè)代碼為王的直男碼農(nóng)，不喜歡也不善于寫文檔，可后來這個(gè)需求的文檔也累積成近百頁的word文件，而這些文字陳述的也僅僅是需求的幾分乃至于十分之一，其他很難言傳的細(xì)節(jié)只能體現(xiàn)在程序代碼里，而這些代碼又是邊聽需求邊分析、邊開發(fā)、邊調(diào)試、邊修正這樣形成的，當(dāng)然關(guān)于這個(gè)應(yīng)用的需求和解決方案最后只停留在我一個(gè)人的頭腦里面，我當(dāng)時(shí)也沒有足夠的理論水平予以建構(gòu)，后來做完了也沒有總結(jié)的動(dòng)力，很多寶貴的設(shè)計(jì)細(xì)節(jié)隨時(shí)間流逝遺忘了，甚至今天我自己再看這些文檔和代碼都有些搞不清楚其中的玄機(jī)了。

簡(jiǎn)單描述一下，通過這個(gè)程序幾乎可以遍歷到當(dāng)時(shí)澳門常住人口一半以上的各種融資擔(dān)保社會(huì)關(guān)系，全量數(shù)據(jù)每跑一次都要花上若干小時(shí)才能出結(jié)果，是的，這背后的算法就近乎于是一個(gè)社會(huì)金融關(guān)系關(guān)聯(lián)分析的數(shù)據(jù)挖掘算法。這個(gè)程序連實(shí)際數(shù)據(jù)試運(yùn)行和優(yōu)化做了大概一年多時(shí)間左右，開發(fā)成果客戶是滿意的，他們根據(jù)這個(gè)程序的數(shù)據(jù)輸出報(bào)告專門成立了一個(gè)全行級(jí)信貸數(shù)據(jù)風(fēng)險(xiǎn)分析委員會(huì)，直接影響到對(duì)其每一筆授信和信貸業(yè)務(wù)的審批決策。

但我今天回憶起來，卻對(duì)自己在這個(gè)項(xiàng)目的表現(xiàn)有些不滿意，也覺得很可惜，浪費(fèi)了一次非常寶貴的實(shí)戰(zhàn)突破機(jī)會(huì)。這個(gè)項(xiàng)目的數(shù)據(jù)應(yīng)用深度完全是由客戶需求提出人、該總行信貸業(yè)務(wù)負(fù)責(zé)人何高理高超的業(yè)務(wù)水平?jīng)Q定的，當(dāng)年我沒有咨詢顧問的功力，實(shí)際上就是根據(jù)何高理的需求，學(xué)習(xí)消化何高理的業(yè)務(wù)和思路之后把加工數(shù)據(jù)的計(jì)算機(jī)程序編寫出來，除此之外我并沒有更多的創(chuàng)造和賦能。

換句話說，我的當(dāng)年和眾多的程序員是一樣的，我們的應(yīng)用開發(fā)高度完全取決于需求提出者的業(yè)務(wù)水平和數(shù)據(jù)理解，我做過的商業(yè)智能項(xiàng)目中，除了澳門大豐、銀監(jiān)會(huì)、華為、廣汽本田這些甲方有數(shù)據(jù)能力和理解水平很高的需求提出人員，其余大部分的商業(yè)智能應(yīng)用水平也就是簡(jiǎn)單查詢和報(bào)表開發(fā)，數(shù)據(jù)智能水平其實(shí)很低下或者說初級(jí)。

我后來為什么皈依了學(xué)習(xí)派，也是因?yàn)槲以趯?shí)際工作中逐漸感悟到了設(shè)計(jì)的巨大瓶頸和局限。我不能抱怨我過去客戶的需求水平，歸根到底還是我當(dāng)時(shí)缺乏人工智能學(xué)習(xí)派的理論水平和從事數(shù)字化戰(zhàn)略咨詢工作以后的顧問功力，要不我過去曾面對(duì)這么多寶貴的數(shù)據(jù)資源，是可以做出比程序設(shè)計(jì)高出十倍百倍的數(shù)據(jù)創(chuàng)新智能應(yīng)用的。

人工智能許多早期的成功發(fā)生在相對(duì)樸素且形式化的應(yīng)用環(huán)境中，而且不要求計(jì)算機(jī)具備很多關(guān)于世界的知識(shí)，那些可以通過一系列形式化的數(shù)學(xué)規(guī)則來描述的問題，對(duì)計(jì)算機(jī)來說只要可以轉(zhuǎn)化成算法程序，依靠計(jì)算機(jī)強(qiáng)大的算力讓問題得到迅速解決，例如IBM的深藍(lán)國際象棋系統(tǒng)打敗了人類的世界冠軍。依靠預(yù)先設(shè)計(jì)的算法來解決智能問題，這就是所謂設(shè)計(jì)派的路數(shù)，而其最大死穴也在于妄圖用復(fù)雜的算法解決智能問題的一切，這個(gè)套路在上世紀(jì)六十年代末幾乎走不下去。

就像我在澳門某銀行開發(fā)的那個(gè)商業(yè)智能應(yīng)用，雖然我們已經(jīng)研究得足以深入，可這種精心設(shè)計(jì)的算法實(shí)際上也僅僅把何高理那些可以言傳的顯性知識(shí)轉(zhuǎn)化成為計(jì)算機(jī)的搜索+統(tǒng)計(jì)分析算法，就我的了解，所體現(xiàn)的僅僅是何高理深不可測(cè)的專業(yè)智慧冰山中顯露出來的一角，我花了一年時(shí)間也就學(xué)了點(diǎn)皮毛，更遑論發(fā)掘出什么我們都意想不到的隱性知識(shí)模式，做到后面再發(fā)展也比較吃力了。

比較諷刺的是，抽象和形式化的任務(wù)對(duì)人類而言是最困難的腦力任務(wù)之一，但對(duì)計(jì)算機(jī)而言卻屬于最容易的。計(jì)算機(jī)雖然能夠打敗人類最好的世界象棋選手，但直到最近計(jì)算機(jī)才在識(shí)別對(duì)象或語音任務(wù)中達(dá)到人類的中低水平，一個(gè)人的日常生活需要關(guān)于世界的巨量知識(shí)。很多這方面的知識(shí)是主觀的、經(jīng)驗(yàn)化和個(gè)性化的，因此很難通過形式化的方式表達(dá)清楚。計(jì)算機(jī)需要獲取同樣的知識(shí)才能表現(xiàn)出智能，人工智能的一個(gè)關(guān)鍵挑戰(zhàn)就是如何將這些非形式化的知識(shí)傳達(dá)給計(jì)算機(jī)，以讓其人工智能系統(tǒng)能解決現(xiàn)實(shí)中一些對(duì)人來說很顯而易見的常識(shí)問題。

于是我們可以看到，即使在相對(duì)樸素且形式化的環(huán)境中，設(shè)計(jì)派的人工智能系統(tǒng)，在業(yè)界也被稱為“人工智能1.0”也很快遇到發(fā)展不下去的窘境，被深藍(lán)打敗的國際象棋世界冠軍知道算法原理后也很不服氣，認(rèn)為比賽并不公平，他只是被自己的失誤所打敗的。

到上世紀(jì)七十年代，人工智能的發(fā)展開始嘗試走上數(shù)據(jù)驅(qū)動(dòng)的道路，簡(jiǎn)單來說是我之前曾解釋過的從數(shù)據(jù)中學(xué)習(xí)新知識(shí)的方法和手段，就是實(shí)現(xiàn)對(duì)數(shù)據(jù)資源的學(xué)習(xí)行為，幫助人類和計(jì)算機(jī)從現(xiàn)有的數(shù)據(jù)資源中獲取新的知識(shí)或技能，重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身表現(xiàn)及技能。數(shù)據(jù)或者我所定義的數(shù)據(jù)學(xué)習(xí)驅(qū)動(dòng)下的人工智能，現(xiàn)在被稱為人工智能2.0。

引用吳軍博士的觀點(diǎn):“在有大數(shù)據(jù)之前，計(jì)算機(jī)并不擅長(zhǎng)解決需要人類智能來解決的問題，但是今天這些問題換了一個(gè)思路加以解決，其核心就是變智能問題為數(shù)據(jù)問題?！睂?duì)此觀點(diǎn)，我大體上是認(rèn)同的，只是我認(rèn)為智能問題并不能等價(jià)于數(shù)據(jù)問題，我們用數(shù)據(jù)學(xué)習(xí)的方法來解決智能問題，這中間涉及知識(shí)的數(shù)據(jù)表示或者數(shù)據(jù)建模的技術(shù)問題，如果不解決這個(gè)技術(shù)問題，智能問題也無法轉(zhuǎn)化為數(shù)據(jù)問題而加以有效解決。

其實(shí)設(shè)計(jì)派和學(xué)習(xí)派兩個(gè)人工智能方向都各有長(zhǎng)短，一般而言，設(shè)計(jì)派的人工智能算法基于嚴(yán)謹(jǐn)?shù)倪壿嬐评砗蛿?shù)學(xué)分析，結(jié)果是比較精準(zhǔn)、穩(wěn)定而高效的，而對(duì)于現(xiàn)實(shí)世界中大多數(shù)智能應(yīng)用場(chǎng)景，很難排除無限的環(huán)境影響因素而只關(guān)心有限幾個(gè)抽象變量之間的變化規(guī)律，所以設(shè)計(jì)派做再多的努力都難免百密一疏，這一疏就足以讓其前功盡棄，而學(xué)習(xí)派的智能系統(tǒng)卻能隨著數(shù)據(jù)學(xué)習(xí)經(jīng)驗(yàn)的積累而越來越聰明。

今天對(duì)大數(shù)據(jù)的深度學(xué)習(xí)事實(shí)上是AI向強(qiáng)人工智能應(yīng)用向上發(fā)展的主流，數(shù)據(jù)是人工智能的基礎(chǔ)，如我在《數(shù)字化轉(zhuǎn)型首先要提升數(shù)據(jù)學(xué)習(xí)能力》一文中的分析，即使淺表學(xué)習(xí)的低智能應(yīng)用也需要有相應(yīng)的數(shù)據(jù)能力支撐，沒有數(shù)據(jù)基礎(chǔ)的智能應(yīng)用只能是巧婦難為無米之炊，這個(gè)道理已經(jīng)是比較淺白的了。

我說“智能水平由數(shù)據(jù)能力決定”這句話的意思，是對(duì)當(dāng)前我國廣大組織普遍的數(shù)據(jù)管理和應(yīng)用能力而言，各組織低下的數(shù)據(jù)能力，不但制約了對(duì)人工智能技術(shù)的應(yīng)用水平，還是數(shù)字化轉(zhuǎn)型最主要的瓶頸，這時(shí)組織遇到大量的數(shù)據(jù)問題不是智能問題，本質(zhì)上還是落后的管理水平或者生產(chǎn)力的問題，在數(shù)據(jù)能力低下的基礎(chǔ)上，我們做不出人工智能系統(tǒng)，只能做出大量的人工愚蠢系統(tǒng)或人工弱智系統(tǒng)。

既然我提出的數(shù)據(jù)學(xué)習(xí)概念不僅僅是針對(duì)機(jī)器，對(duì)于我們?nèi)祟愔悄軄碚f，“智能水平由數(shù)據(jù)能力決定”這句話是否也有效呢？我認(rèn)為也是有效的，我們?nèi)祟惖乃季S活動(dòng)同樣也需要“數(shù)據(jù)”，這些“數(shù)據(jù)”就是我們頭腦里面通過感知和認(rèn)知所獲得的各種經(jīng)驗(yàn)和體驗(yàn)的記憶，常言道：“實(shí)踐出真知”、“吃一塹長(zhǎng)一智”，我們的經(jīng)驗(yàn)越多，我們頭腦里面的“數(shù)據(jù)”量就越來越多，而形成人類創(chuàng)造性思維主力的頓悟就是基于這些“數(shù)據(jù)”的厚積薄發(fā)，要是我們的“數(shù)據(jù)”不夠，創(chuàng)新淪為撞大運(yùn)或瞎折騰。

最后分享點(diǎn)小心得，我發(fā)現(xiàn)通過碼文字寫文章，我頭腦里很多模糊的認(rèn)知可以轉(zhuǎn)化成為條理清晰的文本數(shù)據(jù)，這無疑也是一種有效的數(shù)據(jù)治理行動(dòng)，這些治理過的數(shù)據(jù)能大大提升我的學(xué)習(xí)能力，從而高效加深我對(duì)知識(shí)的理解。

（本稿完成于2020年7月8日，如需轉(zhuǎn)載請(qǐng)注明出處）

上一篇全民數(shù)據(jù)學(xué)習(xí)時(shí)代的組織與個(gè)人

上一篇數(shù)據(jù)要管理了才是自己的

評(píng)論