張靖笙,張靖笙講師,張靖笙聯(lián)系方式,張靖笙培訓師-【中華講師網(wǎng)】
張靖笙 2019年度中國50強講師
數(shù)字化轉型、大數(shù)據(jù)、工業(yè)4.0、人工智能、智能制造、區(qū)塊鏈
52
鮮花排名
0
鮮花數(shù)量
張靖笙:從數(shù)據(jù)回到數(shù)學
2020-04-13 2277

從數(shù)據(jù)回到數(shù)學

張靖笙

      我相信我和大多數(shù)人一樣,對數(shù)學始終充滿了一種敬仰而神秘的感覺,還摻雜了很多不自信的情愫,而由于工作的關系,這種不自信也一直伴隨著我的職業(yè)生涯,時至今日,我只敢對別人說,我是搞數(shù)據(jù)的,還不敢說自己是搞數(shù)學的。我最近承接了中山大學導師的一項學術任務,讓我不能不硬著頭皮去面對一些比較復雜的數(shù)學方法,因此也在消化導師給我的課件的基礎上做了一些深入的學習與思考。

      這幾十年來,計算機信息科技發(fā)展很快,各種新概念層出不窮,很多IT大咖成為全球名人,比如喬布斯、比爾.蓋茨、雷軍、馬化騰等等,可很多人不知道發(fā)明計算機背后的都是大數(shù)學家,比較公認的就是下面這位仁兄。

    阿蘭·麥席森·圖靈(Alan Mathison Turing ,1912年6月23日-1954年6月7日),英國著名的數(shù)學家和邏輯學家,被稱為計算機科學之父、人工智能之 父,是計算機邏輯的奠基者,提出了 “圖靈機”和“圖靈測試”等重要概念。人們?yōu)榧o念其在計算機領域的卓越貢獻而設立“圖靈獎”。

    這位仁兄提出的“圖靈機”就是今天我們廣泛使用的計算機的原型。所謂的圖靈機就是指一個抽象的機器,它有一條無限長的紙帶,紙帶分成了一個一個的小方格,每個方格有不同的顏色。有一個機器頭在紙帶上移來移去。機器頭有一組內(nèi)部狀態(tài),還有一些固定的程序。在每個時刻,機器頭都要從當前紙帶上讀入一個方格信息,然后結合自己的內(nèi)部狀態(tài)查找程序表,根據(jù)程序輸出信息到紙帶方格上,并轉換自己的內(nèi)部狀態(tài),然后進行移動。

圖靈的基本思想是用機器來模擬人們用紙筆進行數(shù)學運算的過程,他把這樣的過程看作下列兩種簡單的動作:

1、在紙上寫上或擦除某個符號;

2、把注意力從紙的一個位置移動到另一個位置。

而在每個階段,人要決定下一步的動作,依賴于

(1) 此人當前所關注的紙上某個位置的符號和(2) 此人當前思維的狀態(tài)。

為了模擬人的這種運算過程,圖靈構造出一臺假想的機器,該機器由以下幾個部分組成:

1、一條無限長的紙帶 TAPE。紙帶被劃分為一個接一個的小格子,每個格子上包含一個來自有限字母表的符號,字母表中有一個特殊的符號表示空白。紙帶上的格子從左到右依此被編號為 0,1,2,... ,紙帶的右端可以無限伸展。

2、一個讀寫頭 HEAD。該讀寫頭可以在紙帶上左右移動,它能讀出當前所指的格子上的符號,并能改變當前格子上的符號。

3、一套控制規(guī)則TABLE。它根據(jù)當前機器所處的狀態(tài)以及當前讀寫頭所指的格子上的符號來確定讀寫頭下一步的動作,并改變狀態(tài)寄存器的值,令機器進入一個新的狀態(tài)。

4、一個狀態(tài)寄存器。它用來保存圖靈機當前所處的狀態(tài)。圖靈機的所有可能狀態(tài)的數(shù)目是有限的,并且有一個特殊的狀態(tài),稱為停機狀態(tài)。

注意這個機器的每一部分都是有限的,但它有一個潛在的無限長的紙帶,因此這種機器只是一個理想的設備。圖靈認為這樣的一臺機器就能模擬人類所能進行的任何計算過程。

圖靈提出圖靈機的模型并不是為了同時給出計算機的設計,它的意義有如下幾點:

(1)它證明了通用計算理論,肯定了計算機實現(xiàn)的可能性,同時它給出了計算機應有的主要架構;

(2)圖靈機模型引入了讀寫與算法與程序語言的概念,極大的突破了過去的計算機器的設計理念;

(3)圖靈機模型理論是計算學科最核心的理論,因為計算機的極限計算能力就是通用圖靈機的計算能力,很多問題可以轉化到圖靈機這個簡單的模型來考慮。

   通用圖靈機向人們展示這樣一個過程:程序和其輸入可以先保存到存儲帶上,圖靈機就按程序一步一步運行直到給出結果,結果也保存在存儲帶上。

     圖靈敏銳的意識到了計算和智能之間的密切聯(lián)系,并開始了關于人工智能的研究。1950年,圖靈發(fā)表了“計算機器與智能”一文,提出機器可以“模仿”人的思維活動(Turing,

1950)。圖靈認為在沒有真正理解人的心理和意識活動之前,我們只能以“模仿”方式進行機器思維的研究和測驗。很遺憾,圖靈在其有生之年,沒有進一步對該思想進行更為透徹的闡述。

     我們在圖靈機的紙帶TAPE上,清晰地看到今天所有的大數(shù)據(jù)始祖的樣子,就是那些符號。在圖靈機身上,我們也清晰地看到計算機是如何發(fā)揮計算作用的,就是一個讀寫頭 HEAD和一套控制規(guī)則TABLE,其實就是與y=f(x)函數(shù)等價的數(shù)學模型,從頭到尾,計算機原理的背后就是數(shù)學模型。

     如果大家最近有聽過我網(wǎng)絡直播公益課《全球抗“疫”與企業(yè)數(shù)字化轉型》,我談到了業(yè)界對企業(yè)信息化看法的變遷,其中第一個階段就是典型的計算機時代的觀點。在計算機時代,核心是算法,就是y=f(x)中重要的是f函數(shù), y和x只不過是臨時門票一樣的存在,無論y和x怎么樣,都不足以影響f的計算能力。在計算機里面,數(shù)據(jù)就是圖靈機紙帶 TAPE上的那些符號,算法y=f(x)的y和x,倒退到二十年前的中國,常常把數(shù)據(jù)看成是參數(shù),目的就是讓計算機算法程序能正常運行起來的。

     所以在計算機時代,計算機解決問題的能力依賴于強大的算法,而支持強大的算法背后是各種復雜的數(shù)學方法,理論上這并非不對,誠如劉薰宇老先生說的:“我們沒有充分抽象的力量,不能將一些事實聚在一起,發(fā)現(xiàn)它們真正的因果關系。因而我們也找不出一條真正趨吉避兇的路!”運用數(shù)學所賦予的強大抽象力,我們用幾個簡單的符號即可以鏈接一個個特定事物與其背后無限宇宙背景的各種關系,這種抽象力給我們?nèi)祟悇?chuàng)造了強大的探索未知和解決問題的能力。

    數(shù)學可以讓人腦更加強大,可在電腦上就遇到那么點尷尬了,我們從上面圖靈機所呈現(xiàn)出來的計算機原理就能了解到,電腦的思維是如此地程式化(或稱刻板化或機械化),這個f的計算能力還是要依靠控制他的人-----程序員。本人也曾經(jīng)有近二十年的編程(coding)經(jīng)驗,深知這份工作的郁悶與激動,當然百分之九十的編程時間是郁悶的,如果你和我一樣做過這么長時間的碼農(nóng),我常常在編碼的時候內(nèi)心抱怨計算機怎么這么笨!早年我還在用匯編語言的時候,就在與、或、非這三板斧上反復做文章,實現(xiàn)個簡單的乘法都費老大勁了,劉老先生所說的充分抽象力肯定不是電腦的強項。但當程序可以run(運行)的那一刻,內(nèi)心又是激動的,男人沒有懷胎十月的體驗,但辛辛苦苦開發(fā)的程序將要出爐那一刻應該有類似的欣慰吧。

     在人工智能的發(fā)展歷史上,恰恰是這種算法至上的觀念在相當一段時期內(nèi)制約了人工智能的發(fā)展,我們非常多優(yōu)秀的前輩耗盡了一生的努力希望在人工智能算法上取得重大突破,但成效并不彰顯,特別是到上世紀70年代,這條道路幾乎搞不下去了,如上分析,在大數(shù)據(jù)出現(xiàn)之前,計算機并不擅長解決需要人類智能來解決的問題。

     幸虧計算機積累下來的數(shù)據(jù)越來越多了,逐漸顯露出了革命性的作用。計算機和通信技術的結合,進入網(wǎng)絡時代特別是互聯(lián)網(wǎng)之后,數(shù)據(jù)的重要性就凸顯出來了,原因很簡單,沒有網(wǎng)絡前,計算機是單兵作戰(zhàn),種種原因造成數(shù)據(jù)積累非常困難,過去的數(shù)據(jù)量非常少,網(wǎng)絡出現(xiàn)后,計算機之間通過數(shù)據(jù)交換讓雙方都獲得顯而易見的好處,雙方?jīng)]有任何損耗的情況下獲取了各自需要的數(shù)據(jù)。越來越多的計算機聯(lián)網(wǎng),就愈發(fā)刺激對數(shù)據(jù)的需求,所以在上世紀90年代互聯(lián)網(wǎng)興起之后,大量數(shù)據(jù)的獲取也變得非常容易。

      當數(shù)據(jù)量足夠大之后,很多原來智能的問題就可以轉化成數(shù)據(jù)處理問題而取得突破。今天的人工智能獲取智能的方法不是和我們?nèi)祟愐粯涌砍橄罅屯评?,而更多是利用大?shù)據(jù),從數(shù)據(jù)中學習獲得信息和知識,如果我們能確保這些數(shù)據(jù)是事實的反映,那么人工智能這種簡單直接的方法明顯比我們?nèi)祟惖耐评砀苤敝竼栴}的核心,基于事實的判斷和經(jīng)驗的總結,而且人工智能還不會受到人類常有的情緒的干擾,只要數(shù)據(jù)量足夠大,得出的結論比我們?nèi)祟惖某橄蠛屯评砀鼘嵤虑笫牵@樣的智能革命導致計算年紀在越來越多的領域超過了人類,并使得我們的社會產(chǎn)生了翻天覆地的變化。

      我們還是用y=f(x)來簡單解釋下這背后到底發(fā)生了什么,以前計算機要解決問題只能依賴這個算法f,如果遇到的問題越復雜,則與之對應的算法f也越復雜,這個f是靠人編碼出來的,如果一直是這個套路計算機不應該有超過人類的智力水平。

     而當數(shù)據(jù)量非常非常大的時候,則可以從中找到大量的y和x的組合,當這個量大到某個程度,只要給一個相對簡單的數(shù)據(jù)處理方法,這個算法f完全可以從大量的y和x的組合之中讓計算機自己歸納總結出來,這時候說明原來編制算法f的人類智能可以不要了,計算機自己可以從y和x中學習并產(chǎn)生解決問題的算法f。其實本質上人類也是從對物理世界的觀察中抽象出解決問題的模型和算法y=f(x),而計算機通過數(shù)據(jù)所積累的y和x的大量經(jīng)驗明顯多于人類個人的時候,計算機產(chǎn)生的算法f超過人類的抽象和推理能力也很靠譜了。

     接下來很容易會讓人聯(lián)想到的問題是:“人類智能遲早都會被人工智能徹底打敗嗎?”“奇點”是用來描述AI技術及其社會影響的特有概念。在此之前人類技術都是用“人的智能”來發(fā)明的,而目前以及未來,技術也可用“機器的智能”來發(fā)明,而AI奇點來臨的重要標志是“用機器智能生產(chǎn)智能”。如此,人類一切技術發(fā)明創(chuàng)造的智能源泉將從機器無限涌流,詹姆斯·巴拉特采訪了許多AI技術開發(fā)和理論研究專家,撰寫成《我們最后的發(fā)明:人工智能與人類時代的終結》一書甚至指出AI稱作人類“最后的發(fā)明”,人類的“終極命運”正在被開啟。如此看來人可以成為“黑客帝國”中的電池活在一個完全虛擬出來的人工智能空間里面就可以安生了。

      要是沒有這次疫情沖擊,我也相信會在不久的將來就能看到這個神奇的“奇點”,可這次“機器的智能”并未能幫助人類成功抗“疫”,反而是人類用一百多年前的老辦法才讓防控趨勢向好,這不得不讓我們反思一下這類曾甚囂塵上的AI奇點論調(diào)。

      問題還是出在數(shù)據(jù)身上,數(shù)據(jù)本身就是人類認識的產(chǎn)物,我們可以通過y和x讓機器造出算法f,卻沒有辦法機器自己無中生有造出數(shù)據(jù)y和x。y和x從哪里來?還是要從人類對客觀物理世界的認知中來,即使現(xiàn)在數(shù)據(jù)采集已經(jīng)運用了大量的傳感器和物聯(lián)網(wǎng),那也就是一種自動化的數(shù)據(jù)采集手段而已,采集什么信號,什么時候采集,采集了之后怎么處理,還不是要依賴于人的認知和設計?人類沒認知到的事物,又哪里會有與之對應的數(shù)據(jù)呢?

     任何一種生命,為了生存都有本能的對環(huán)境信息的感知能力,既然AI沒有生命,也不知道什么信息會要命,我到現(xiàn)在也無法想象AI如何能無師自通地決定感知什么信息,那這個y和x又如何能無中生有呢?

這樣一來,我們就可以明白,這個人工智能的新方法其實是新瓶裝了老酒,是因為人類積累的數(shù)據(jù)里面本身就飽含了人類智力的成果,人工智能只不過用機器學習的方法把這些人類歷史智慧財富重新發(fā)掘出來而已,是大數(shù)據(jù)本身就暗含了解決問題的辦法。

      于是,解決問題的辦法還是要回到了人類解決問題的能力,還是劉老先生所描述的,一條運用充分抽象的力量讓我們找出真正趨吉避兇的路,繞來繞去還是要靠數(shù)學!硬著頭皮是我們的宿命。

最后,我的結論是,數(shù)字化時代我們需要“數(shù)據(jù)處理的水平和數(shù)學抽象的能力”,這本來是我原來為這篇文章擬定的題目。

(初稿完成于2020年4月13日)



全部評論 (0)

Copyright©2008-2024 版權所有 浙ICP備06026258號-1 浙公網(wǎng)安備 33010802003509號 杭州講師網(wǎng)絡科技有限公司
講師網(wǎng) kasajewelry.com 直接對接10000多名優(yōu)秀講師-省時省力省錢
講師網(wǎng)常年法律顧問:浙江麥迪律師事務所 梁俊景律師 李小平律師