由于工作需要和虛榮心驅(qū)使,我慢慢接受并且享受人家對我大數(shù)據(jù)專家的稱呼,雖然這么多年一線數(shù)據(jù)工作經(jīng)驗(yàn)也壯了我這個膽,但在數(shù)學(xué)面前還是情不自禁要打起了哆嗦。我也專門寫過文章論述過數(shù)據(jù)和數(shù)學(xué)的關(guān)系,但這并不能掩蓋我數(shù)學(xué)認(rèn)知上的膚淺。
同樣,數(shù)據(jù)學(xué)習(xí)也是根植于豐厚的數(shù)學(xué)土壤,如果今天我們看到各種人工智能大數(shù)據(jù)應(yīng)用的如火如荼,其實(shí)是各種深厚應(yīng)用數(shù)學(xué)的開花結(jié)果,本質(zhì)上,數(shù)據(jù)學(xué)習(xí)和數(shù)學(xué)是一體的,套用我所喜愛的冰山模型來比喻,數(shù)學(xué)是整個冰山,數(shù)據(jù)學(xué)習(xí)僅僅是冰山水面上露出來的那一個角,如果沒有水底過千倍的體量支撐,這一個角也顯露不出來,說句題外話,我不想用金字塔來形容此山,因?yàn)閿?shù)據(jù)學(xué)習(xí)無論如何都沒資格座在山頂。
提出數(shù)據(jù)學(xué)習(xí)的概念,我套用了機(jī)器學(xué)習(xí)的定義,當(dāng)然機(jī)器學(xué)習(xí)背后仍然是幾乎令人望而卻步的高深數(shù)學(xué),但在人工智能越演越烈的今天,我們每個人都要學(xué)會和眾多的人工智能“生命”和諧相處,就不可避免地要了解人工智能的“心思”,可以說今天我們每個人都是被數(shù)字智能時(shí)代倒逼著學(xué)習(xí)數(shù)據(jù),也要硬著頭皮面對那些當(dāng)初高懸在象牙塔尖的數(shù)學(xué)。
像我這種天生腦子并不靈光的學(xué)生,當(dāng)初學(xué)生時(shí)代的數(shù)學(xué)雖然不算太差,但肯定不會太好,于是能給我留下對數(shù)學(xué)的學(xué)生記憶,是從華南理工大學(xué)(當(dāng)時(shí)還叫華南理工學(xué)院)一年級開始的對計(jì)算機(jī)產(chǎn)生濃厚興趣之時(shí)。雖然那時(shí)的我對計(jì)算機(jī)尚且無知到把微機(jī)主板里面的大電容誤認(rèn)為是硬盤,但也不可阻擋我摸著石頭過河學(xué)習(xí)各種編程知識,這個遙遠(yuǎn)的記憶和數(shù)據(jù)學(xué)習(xí)距離不是一般的遠(yuǎn),卻和數(shù)學(xué)的距離無比地近。
當(dāng)年大學(xué)一年級我玩的是華南理工大學(xué)27號樓微機(jī)房的286,編程語言是BasicA(后面加個A表示的是高級),而27號樓微機(jī)房在當(dāng)時(shí)顯出神圣光芒之處,那里的286和BasicA居然是可以支持圖像模式編程的,而且分辨率在當(dāng)時(shí)的電腦來說還不算低,這和我高中時(shí)期走馬觀花接觸過的字符界面老蘋果微機(jī)簡直是天壤之別,于是那個微機(jī)房磁鐵一樣吸引了包括本人在內(nèi)的很多華工男愣頭青,有些人在那里玩那個美國的阿帕奇直升機(jī)戰(zhàn)斗游戲,這在當(dāng)時(shí)絕對是被膜拜的高科技。
本人卻在華工圖書館找到了一本當(dāng)年著名的沙老師編寫的《Basic高級編程》教材,里面有大量的教導(dǎo)如何用BasicA作圖的內(nèi)容,特別是那種三維幾何圖形的透視旋轉(zhuǎn)操作程序,我依葫蘆畫瓢輸入書本中的程序在屏幕中浮現(xiàn)出了各種簡單圖形,比如立方體之類,按下按鈕旋轉(zhuǎn)不同角度觀察其變化,這讓我感覺非常興奮,于是結(jié)合自己當(dāng)時(shí)所讀的船舶工程專業(yè),立下了要搞計(jì)算機(jī)輔助設(shè)計(jì)(CAD)的志向,轉(zhuǎn)行金融信息化是后話。
坦白說,早期寫程序還是很挑戰(zhàn)智商的,不像今天的程序員已經(jīng)有豐富的組件、模板、SDK、API、函數(shù)等資源可供調(diào)用,我們當(dāng)時(shí)要處理非常多的邏輯細(xì)節(jié),從數(shù)據(jù)如何被輸入,到在內(nèi)存如何存儲和加工,再到屏幕如何顯示和畫圖,越生動出彩的程序越要對其數(shù)據(jù)結(jié)構(gòu)和算法邏輯做精心的設(shè)計(jì),所以當(dāng)我們這些早年的碼牛們終于爬到了匯編和C語言,大部分人的選擇就是果斷地放棄原來的Basic,可偏偏后者才是計(jì)算機(jī)高級語言。
由此可以看到,在算法為王的年代,我們的數(shù)據(jù)處理也就是記憶、理解這種淺表學(xué)習(xí)的水平,連決策支持的應(yīng)用層次都還觸及不到,當(dāng)然這不代表沒有應(yīng)用數(shù)學(xué),只是大多數(shù)還就只是用到中小學(xué)的數(shù)學(xué)知識,常用的包括代數(shù)、函數(shù)、數(shù)組、排列組合、矩陣計(jì)算等等,當(dāng)然我要搞CAD繪圖也需要用包括三角函數(shù)之類的解析幾何知識。
后來我在計(jì)算機(jī)方面的學(xué)習(xí)始終離不開數(shù)學(xué)應(yīng)用的深入,雖然我的數(shù)學(xué)應(yīng)用總是點(diǎn)到解決了當(dāng)時(shí)的問題就打住了,但還是緩慢地取得一些進(jìn)步。對此我有一些體會,以前呢我們解數(shù)學(xué)題也就是為了測驗(yàn)或者考試,好像都是一些純智力的燒腦難題,我這種腦子不靈光的人常常被一些題目難住了,那種看著都認(rèn)識的數(shù)學(xué)符號卻無從下手的感覺的確有些難受,內(nèi)心那種敬而遠(yuǎn)之的感覺是揮之不去的。而當(dāng)我開始搞計(jì)算機(jī)程序的時(shí)候,那個心情是很不一樣的,我們總是千方百計(jì)地想辦法把自己編的程序弄得更好使,于是心甘情愿去惡補(bǔ)程序所涉及的數(shù)學(xué)原理也就甘之如飴了,從這點(diǎn)我的感受是,兒童編程在激發(fā)小孩的數(shù)學(xué)思維方面應(yīng)該是有科學(xué)作用的,只是我小孩現(xiàn)在才小學(xué)一年級,我不急于讓她去弄計(jì)算機(jī)程序,雖然她從五歲起已經(jīng)在玩Scratch,而在蘋果版本的ScratchJr她完全可以自己編寫一些故事化的程序。
大家都知道我有多年的商業(yè)智能數(shù)據(jù)應(yīng)用開發(fā)經(jīng)驗(yàn),之前分享過點(diǎn)滴經(jīng)驗(yàn)。既然是商業(yè)智能就不能不用數(shù)據(jù)來支持管理層的決策需求,所以我的數(shù)據(jù)學(xué)習(xí)也進(jìn)化到應(yīng)用和分析的學(xué)習(xí)層級,應(yīng)用還是屬于淺表學(xué)習(xí),分析已經(jīng)摸到了深度學(xué)習(xí)的邊邊。對于這兩者,我統(tǒng)一在商業(yè)智能旗下分析其背后的數(shù)學(xué)原理。
這個商業(yè)智能首先要解決的第一個問題,是如何轉(zhuǎn)化數(shù)據(jù)為信息的問題。剛才提到的記憶、理解這樣淺表數(shù)據(jù)學(xué)習(xí)應(yīng)用不贅述了,商業(yè)智能里面有一個很常用的OLAP數(shù)據(jù)多維分析應(yīng)用。
先給大家補(bǔ)補(bǔ)OLAP這個技術(shù)的淵源。上世紀(jì)60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以二維表格的形式存儲)。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫進(jìn)行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。
多維分析是一種數(shù)據(jù)分析過程,在此過程中,將數(shù)據(jù)分成兩類:維度(dimensions)和度量(metrics/measurements)。維度和度量的概念都出自于圖論(graph
theory),維度指能夠描述某個空間中所有點(diǎn)的最少坐標(biāo)(coordinate)數(shù),即空間基數(shù);度量指的是無向圖中頂點(diǎn)(vertices)間的距離,這個維度撐起來的坐標(biāo)空間,這個空間中每個頂點(diǎn)均可有對應(yīng)的取值,這種數(shù)據(jù)模型業(yè)界簡稱為OLAP cube(立方體)。
在多維分析領(lǐng)域,維度一般包括字段值為字符類或者字段基數(shù)值較少且作為約束條件的離散數(shù)值類型;而度量一般包括基數(shù)值較大且可以參與運(yùn)算的數(shù)值類字段,一般也稱為指標(biāo)。
OLAP cube數(shù)學(xué)描述如下:如果用X、Y、Z代表OLAP cube的三軸,通過定義函數(shù)關(guān)系 F:( X,Y,Z)->W,W則表示每一個(X,Y,Z)元組所映射的數(shù)據(jù)集合,每個元組我們稱為OLAP cube的一個單元(cell),我們也可以簡單把OLAP cube理解為計(jì)算機(jī)程序里面常用的數(shù)據(jù)結(jié)構(gòu),多維數(shù)組,這個X、Y、Z就是數(shù)組的下標(biāo)值,而W就是數(shù)組中存儲的值,于是F:( X,Y,Z)->W就是從這個數(shù)組中讀出下標(biāo)為X、Y、Z的數(shù)組單元中存儲的值W。
因此OLAP cube可以簡單描述為“多維數(shù)據(jù)集”。cube,我們可以想象為數(shù)據(jù)指標(biāo)根據(jù)多維度封裝成的一個立方體結(jié)構(gòu)(以三維空間為例,如果維度數(shù)超過3,我們則稱為“Hypercube”),OLAP cube的數(shù)學(xué)原理我就點(diǎn)到這算了,我們更關(guān)心的是其用途。
我們在平時(shí)工作中,會遇到各種問題,在分析問題的時(shí)候,同樣的現(xiàn)象,我們會從多個角度去分析考慮,并且有時(shí)候我們還會從幾個角度綜合起來進(jìn)行分析。這就是OLAP分析最基本的概念:從多個觀察角度的靈活組合來觀察數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律。
OLAP將數(shù)據(jù)分為兩種特征,一種為表現(xiàn)特征,比如一個銷售分析模型中的銷售額、毛利等;還有一種為角度特征,比如銷售分析中的時(shí)間周期、產(chǎn)品類型、銷售模式、銷售區(qū)域等。前者是被觀察的對象,OLAP術(shù)語稱之為“度量數(shù)據(jù)”,后者為觀察視角,OLAP術(shù)語稱之為“維數(shù)據(jù)”。
有了OLAP cube這個數(shù)據(jù)煉丹神器,很多原來白開水一樣的數(shù)據(jù)結(jié)合不同的觀察角度,就可以化腐朽為神奇讓管理者看到很多問題成因的端倪,比如把一個產(chǎn)品的銷售業(yè)績從時(shí)間地區(qū)等維度做個比較分析,我們可以從數(shù)據(jù)中學(xué)習(xí)到這個產(chǎn)品在什么時(shí)間什么地方比較好賣,那管理層就可以針對旺季熱點(diǎn)決定投入更多的業(yè)務(wù)資源。
再往上走,數(shù)據(jù)應(yīng)用就走到評價(jià)和創(chuàng)造這樣的深度學(xué)習(xí)程度,拋開還有爭議的創(chuàng)造,評價(jià)背后所需要的數(shù)學(xué)支撐體系是非常之深厚的,最近我們粵港澳應(yīng)用數(shù)學(xué)中心為廣州市越秀金融局搞的數(shù)字普惠金融指數(shù)研究課題,可以體現(xiàn)應(yīng)用數(shù)學(xué)在指導(dǎo)民間金融行業(yè)監(jiān)管工作中廣闊的應(yīng)用前景。
在金融評價(jià)體系中,由于金融服務(wù)的大范圍覆蓋面,業(yè)務(wù)的多樣性,高度的數(shù)字化水平等等,我們會發(fā)現(xiàn)很難用簡單的統(tǒng)計(jì)指標(biāo)準(zhǔn)確測量當(dāng)前的普惠金融產(chǎn)業(yè)發(fā)展水平,許多直接測量的表層數(shù)據(jù)都難以揭示產(chǎn)業(yè)發(fā)展內(nèi)在規(guī)律和必然趨勢,要獲得這些洞察能力,我們必須通過多個復(fù)合指標(biāo)的定量分析方法,例如這個課題研究團(tuán)隊(duì)所推薦的因子分析法、熵值法、神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)方法、無監(jiān)督的自編碼深度學(xué)習(xí)模型等等。
可能很多人會問,一個問題需要用這么多高深的數(shù)學(xué)方法嗎?解決問題具體要用到什么數(shù)學(xué)方法其實(shí)是由問題的性質(zhì)所決定的。數(shù)據(jù)深度學(xué)習(xí)所需要解決的問題,都是需要把握根本矛盾和本質(zhì)規(guī)律才能有效指導(dǎo)我們工作實(shí)踐的問題。
剛才我提到,數(shù)據(jù)淺表學(xué)習(xí)解決的是從數(shù)據(jù)中獲得我們決策所需要信息的問題,比如剛才說的,我們做銷售總監(jiān)的人需要知道貨賣得怎么樣 ,進(jìn)一步也就是需要知道什么時(shí)候賣得怎么樣。這些問題都是知其然(事實(shí))的層面就可以直接求是(判斷和決策)的了,一般人也不具備沃爾瑪研究那些類似啤酒和尿布高頻出現(xiàn)的組合關(guān)系背后原因等問題的水平和能力,所以大部分都是人云亦云,隨波逐流。
而為什么真理常常掌握在少數(shù)人手上?因?yàn)檫@些人擁有一般人缺乏的獨(dú)立思考、探究質(zhì)疑、愛琢磨事理規(guī)律的思維習(xí)慣。恩格斯說:數(shù)學(xué)是研究數(shù)量關(guān)系與空間形式的一門科學(xué),對于我們所要解決的現(xiàn)實(shí)世界的問題中的,問題背后都有無限聯(lián)系的宇宙背景,對事物的關(guān)鍵因素沒有抽象和簡化就無法被我們所認(rèn)知和研究,所以所有的數(shù)學(xué)方法都不可避免存在其適用性和局限性,我們要解決具體問題,根據(jù)問題性質(zhì)要從知其然進(jìn)入到知其所以然的境界,必然是需要多種數(shù)學(xué)方法和工具的綜合運(yùn)用。
于是,支撐數(shù)據(jù)深度學(xué)習(xí)的必然是更多應(yīng)用數(shù)學(xué)前沿的基礎(chǔ)理論研究成果,今天我國的產(chǎn)業(yè)發(fā)展要從低端制造簡單加工轉(zhuǎn)型升級到智能制造品質(zhì)創(chuàng)造,必然會遇到很多前所未見的挑戰(zhàn)和困難,在當(dāng)今世界大勢,我們也很難再如當(dāng)初向世界科技第一強(qiáng)國copy2china(復(fù)制到中國),人家已經(jīng)開始卡我們科技發(fā)展的脖子了,我們要解決這些卡脖子問題,唯有從應(yīng)用數(shù)學(xué)基礎(chǔ)研究搞起,開車上路尚且要備胎,何況走上中華民族偉大復(fù)興的長征路。
如果今天有人恭維我聰明,我自己知道這種聰明也是在這幾十年的時(shí)光中,一步一步在數(shù)學(xué)的指引下從數(shù)據(jù)中學(xué)習(xí)回來的,當(dāng)然我認(rèn)為還遠(yuǎn)遠(yuǎn)不夠。
(本稿完成于2020年7月11日,如需轉(zhuǎn)載請注明出處)