張靖笙,張靖笙講師,張靖笙聯(lián)系方式,張靖笙培訓(xùn)師-【中華講師網(wǎng)】
張靖笙 2019年度中國(guó)50強(qiáng)講師
數(shù)字化轉(zhuǎn)型、大數(shù)據(jù)、工業(yè)4.0、人工智能、智能制造、區(qū)塊鏈
45
鮮花排名
0
鮮花數(shù)量
張靖笙:數(shù)據(jù)學(xué)習(xí)背后的數(shù)學(xué)原理
2020-07-11 2525

     由于工作需要和虛榮心驅(qū)使,我慢慢接受并且享受人家對(duì)我大數(shù)據(jù)專(zhuān)家的稱(chēng)呼,雖然這么多年一線(xiàn)數(shù)據(jù)工作經(jīng)驗(yàn)也壯了我這個(gè)膽,但在數(shù)學(xué)面前還是情不自禁要打起了哆嗦。我也專(zhuān)門(mén)寫(xiě)過(guò)文章論述過(guò)數(shù)據(jù)和數(shù)學(xué)的關(guān)系,但這并不能掩蓋我數(shù)學(xué)認(rèn)知上的膚淺。

    同樣,數(shù)據(jù)學(xué)習(xí)也是根植于豐厚的數(shù)學(xué)土壤,如果今天我們看到各種人工智能大數(shù)據(jù)應(yīng)用的如火如荼,其實(shí)是各種深厚應(yīng)用數(shù)學(xué)的開(kāi)花結(jié)果,本質(zhì)上,數(shù)據(jù)學(xué)習(xí)和數(shù)學(xué)是一體的,套用我所喜愛(ài)的冰山模型來(lái)比喻,數(shù)學(xué)是整個(gè)冰山,數(shù)據(jù)學(xué)習(xí)僅僅是冰山水面上露出來(lái)的那一個(gè)角,如果沒(méi)有水底過(guò)千倍的體量支撐,這一個(gè)角也顯露不出來(lái),說(shuō)句題外話(huà),我不想用金字塔來(lái)形容此山,因?yàn)閿?shù)據(jù)學(xué)習(xí)無(wú)論如何都沒(méi)資格座在山頂。

     提出數(shù)據(jù)學(xué)習(xí)的概念,我套用了機(jī)器學(xué)習(xí)的定義,當(dāng)然機(jī)器學(xué)習(xí)背后仍然是幾乎令人望而卻步的高深數(shù)學(xué),但在人工智能越演越烈的今天,我們每個(gè)人都要學(xué)會(huì)和眾多的人工智能“生命”和諧相處,就不可避免地要了解人工智能的“心思”,可以說(shuō)今天我們每個(gè)人都是被數(shù)字智能時(shí)代倒逼著學(xué)習(xí)數(shù)據(jù),也要硬著頭皮面對(duì)那些當(dāng)初高懸在象牙塔尖的數(shù)學(xué)。

     像我這種天生腦子并不靈光的學(xué)生,當(dāng)初學(xué)生時(shí)代的數(shù)學(xué)雖然不算太差,但肯定不會(huì)太好,于是能給我留下對(duì)數(shù)學(xué)的學(xué)生記憶,是從華南理工大學(xué)(當(dāng)時(shí)還叫華南理工學(xué)院)一年級(jí)開(kāi)始的對(duì)計(jì)算機(jī)產(chǎn)生濃厚興趣之時(shí)。雖然那時(shí)的我對(duì)計(jì)算機(jī)尚且無(wú)知到把微機(jī)主板里面的大電容誤認(rèn)為是硬盤(pán),但也不可阻擋我摸著石頭過(guò)河學(xué)習(xí)各種編程知識(shí),這個(gè)遙遠(yuǎn)的記憶和數(shù)據(jù)學(xué)習(xí)距離不是一般的遠(yuǎn),卻和數(shù)學(xué)的距離無(wú)比地近。

     當(dāng)年大學(xué)一年級(jí)我玩的是華南理工大學(xué)27號(hào)樓微機(jī)房的286,編程語(yǔ)言是BasicA(后面加個(gè)A表示的是高級(jí)),而27號(hào)樓微機(jī)房在當(dāng)時(shí)顯出神圣光芒之處,那里的286和BasicA居然是可以支持圖像模式編程的,而且分辨率在當(dāng)時(shí)的電腦來(lái)說(shuō)還不算低,這和我高中時(shí)期走馬觀花接觸過(guò)的字符界面老蘋(píng)果微機(jī)簡(jiǎn)直是天壤之別,于是那個(gè)微機(jī)房磁鐵一樣吸引了包括本人在內(nèi)的很多華工男愣頭青,有些人在那里玩那個(gè)美國(guó)的阿帕奇直升機(jī)戰(zhàn)斗游戲,這在當(dāng)時(shí)絕對(duì)是被膜拜的高科技。

     本人卻在華工圖書(shū)館找到了一本當(dāng)年著名的沙老師編寫(xiě)的《Basic高級(jí)編程》教材,里面有大量的教導(dǎo)如何用BasicA作圖的內(nèi)容,特別是那種三維幾何圖形的透視旋轉(zhuǎn)操作程序,我依葫蘆畫(huà)瓢輸入書(shū)本中的程序在屏幕中浮現(xiàn)出了各種簡(jiǎn)單圖形,比如立方體之類(lèi),按下按鈕旋轉(zhuǎn)不同角度觀察其變化,這讓我感覺(jué)非常興奮,于是結(jié)合自己當(dāng)時(shí)所讀的船舶工程專(zhuān)業(yè),立下了要搞計(jì)算機(jī)輔助設(shè)計(jì)(CAD)的志向,轉(zhuǎn)行金融信息化是后話(huà)。

     坦白說(shuō),早期寫(xiě)程序還是很挑戰(zhàn)智商的,不像今天的程序員已經(jīng)有豐富的組件、模板、SDK、API、函數(shù)等資源可供調(diào)用,我們當(dāng)時(shí)要處理非常多的邏輯細(xì)節(jié),從數(shù)據(jù)如何被輸入,到在內(nèi)存如何存儲(chǔ)和加工,再到屏幕如何顯示和畫(huà)圖,越生動(dòng)出彩的程序越要對(duì)其數(shù)據(jù)結(jié)構(gòu)和算法邏輯做精心的設(shè)計(jì),所以當(dāng)我們這些早年的碼牛們終于爬到了匯編和C語(yǔ)言,大部分人的選擇就是果斷地放棄原來(lái)的Basic,可偏偏后者才是計(jì)算機(jī)高級(jí)語(yǔ)言。

     由此可以看到,在算法為王的年代,我們的數(shù)據(jù)處理也就是記憶、理解這種淺表學(xué)習(xí)的水平,連決策支持的應(yīng)用層次都還觸及不到,當(dāng)然這不代表沒(méi)有應(yīng)用數(shù)學(xué),只是大多數(shù)還就只是用到中小學(xué)的數(shù)學(xué)知識(shí),常用的包括代數(shù)、函數(shù)、數(shù)組、排列組合、矩陣計(jì)算等等,當(dāng)然我要搞CAD繪圖也需要用包括三角函數(shù)之類(lèi)的解析幾何知識(shí)。

     后來(lái)我在計(jì)算機(jī)方面的學(xué)習(xí)始終離不開(kāi)數(shù)學(xué)應(yīng)用的深入,雖然我的數(shù)學(xué)應(yīng)用總是點(diǎn)到解決了當(dāng)時(shí)的問(wèn)題就打住了,但還是緩慢地取得一些進(jìn)步。對(duì)此我有一些體會(huì),以前呢我們解數(shù)學(xué)題也就是為了測(cè)驗(yàn)或者考試,好像都是一些純智力的燒腦難題,我這種腦子不靈光的人常常被一些題目難住了,那種看著都認(rèn)識(shí)的數(shù)學(xué)符號(hào)卻無(wú)從下手的感覺(jué)的確有些難受,內(nèi)心那種敬而遠(yuǎn)之的感覺(jué)是揮之不去的。而當(dāng)我開(kāi)始搞計(jì)算機(jī)程序的時(shí)候,那個(gè)心情是很不一樣的,我們總是千方百計(jì)地想辦法把自己編的程序弄得更好使,于是心甘情愿去惡補(bǔ)程序所涉及的數(shù)學(xué)原理也就甘之如飴了,從這點(diǎn)我的感受是,兒童編程在激發(fā)小孩的數(shù)學(xué)思維方面應(yīng)該是有科學(xué)作用的,只是我小孩現(xiàn)在才小學(xué)一年級(jí),我不急于讓她去弄計(jì)算機(jī)程序,雖然她從五歲起已經(jīng)在玩Scratch,而在蘋(píng)果版本的ScratchJr她完全可以自己編寫(xiě)一些故事化的程序。

     大家都知道我有多年的商業(yè)智能數(shù)據(jù)應(yīng)用開(kāi)發(fā)經(jīng)驗(yàn),之前分享過(guò)點(diǎn)滴經(jīng)驗(yàn)。既然是商業(yè)智能就不能不用數(shù)據(jù)來(lái)支持管理層的決策需求,所以我的數(shù)據(jù)學(xué)習(xí)也進(jìn)化到應(yīng)用和分析的學(xué)習(xí)層級(jí),應(yīng)用還是屬于淺表學(xué)習(xí),分析已經(jīng)摸到了深度學(xué)習(xí)的邊邊。對(duì)于這兩者,我統(tǒng)一在商業(yè)智能旗下分析其背后的數(shù)學(xué)原理。

     這個(gè)商業(yè)智能首先要解決的第一個(gè)問(wèn)題,是如何轉(zhuǎn)化數(shù)據(jù)為信息的問(wèn)題。剛才提到的記憶、理解這樣淺表數(shù)據(jù)學(xué)習(xí)應(yīng)用不贅述了,商業(yè)智能里面有一個(gè)很常用的OLAP數(shù)據(jù)多維分析應(yīng)用。

      先給大家補(bǔ)補(bǔ)OLAP這個(gè)技術(shù)的淵源。上世紀(jì)60年代,關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以二維表格的形式存儲(chǔ))。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿(mǎn)足終端用戶(hù)對(duì)數(shù)據(jù)庫(kù)查詢(xún)分析的需要,SQL對(duì)大型數(shù)據(jù)庫(kù)進(jìn)行的簡(jiǎn)單查詢(xún)也不能滿(mǎn)足終端用戶(hù)分析的要求。用戶(hù)的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢(xún)的結(jié)果并不能滿(mǎn)足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫(kù)和多維分析的概念,即OLAP。OLAP的目標(biāo)是滿(mǎn)足決策支持或多維環(huán)境特定的查詢(xún)和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。

      多維分析是一種數(shù)據(jù)分析過(guò)程,在此過(guò)程中,將數(shù)據(jù)分成兩類(lèi):維度(dimensions)和度量(metrics/measurements)。維度和度量的概念都出自于圖論(graph

theory),維度指能夠描述某個(gè)空間中所有點(diǎn)的最少坐標(biāo)(coordinate)數(shù),即空間基數(shù);度量指的是無(wú)向圖中頂點(diǎn)(vertices)間的距離,這個(gè)維度撐起來(lái)的坐標(biāo)空間,這個(gè)空間中每個(gè)頂點(diǎn)均可有對(duì)應(yīng)的取值,這種數(shù)據(jù)模型業(yè)界簡(jiǎn)稱(chēng)為OLAP cube(立方體)。

      在多維分析領(lǐng)域,維度一般包括字段值為字符類(lèi)或者字段基數(shù)值較少且作為約束條件的離散數(shù)值類(lèi)型;而度量一般包括基數(shù)值較大且可以參與運(yùn)算的數(shù)值類(lèi)字段,一般也稱(chēng)為指標(biāo)。

OLAP cube數(shù)學(xué)描述如下:如果用X、Y、Z代表OLAP cube的三軸,通過(guò)定義函數(shù)關(guān)系 F:( X,Y,Z)->W,W則表示每一個(gè)(X,Y,Z)元組所映射的數(shù)據(jù)集合,每個(gè)元組我們稱(chēng)為OLAP cube的一個(gè)單元(cell),我們也可以簡(jiǎn)單把OLAP cube理解為計(jì)算機(jī)程序里面常用的數(shù)據(jù)結(jié)構(gòu),多維數(shù)組,這個(gè)X、Y、Z就是數(shù)組的下標(biāo)值,而W就是數(shù)組中存儲(chǔ)的值,于是F:( X,Y,Z)->W就是從這個(gè)數(shù)組中讀出下標(biāo)為X、Y、Z的數(shù)組單元中存儲(chǔ)的值W。

因此OLAP cube可以簡(jiǎn)單描述為“多維數(shù)據(jù)集”。cube,我們可以想象為數(shù)據(jù)指標(biāo)根據(jù)多維度封裝成的一個(gè)立方體結(jié)構(gòu)(以三維空間為例,如果維度數(shù)超過(guò)3,我們則稱(chēng)為“Hypercube”),OLAP cube的數(shù)學(xué)原理我就點(diǎn)到這算了,我們更關(guān)心的是其用途。

     我們?cè)谄綍r(shí)工作中,會(huì)遇到各種問(wèn)題,在分析問(wèn)題的時(shí)候,同樣的現(xiàn)象,我們會(huì)從多個(gè)角度去分析考慮,并且有時(shí)候我們還會(huì)從幾個(gè)角度綜合起來(lái)進(jìn)行分析。這就是OLAP分析最基本的概念:從多個(gè)觀察角度的靈活組合來(lái)觀察數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律。

     OLAP將數(shù)據(jù)分為兩種特征,一種為表現(xiàn)特征,比如一個(gè)銷(xiāo)售分析模型中的銷(xiāo)售額、毛利等;還有一種為角度特征,比如銷(xiāo)售分析中的時(shí)間周期、產(chǎn)品類(lèi)型、銷(xiāo)售模式、銷(xiāo)售區(qū)域等。前者是被觀察的對(duì)象,OLAP術(shù)語(yǔ)稱(chēng)之為“度量數(shù)據(jù)”,后者為觀察視角,OLAP術(shù)語(yǔ)稱(chēng)之為“維數(shù)據(jù)”。

     有了OLAP cube這個(gè)數(shù)據(jù)煉丹神器,很多原來(lái)白開(kāi)水一樣的數(shù)據(jù)結(jié)合不同的觀察角度,就可以化腐朽為神奇讓管理者看到很多問(wèn)題成因的端倪,比如把一個(gè)產(chǎn)品的銷(xiāo)售業(yè)績(jī)從時(shí)間地區(qū)等維度做個(gè)比較分析,我們可以從數(shù)據(jù)中學(xué)習(xí)到這個(gè)產(chǎn)品在什么時(shí)間什么地方比較好賣(mài),那管理層就可以針對(duì)旺季熱點(diǎn)決定投入更多的業(yè)務(wù)資源。

      再往上走,數(shù)據(jù)應(yīng)用就走到評(píng)價(jià)和創(chuàng)造這樣的深度學(xué)習(xí)程度,拋開(kāi)還有爭(zhēng)議的創(chuàng)造,評(píng)價(jià)背后所需要的數(shù)學(xué)支撐體系是非常之深厚的,最近我們粵港澳應(yīng)用數(shù)學(xué)中心為廣州市越秀金融局搞的數(shù)字普惠金融指數(shù)研究課題,可以體現(xiàn)應(yīng)用數(shù)學(xué)在指導(dǎo)民間金融行業(yè)監(jiān)管工作中廣闊的應(yīng)用前景。

       在金融評(píng)價(jià)體系中,由于金融服務(wù)的大范圍覆蓋面,業(yè)務(wù)的多樣性,高度的數(shù)字化水平等等,我們會(huì)發(fā)現(xiàn)很難用簡(jiǎn)單的統(tǒng)計(jì)指標(biāo)準(zhǔn)確測(cè)量當(dāng)前的普惠金融產(chǎn)業(yè)發(fā)展水平,許多直接測(cè)量的表層數(shù)據(jù)都難以揭示產(chǎn)業(yè)發(fā)展內(nèi)在規(guī)律和必然趨勢(shì),要獲得這些洞察能力,我們必須通過(guò)多個(gè)復(fù)合指標(biāo)的定量分析方法,例如這個(gè)課題研究團(tuán)隊(duì)所推薦的因子分析法、熵值法、神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)方法、無(wú)監(jiān)督的自編碼深度學(xué)習(xí)模型等等。

      可能很多人會(huì)問(wèn),一個(gè)問(wèn)題需要用這么多高深的數(shù)學(xué)方法嗎?解決問(wèn)題具體要用到什么數(shù)學(xué)方法其實(shí)是由問(wèn)題的性質(zhì)所決定的。數(shù)據(jù)深度學(xué)習(xí)所需要解決的問(wèn)題,都是需要把握根本矛盾和本質(zhì)規(guī)律才能有效指導(dǎo)我們工作實(shí)踐的問(wèn)題。

       剛才我提到,數(shù)據(jù)淺表學(xué)習(xí)解決的是從數(shù)據(jù)中獲得我們決策所需要信息的問(wèn)題,比如剛才說(shuō)的,我們做銷(xiāo)售總監(jiān)的人需要知道貨賣(mài)得怎么樣 ,進(jìn)一步也就是需要知道什么時(shí)候賣(mài)得怎么樣。這些問(wèn)題都是知其然(事實(shí))的層面就可以直接求是(判斷和決策)的了,一般人也不具備沃爾瑪研究那些類(lèi)似啤酒和尿布高頻出現(xiàn)的組合關(guān)系背后原因等問(wèn)題的水平和能力,所以大部分都是人云亦云,隨波逐流。

      而為什么真理常常掌握在少數(shù)人手上?因?yàn)檫@些人擁有一般人缺乏的獨(dú)立思考、探究質(zhì)疑、愛(ài)琢磨事理規(guī)律的思維習(xí)慣。恩格斯說(shuō):數(shù)學(xué)是研究數(shù)量關(guān)系與空間形式的一門(mén)科學(xué),對(duì)于我們所要解決的現(xiàn)實(shí)世界的問(wèn)題中的,問(wèn)題背后都有無(wú)限聯(lián)系的宇宙背景,對(duì)事物的關(guān)鍵因素沒(méi)有抽象和簡(jiǎn)化就無(wú)法被我們所認(rèn)知和研究,所以所有的數(shù)學(xué)方法都不可避免存在其適用性和局限性,我們要解決具體問(wèn)題,根據(jù)問(wèn)題性質(zhì)要從知其然進(jìn)入到知其所以然的境界,必然是需要多種數(shù)學(xué)方法和工具的綜合運(yùn)用。

      于是,支撐數(shù)據(jù)深度學(xué)習(xí)的必然是更多應(yīng)用數(shù)學(xué)前沿的基礎(chǔ)理論研究成果,今天我國(guó)的產(chǎn)業(yè)發(fā)展要從低端制造簡(jiǎn)單加工轉(zhuǎn)型升級(jí)到智能制造品質(zhì)創(chuàng)造,必然會(huì)遇到很多前所未見(jiàn)的挑戰(zhàn)和困難,在當(dāng)今世界大勢(shì),我們也很難再如當(dāng)初向世界科技第一強(qiáng)國(guó)copy2china(復(fù)制到中國(guó)),人家已經(jīng)開(kāi)始卡我們科技發(fā)展的脖子了,我們要解決這些卡脖子問(wèn)題,唯有從應(yīng)用數(shù)學(xué)基礎(chǔ)研究搞起,開(kāi)車(chē)上路尚且要備胎,何況走上中華民族偉大復(fù)興的長(zhǎng)征路。

      如果今天有人恭維我聰明,我自己知道這種聰明也是在這幾十年的時(shí)光中,一步一步在數(shù)學(xué)的指引下從數(shù)據(jù)中學(xué)習(xí)回來(lái)的,當(dāng)然我認(rèn)為還遠(yuǎn)遠(yuǎn)不夠。

(本稿完成于2020年7月11日,如需轉(zhuǎn)載請(qǐng)注明出處)



全部評(píng)論 (0)
熱門(mén)領(lǐng)域講師
互聯(lián)網(wǎng)營(yíng)銷(xiāo) 互聯(lián)網(wǎng) 新媒體運(yùn)營(yíng) 短視頻 電子商務(wù) 社群營(yíng)銷(xiāo) 抖音快手 新零售 網(wǎng)絡(luò)推廣 領(lǐng)導(dǎo)力 管理技能 中高層管理 中層管理 團(tuán)隊(duì)建設(shè) 團(tuán)隊(duì)管理 高績(jī)效團(tuán)隊(duì) 創(chuàng)新管理 溝通技巧 執(zhí)行力 阿米巴 MTP 銷(xiāo)售技巧 品牌營(yíng)銷(xiāo) 銷(xiāo)售 大客戶(hù)營(yíng)銷(xiāo) 經(jīng)銷(xiāo)商管理 銷(xiāo)講 門(mén)店管理 商務(wù)談判 經(jīng)濟(jì)形勢(shì) 宏觀經(jīng)濟(jì) 商業(yè)模式 私董會(huì) 轉(zhuǎn)型升級(jí) 股權(quán)激勵(lì) 納稅籌劃 非財(cái)管理 培訓(xùn)師培訓(xùn) TTT 公眾演說(shuō) 招聘面試 人力資源 非人管理 服裝行業(yè) 績(jī)效管理 商務(wù)禮儀 形象禮儀 職業(yè)素養(yǎng) 新員工培訓(xùn) 班組長(zhǎng)管理 生產(chǎn)管理 精益生產(chǎn) 采購(gòu)管理 易經(jīng)風(fēng)水 供應(yīng)鏈管理 國(guó)學(xué) 國(guó)學(xué)文化 國(guó)學(xué)管理 國(guó)學(xué)經(jīng)典 易經(jīng) 易經(jīng)與管理 易經(jīng)智慧 家居風(fēng)水 國(guó)際貿(mào)易
鮮花榜
頭像
+300朵
頭像
+297朵
頭像
+198朵
頭像
+99朵
頭像
+61朵
頭像
+19朵
頭像
+5朵
頭像
+5朵
頭像
+5朵

Copyright©2008-2025 版權(quán)所有 浙ICP備06026258號(hào)-1 浙公網(wǎng)安備 33010802003509號(hào) 杭州講師網(wǎng)絡(luò)科技有限公司
講師網(wǎng) kasajewelry.com 直接對(duì)接10000多名優(yōu)秀講師-省時(shí)省力省錢(qián)
講師網(wǎng)常年法律顧問(wèn):浙江麥迪律師事務(wù)所 梁俊景律師 李小平律師