作為一個在商學(xué)院工作了十多年的統(tǒng)計學(xué)教員,一天到晚為自己,為學(xué)生,或者年輕合作伙伴多寫倆Statistical Paper絞盡腦汁,也是無聊透頂,不知道多少腦細(xì)胞因此犧牲。難得空閑的時候,就瞎琢磨幾個深刻的問題。當(dāng)然,我也不知道這么深刻的問題,該不該我來琢磨。但是既然琢磨了,就不如寫下來跟大家分享探討。這幾個問題就是:中國統(tǒng)計學(xué)未來發(fā)展的大方向是什么?背后的邏輯是什么?套用一句時髦的互聯(lián)網(wǎng)語言就是:中國統(tǒng)計學(xué)的風(fēng)口在哪里?
人說以史為鑒!所以,首先簡單回顧一下某些統(tǒng)計學(xué)領(lǐng)域的發(fā)展史,例如實驗設(shè)計。當(dāng)年,這個領(lǐng)域是如何發(fā)展起來的?難道是少數(shù)天才學(xué)者的智力游戲嗎?顯然不是。這是農(nóng)業(yè)生產(chǎn)的需要。相關(guān)科學(xué)實驗是最根本的驅(qū)動力。那么后來呢?是工業(yè)化進(jìn)程,以至于又催生了質(zhì)量控制、可靠性等相關(guān)學(xué)科。而過去這十年是計算機(jī)實驗。那么未來呢?我想一定是互聯(lián)網(wǎng)。這說明什么?這說明統(tǒng)計學(xué)的發(fā)展要順應(yīng)產(chǎn)業(yè)變革,這是大勢所趨!
再看一個例子,高維數(shù)據(jù)分析是最近20年才被提出來的嗎?不是!早在這個之前,就有學(xué)者,受個人學(xué)術(shù)興趣的驅(qū)動,也曾提出過類似的問題,但沒有形成氣候。為什么?是因為其他學(xué)者當(dāng)時有眼無珠嗎?我認(rèn)為不是。一個主要原因是,這樣的方法在當(dāng)時好像沒什么重要的實際應(yīng)用。這就難怪當(dāng)時主流統(tǒng)計學(xué)研究不關(guān)心這個問題。但為什么,這個當(dāng)年讓人腦洞大開的異類問題,卻成了最近20年的研究主流了?因為科學(xué)技術(shù)變了。以DNA Microarray為代表的生物技術(shù)的巨大進(jìn)步,產(chǎn)生了大量這樣的數(shù)據(jù)。而這些數(shù)據(jù),蘊(yùn)藏著關(guān)乎人類生命健康的秘密,具有重要的科學(xué)價值。這成就了過去這些年的(超)高維數(shù)據(jù)研究。這說明什么?這說明統(tǒng)計學(xué)的發(fā)展依賴于技術(shù)進(jìn)步,這是大勢所趨!
最后一個例子。為什么制藥統(tǒng)計學(xué)在美國那么重要?因為生物制藥這個產(chǎn)業(yè)極其強(qiáng)大。默克、強(qiáng)生、施貴寶等一大批制藥巨頭,每年要實施大量的臨床實驗,產(chǎn)生了大量的數(shù)據(jù),造成了海量的分析需求,進(jìn)而推動了制藥統(tǒng)計學(xué)的發(fā)展。為什么這些巨頭愿意投入巨大的時間、財力、物力作臨床試驗?是它們對科研的好奇心?還是道德上的高尚?可能都有一些,但不是最根本的。最根本的是美國食品藥物監(jiān)督局(FDA)對市場的強(qiáng)力監(jiān)管。這個制度環(huán)境造成了相關(guān)企業(yè)必須實施嚴(yán)格的臨床試驗,進(jìn)而產(chǎn)生了強(qiáng)勁的統(tǒng)計分析需求。而制藥統(tǒng)計的發(fā)展,又極大地促進(jìn)了相關(guān)領(lǐng)域,例如:生物統(tǒng)計學(xué)的發(fā)展。這說明什么?這說明統(tǒng)計學(xué)的發(fā)展需要一定的制度環(huán)境,這是大勢所趨!
所以我們不妨下一個結(jié)論:“統(tǒng)計學(xué)的大勢所趨,從不以任何個人的興趣愛好為轉(zhuǎn)移。而是由產(chǎn)業(yè)變革(例如:工業(yè)化進(jìn)程),技術(shù)進(jìn)步(例如:DNA Microarray),還有制度環(huán)境(例如:FDA政策)所決定”。這一點,我認(rèn)為一定要看清楚!雷軍說:站在風(fēng)口,豬都能飛!這說的是,重大選擇要順勢而為。背后隱含的另外一個結(jié)論是,如果逆風(fēng)而動,鷹也飛不起來。這是我個人看待中國統(tǒng)計學(xué)發(fā)展方向的基本邏輯。那么,在中國這片土地上,面對當(dāng)下的產(chǎn)業(yè)基礎(chǔ),政策環(huán)境,我們的大勢在哪里?統(tǒng)計學(xué)的風(fēng)口在哪里?要當(dāng)飛起來的豬?還是被打趴下的鷹?或者更好:順勢而為的鷹?
要回答這個問題,需要檢討一下中國的現(xiàn)狀。中國有強(qiáng)大的制藥產(chǎn)業(yè)嗎?我相信未來會有。但不是今天,不是明天,不是我們可見的未來5到10年。為什么?因為我們?nèi)狈?qiáng)有力的制度環(huán)境。更加具體地說,我們?nèi)狈︻愃艶DA的強(qiáng)力監(jiān)管機(jī)構(gòu)?,F(xiàn)在的國家藥品監(jiān)督局(即:中國的FDA)已經(jīng)做了很多有意義的工作,但是顯然還遠(yuǎn)遠(yuǎn)不夠。為什么?君不見大家對食品安全的焦慮嗎?這還不足以表明我們的制度環(huán)境需要long way to go嗎?如果上面討論的是對的,那么請允許我做一個悲催的預(yù)測:在中國,未來可見的相當(dāng)長時間內(nèi),生物統(tǒng)計學(xué),將會是一個重要的存在,但是不可能大放異彩。為什么?因為:沒有相應(yīng)的制度環(huán)境。對,就這么簡單!
那么中國有哪些產(chǎn)業(yè)在全球范圍內(nèi)是有競爭力的呢?第一、互聯(lián)網(wǎng);第二、制造業(yè)。這很好理解?;ヂ?lián)網(wǎng)方面,我們有以BAT為代表的一大批有競爭力的企業(yè)。而制造業(yè)方面,中國是世界的中心,孕育了像華為這樣偉大而優(yōu)秀的企業(yè)。這兩個行業(yè),有可能形成風(fēng)口,或者正在形成。這兩個行業(yè)就是統(tǒng)計學(xué)研究的大勢所趨,風(fēng)口所在!
更進(jìn)一步地,這兩個大勢對統(tǒng)計學(xué)研究的具體影響會是什么呢?我們先討論一下互聯(lián)網(wǎng),尤其是移動互聯(lián)網(wǎng),因為大家都很熟悉。請問:移動互聯(lián)網(wǎng)產(chǎn)生了什么獨(dú)特數(shù)據(jù)?它們的價值何在,應(yīng)該如何研究?要回答這個問題,看看自己最常用的APP就知道答案了。我們最常用什么?微信。國外呢?Facebook andTwitter。它們是什么?全部都是基于社交的軟件或者服務(wù)。它們產(chǎn)生了什么樣的數(shù)據(jù)?首先是網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù),用于刻畫了用戶之間的社交關(guān)系。對于統(tǒng)計分析,這會帶來什么樣的變化?最根本的變化就是讓信息沿著網(wǎng)絡(luò)結(jié)構(gòu)開始流通。通俗地講,以前,我們判斷一個人是好人還是壞人(因變量),主要參考他自己的特征(解釋性變量)。但是,有了網(wǎng)絡(luò)結(jié)構(gòu),與之相連個體的所有信息(即包括因變量、也包括解釋性變量),都可以被利用起來,以提高預(yù)測精度。但是,能夠符合該理念、滿足該需求的統(tǒng)計學(xué)模型卻少之又少。這就是網(wǎng)絡(luò)數(shù)據(jù)賦予統(tǒng)計學(xué)發(fā)展的重大機(jī)會,這就是風(fēng)口所在!
再看看制造業(yè)。制造業(yè)有幾個特點。第一、中國是全世界的制造中心,但是亟待產(chǎn)業(yè)升級,進(jìn)入工業(yè)4.0時代。第二、與世界制造中心相對應(yīng)的是,對中國制造業(yè)的數(shù)據(jù),我們卻極其無知,遠(yuǎn)遠(yuǎn)落后于互聯(lián)網(wǎng)。產(chǎn)生這個現(xiàn)象,可能有兩個原因:首先可能是是傳統(tǒng)制造業(yè)的數(shù)據(jù)采集困難,不如互聯(lián)網(wǎng)方便;其次可能是互聯(lián)網(wǎng)的故事太搶眼,讓我們忘記了傳統(tǒng)產(chǎn)業(yè)。但是,我個人感受到的傳統(tǒng)行業(yè),尤其是制造業(yè),卻蓄勢待發(fā)!為什么?兩個基本事實:(1)物聯(lián)網(wǎng)技術(shù)越來越成熟,相應(yīng)的數(shù)據(jù)采集越來越方便。一個典型的案例就是車聯(lián)網(wǎng)。毋庸置疑,未來的汽車一定被成百上千個、各種各樣的探測器所包圍。這些探測器會準(zhǔn)確記錄汽車行駛的方方面面。例如:胎壓、發(fā)動機(jī)溫度、地理位置、行駛方向、行駛速度、加速度、角速度等。這就構(gòu)成了統(tǒng)計分析的數(shù)據(jù)基礎(chǔ)。(2)由于傳統(tǒng)制造業(yè)體量巨大。動則一個汽車廠商年產(chǎn)汽車百萬臺,或者一個家電企業(yè)年產(chǎn)電視機(jī)千萬臺。因此,如果數(shù)據(jù)分析能夠產(chǎn)生任何有益的改進(jìn)方案,帶來的價值都是極其巨大的,很可能遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)分析(例如:精準(zhǔn)營銷)之于互聯(lián)網(wǎng)的價值。由此可見,對于傳統(tǒng)制造業(yè),數(shù)據(jù)分析,很可能不以消費(fèi)者為第一核心。而是以流程再造、產(chǎn)品改進(jìn)、成本節(jié)省為第一核心。這點跟互聯(lián)網(wǎng)行業(yè)很不一樣。而這一切,都是以物聯(lián)網(wǎng)的大規(guī)模、低成本的實施為前提。因此,物聯(lián)網(wǎng)將是另外一個風(fēng)口所在!
基于以上討論,作為統(tǒng)計學(xué)工作者的我們應(yīng)該如何應(yīng)對?我認(rèn)為需要以一種非常謙卑開放的心態(tài),去學(xué)習(xí)業(yè)務(wù)知識,了解應(yīng)用場景,實踐統(tǒng)計學(xué)理論。這方面,可供我們實踐的沃土太豐富了。它們包括但不局限于:游戲、電商、社交、廣告、投資、金融、征信、可穿戴設(shè)備、車聯(lián)網(wǎng)、設(shè)備監(jiān)控、政府、醫(yī)療等。過去的歷史已經(jīng)很清楚地說明:統(tǒng)計學(xué)的發(fā)展,一定要順勢而為。要順應(yīng)產(chǎn)業(yè)變革,技術(shù)進(jìn)步,以及制度環(huán)境。在中國,互聯(lián)網(wǎng)和物聯(lián)網(wǎng)就是大勢所趨,這就是風(fēng)口所在。統(tǒng)計學(xué)從這里出發(fā),想不飛都難!