馮鵬程,馮鵬程講師,馮鵬程聯(lián)系方式,馮鵬程培訓師-【中華講師網(wǎng)】
資本運營、財務管理、戰(zhàn)略與商業(yè)模式專家
45
鮮花排名
0
鮮花數(shù)量
馮鵬程:產(chǎn)業(yè)報告:人工智能產(chǎn)業(yè)深度研究報告-----------------資本運營專家講師馮鵬程教授
2016-01-20 2720

    技術不足導致移動互聯(lián)網(wǎng)難以催生出更多的新應用和商業(yè)模式,為突破瓶頸,新一輪更激動人心、更值得期待的技術革命風暴已經(jīng)誕生,將成為未來10年乃至更長時間內(nèi)IT產(chǎn)業(yè)發(fā)展的焦點,它的名字叫做“人工智能”(AI)。
只有人工智能才能為“萬物互聯(lián)”之后的應用問題提供最完美的解決方案,它將成為IT領域最重要的技術革命,目前市場關心的IT和互聯(lián)網(wǎng)領域的幾乎所有主題和熱點(智能硬件、O2O、機器人、無人機、工業(yè)4.0),發(fā)展突破的關鍵環(huán)節(jié)都是人工智能。
人工智能是指計算機系統(tǒng)具備的能力,該能力可以履行原本只有依靠人類智慧才能完成的復雜任務。硬件體系能力的不足加上發(fā)展道路上曾經(jīng)出現(xiàn)偏差,以及算法的缺陷,使得人工智能技術的發(fā)展在上世紀80—90年代曾經(jīng)一度低迷。近年來,成本低廉的大規(guī)模并行計算、大數(shù)據(jù)、深度學習算法、人腦芯片4大催化劑的齊備,導致人工智能的發(fā)展出現(xiàn)了向上的拐點。
國際IT巨頭已經(jīng)開始在人工智能領域頻頻發(fā)力,一方面網(wǎng)羅頂尖人才,一方面加大投資力度,人工智能新的春天已經(jīng)到來。自然語言處理、計算機視覺、規(guī)劃決策等AI細分領域近期進展顯著,很多新的應用和產(chǎn)品已經(jīng)驚艷亮相。
由于技術的復雜度,未來5-10年內(nèi),專用領域的智能化是AI應用的主要方向,在更遠的將來,隨著技術的進一步突破,通用領域的智能化有望實現(xiàn)。無論是專用還是通用領域,人工智能都將圍繞“基礎資源支持-AI技術-AI應用”這三層基本架構形成生態(tài)圈。
在 專用領域的智能化階段,有能力的企業(yè)都希望打通三層架構。他們有的將從上往下延伸,如蘋果、??低暋⑿∶椎戎悄苡布髽I(yè);有的試圖從下往上拓展,如百 度、谷歌、IBM等互聯(lián)網(wǎng)和IT的巨頭,以及科大訊飛、格靈深瞳等AI技術新貴。產(chǎn)業(yè)格局更多地表現(xiàn)出“競爭”而非“合作”,整個行業(yè)依然處于野蠻生長的 初期階段。我們認為,該階段最值得投資的是已經(jīng)具備先發(fā)優(yōu)勢的AI企業(yè),無論他目前處于哪一層都可以。
在 未來通用智能時代,進入門檻最高,護城河最寬的是底層AI資源支持的平臺企業(yè);其次是技術層中在細分領域具備核心競爭力的領先企業(yè);門檻最低的是應用層的 企業(yè),但消費電子的產(chǎn)品屬性也將允許差異化競爭的空間。除了自然語言處理、計算機視覺等AI技術在某些領域的直接應用,人工智能更大的影響在于將重塑生活 服務、醫(yī)療、零售、數(shù)字營銷、農(nóng)業(yè)、工業(yè)、商業(yè)等各行各業(yè),并將引發(fā)新一輪IT設備投資周期。智能化的大潮即將來襲,萬億元的市場規(guī)模值得期待。新技術革命登場IT發(fā)展焦點將從互聯(lián)網(wǎng)轉向人工智能發(fā)軔于2007年的移動互聯(lián)網(wǎng)浪潮已經(jīng)席卷全球,極大地改變了我們的生存狀態(tài)。然而,就在資本市場熱切地期待移動互聯(lián)網(wǎng)催生出更多新應用服務、更多新商業(yè)模式的時候,由技術水平不足導致的發(fā)展瓶頸已然出現(xiàn)。
與此同時,為突破上述瓶頸,新一輪更激動人心、更值得期待的技術革命風暴已經(jīng)誕生,將成為未來10年乃至更長時間內(nèi)IT產(chǎn)業(yè)發(fā)展的焦點,將再次并更加徹底地顛覆世界。這一輪技術革命風暴,它的名字叫做“人工智能”(Artificial Intelligence,以下簡稱AI)。“ 基于互聯(lián)網(wǎng)的應用服務發(fā)展已遭遇技術瓶頸,AI將成開鎖金鑰匙基于PC的互聯(lián)網(wǎng)、基于手機和平板電腦的移動互聯(lián)網(wǎng)以及基于各種其他設備的物聯(lián)網(wǎng),其本質(zhì)是解決了“連接”問題:連接人與人、人與物以及物與物,并且在連接的基礎上創(chuàng)造出新的商業(yè)模式。
以國內(nèi)BAT三巨頭為例,百度完成的是人與信息的對接,商業(yè)模式以網(wǎng)絡廣告為主;阿里解決的是人與商品的對接,電商是其商業(yè)模式;騰訊則實現(xiàn)了人與人的對接,依靠強大的免費社交軟件吸引龐大的用戶群,在此基礎上利用增值業(yè)務和游戲來實現(xiàn)貨幣化。盡 管互聯(lián)網(wǎng)的普及打造了包括谷歌、亞馬遜、百度、阿里、騰訊、京東等一批巨頭以及數(shù)量更為龐大的中小企業(yè),基于網(wǎng)絡的創(chuàng)新應用和服務類型也多種多樣,但技術 瓶頸的制約已經(jīng)越來越明顯:生活方面需求痛點的解決、生產(chǎn)領域具有適應性和資源效率的智慧工廠的建立、物流體系中更加方便快捷的配送方式建設等問題,都面 臨智能化程度不足帶來的障礙。只有人工智能才能為“萬物互聯(lián)”之后的應用問題提供最完美的解決方案。
人工智能的價值如此重要,以至于我們可以毫不夸張地說,它將成為IT領域最重要的技術革命,目前市場關心的IT和互聯(lián)網(wǎng)領域的幾乎所有主題和熱點(智能硬件、O2O、機器人、無人機、工業(yè)4.0),發(fā)展突破的關鍵環(huán)節(jié)都是人工智能?!?下面我們將通過一些例子和應用場景來更形象具體地展示上述瓶頸以及AI的重要性智能冰箱還不能告訴我們做什么由 于生活節(jié)奏加快人們的空閑時間大為減少,做家務的時間日益顯得不足,我們需要一款聰明的冰箱,讓冰箱告訴我們做什么。來自奧維咨詢的《中國家用冰箱食品浪 費調(diào)查報告》顯示,“每個家庭平均每年發(fā)生176次食物浪費現(xiàn)象。70%受訪者表示,造成浪費的主要原因是一次購買太多和放入冰箱后忘記。
智能冰箱的出現(xiàn),不僅可以自行“清理門戶”,采購新鮮食品,還能統(tǒng)籌安排,減少食材浪費,制作個性化食譜。它會根據(jù)食材新鮮與否,把不新鮮的食材調(diào)動到距離冰箱門最近的地方,提醒主人“它該吃了”。此外,智能冰箱能對用戶的膳食合理性進行分析,制作菜譜。
同 時提示需要補充的食材,如果與生鮮電商聯(lián)網(wǎng)的話,可以自動選擇送貨上門,直接實現(xiàn)食物的配送發(fā)貨收獲自動化和智能化。2014年美菱率先推出全球首臺云圖 像識別智能冰箱ChiQ,突破全球智能冰箱技術門檻,該冰箱具備變頻功能,可以用語音搜索、自動推薦等多種方式進行食譜推薦,并實現(xiàn)手機的遠程查看和控 制。
智能冰箱功能法的升級,提升用戶體驗和價值,背后的最大核心是自動識別技術的突破。圖像識別技術通過圖像采集系統(tǒng)得到食材圖片,運用圖像識別算法,轉化成食品的信息列表。而通過圖像識別技術,判斷食材的種類是實現(xiàn)冰箱智能化的拐點。
可見,不是用戶對智能家居的需求不存在,而是現(xiàn)有的技術無法支撐家居的智能化,這個瓶頸無法突破,智能家居永遠是紙上談兵。那么,解決這個問題的鑰匙在哪里?人工智能技術的突破:圖像識別背后的底層技術就來自于人工智能的算法和應用!O2O尚未實現(xiàn)生活服務智能化試想這樣一個場景,你想選擇一個地方和朋友吃飯,首先你會打開一個應用,在這個過程中它會自動確定你所在的位置,然后你通過語音開始向其發(fā)出請求“我想在這附近找一家中式餐廳,下午將要與朋友一起就餐,消費價格適中?!?br />應用根據(jù)你發(fā)出的請求及過往的生活習慣為你尋找到數(shù)十家備選方案優(yōu)選列表,然后你可以根據(jù)興趣與愛好選擇直接確定方案,或者實時打開查看各家的類型、折扣、評分、環(huán)境、位置、菜品、用戶評價等綜合信息并進行篩選,這些信息綜合在一起形成了你對某家餐廳的判斷和最終的決策。
這時你可以就一些問題與餐廳的服務人員進行實時的溝通,然后交付押金輕松的進行預訂。預訂好了餐廳之后,通過語音控制,你可以將信息轉發(fā)給朋友。當你到了該出發(fā)赴約的時候,這個應用開始提醒你,并可以選擇是否開啟地圖語音導航模式,為你提供位置和路線服務。
從 本質(zhì)上說,消費者和商戶存在各自信息獲取不對稱的問題,而O2O在于把服務業(yè)互聯(lián)網(wǎng)化,將商戶與消費者之間連接的更好,讓信息不對稱的問題都能解決,這不 僅能夠幫助商戶,也能夠幫助消費者。消費者對O2O的最大訴求主要是在前端信息的檢索和獲取,而商家的目的在于持續(xù)獲取消費者,這主要通過前端提供消費者 信息影響其購買決策,并通過后期客戶管理增強與用戶關系。
互聯(lián)網(wǎng)的O2O商業(yè)模式氣勢洶洶的顛覆傳統(tǒng)行業(yè),似乎發(fā)展到現(xiàn)在好像開始止步不前了。目前點評網(wǎng)站、地圖導航、預定網(wǎng)站、優(yōu)惠券網(wǎng)站等很好地滿足了消費者信息獲取來源,但移動搜索引擎卻未能很好滿足消費者檢索的需求,使他們可以方便地查找餐廳以及優(yōu)惠地享受服務。
綜 合來看,未來的O2O會是一個融合線下信息聚合、語音識別、自然語言解析、搜索引擎、點評信息聚合、預訂服務、地圖導航、NFC、CRM、語音以及實時溝 通等功能為一體的基于位置的服務平臺。然而,至今仍然懸而未決的技術瓶頸是:自然語言的解析。如何通過對用戶的自然語言(文本+語音)等數(shù)據(jù),結合知識圖 譜,推理出用戶的需求并精準的推送用戶所需的本地化生活服務?這扇大門的鑰匙也是在人工智能技術的突破!無人機尚不能自主飛行目前無人機雖然在軍事和民用領域都得到了應用,但其智能化程度還遠遠不夠,仍然需要人遙控操縱,尚未實現(xiàn)自主飛行。設想一下你打開家里的窗子,一架無人機恰巧停在窗外,你從無人機上取下自己購買的物品,然后拿出手機確認收到,無人機才緩緩飛走,去尋找下一個客戶。
或 者,下午你要去某咖啡館與客戶交流,恰巧有一個快遞要送來。你提前通知快遞公司,讓無人機指揮中心更改送貨路線,通知無人機將快遞送到咖啡館。物流體系使 用無人機取代人工,實現(xiàn)貨物派送的設想一旦實現(xiàn),將大大提高配送效率,減少人力、運力成本,可以說承載了人們對于未來物流的夢想。但這一夢想如果要得以實 現(xiàn),必須要使無人機具備感知和規(guī)劃的智能。
低 空以及在建筑物內(nèi)部飛行會遭遇很多的障礙物,即使預先設定飛行線路,也無法避免臨時出現(xiàn)的障礙(比如寫字樓里突然關上的門),這就需要無人機具備視覺功 能、不確定性環(huán)境下的路線規(guī)劃以及行動能力。此外,為保證準確投遞,無人機或許還要具備人臉識別的能力,可以通過預先發(fā)送的照片識別出收貨人。這些感知、 規(guī)劃和行動能力都屬于人工智能技術。智能化是工業(yè)4.0之魂第一次工業(yè)革命是隨著蒸汽機驅動的機械制造設備的出現(xiàn);第二次工業(yè)革命是基于勞動分工的,電力驅動的大規(guī)模生產(chǎn);第三次工業(yè)革命是用電子和IT技術實現(xiàn)制造流程的進一步自動化;而如今,第四次工業(yè)革命正在來臨!
“工 業(yè)4.0”,是一個德國政府提出的高科技戰(zhàn)略計劃。這個概念包含了由集中式控制向分散式增強型控制的基本模式轉變,目標是建立一個高度靈活的個性化和數(shù)字 化的產(chǎn)品與服務的生產(chǎn)模式。在這種模式中,傳統(tǒng)的行業(yè)界限將消失,并會產(chǎn)生各種新的活動領域和合作形式。創(chuàng)造新價值的過程正在發(fā)生改變,產(chǎn)業(yè)鏈分工將被重 組。
從以上的描述中不難看出,工業(yè)4.0對智能化的要求涵蓋更廣,涉及機器感知、規(guī)劃、決策以及人機交互等方面,而這些領域都是人工智能技術的重點研究方向。人工智能技術“奇點”到來在 宇宙大爆炸理論中,“奇點”是指由爆炸而形成宇宙的那一點,即宇宙從無到有的起點。而在美國著名科學家雷?庫茲韋爾(Ray?Kurzweil:發(fā)明了盲 人閱讀機、音樂合成器和語音識別系統(tǒng);獲9項名譽博士學位,2次總統(tǒng)榮譽獎;著有暢銷作品《奇點臨近》,現(xiàn)任奇點大學校長)的理論中,“奇點”是指電腦智 能與人腦智能相互融合的那個美妙時刻。我們認為,這個美妙時刻正在到來?!?什么是人工智能:從“smart”到“intelligent”目前市場上所謂“智能”的設備或概念很多,從智能手機到智能家居等,但這些“智能”實際上是“smart”的含義,即靈巧;真正意義上的智能應該是“intelligent”的含義。
“人 工智能”一詞最初是在1956年達特茅斯學會上提出的。從學科定義上來說,人工智能(ArtificialIntelligence)是研究、開發(fā)用于模 擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以 人類智能相似的方式做出反應的智能機器。
人工智能的概念和定義有多種,下圖中沿兩個維度排列了AI的8種定義。頂部的定義關注思維過程和推理,而底部的定義強調(diào)行為。左側的定義根據(jù)與人類表現(xiàn)的逼真度來衡量成功與否,而右側的定義依靠一個稱為“合理性”(Rationality)的理想的表現(xiàn)量來衡量。如果從比較容易理解的角度來概括的話,人工智能是指計算機系統(tǒng)具備的能力,該能力可以履行原本只有依靠人類智慧才能完成的復雜任務。
人工智能的應用領域主要包含以下幾個方面的內(nèi)容:自然語言處理(包括語音和語義識別、自動翻譯)、計算機視覺(圖像識別)、知識表示、自動推理(包括規(guī)劃和決策)、機器學習、機器人學“ 人腦的精密結構難以復制,人工智能技術曾一度受阻超大規(guī)模并行結構使得人腦功能強勁人類的大腦中有數(shù)百至上千億個神經(jīng)細胞(神經(jīng)元),而且每個神經(jīng)元都通過成千上萬個“突觸”與其他神經(jīng)元相連,形成超級龐大和復雜的神經(jīng)元網(wǎng)絡,以分布和并發(fā)的方式傳導信號,相當于超大規(guī)模的并行計算(Parallel Computing)。因此盡管單個神經(jīng)元傳導信號的速度很慢(每秒百米的級別,遠低于計算機的CPU),但這種超大規(guī)模的并行計算結構仍然使得人腦遠超計算機,成為世界上到目前為止最強大的信息處理系統(tǒng)。計算機的傳統(tǒng)結構制約人工智能的發(fā)展美籍匈牙利科學家馮?諾依曼(John Von?Neumann)是數(shù)字計算機之父,首先提出了計算機體系結構的設想,目前世界上絕大多數(shù)計算機都采取此種結構,它也被稱之為馮?諾依曼體系結構。簡單來說,馮?諾依曼體系結構的基本特征有以下幾點:
1、采用存儲程序方式,指令和數(shù)據(jù)不加區(qū)別混合存儲在同一個存儲器中,指令和數(shù)據(jù)都可以送到運算器進行運算,即由指令組成的程序是可以修改的。2、存儲器是按地址訪問的線性編址的一維結構,每個單元的位數(shù)是固定的。3、指令由操作碼和地址組成。操作碼指明本指令的操作類型,地址碼指明操作數(shù)和地址。操作數(shù)本身無數(shù)據(jù)類型的標志,它的數(shù)據(jù)類型由操作碼確定。4、通過執(zhí)行指令直接發(fā)出控制信號控制計算機的操作。指令在存儲器中按其執(zhí)行順序存放,由指令計數(shù)器指明要執(zhí)行的指令所在的單元地址。指令計數(shù)器只有一個,一般按順序遞增,但執(zhí)行順序可按運算結果或當時的外界條件而改變。5、以運算器為中心,I/O設備與存儲器間的數(shù)據(jù)傳送都要經(jīng)過運算器。6、數(shù)據(jù)以二進制表示。人 工智能對計算機性能的要求很高,尤其是在非數(shù)值處理應用領域。馮?諾依曼體系的串行結構和人腦龐大復雜的并行結構相去甚遠,使得現(xiàn)有計算機系統(tǒng)難以迅速有 效地處理復雜的感知、推理、決策等問題。硬件體系能力的不足加上發(fā)展道路上曾經(jīng)出現(xiàn)偏差(希望直接在通用型的人工智能方面取得突破),以及算法的缺陷,使 得人工智能技術的發(fā)展在上世紀80年代末到90年代曾經(jīng)一度低迷?!?四大催化劑齊備,人工智能發(fā)展迎來轉折點近幾年來,隨著技術的進步,人工智能的發(fā)展出現(xiàn)了顯著的復蘇趨勢。我們認為,下述4個方面的原因帶來了人工智能發(fā)展的向上拐點:云計算成本低廉的大規(guī)模并行計算實現(xiàn)上文中提到,馮?諾依曼體系的串行結構使得計算機無法滿足人工智能對硬件的要求,而近年來云計算的出現(xiàn)至少部分解決了這個問題。
從 概念上講,可把云計算看成是“存儲云+計算云”的有機結合,即“云計算=存儲云+計算云”。存儲云的基礎技術是分布存儲,而計算云的基礎技術正是并行計 算:將大型的計算任務拆分,然后再派發(fā)到云中的各個節(jié)點進行分布式的計算,最終再將結果收集后統(tǒng)一處理。大規(guī)模并行計算能力的實現(xiàn)使得人工智能往前邁進了 一大步。
云 計算的實質(zhì)是一種基礎架構管理的方法論,是把大量的計算資源組成IT資源池,用于動態(tài)創(chuàng)建高度虛擬化的資源供用戶使用。在云計算環(huán)境下,所有的計算資源都 能夠動態(tài)地從硬件基礎架構上增減,以適應工作任務的需求。云計算基礎架構的本質(zhì)是通過整合、共享和動態(tài)的硬件設備供應來實現(xiàn)IT投資的利用率最大化,這就 使得使用云計算的單位成本大大降低,非常有利于人工智能的商業(yè)化運營。值得特別指出的是,近來基于GPU(圖形處理器)的云計算異軍突起,以遠超CPU的并行計算能力獲得業(yè)界矚目。CPU 和GPU架構差異很大,CPU功能模塊很多,能適應復雜運算環(huán)境;GPU構成則相對簡單,目前流處理器和顯存控制器占據(jù)了絕大部分晶體管。CPU中大部分 晶體管主要用于構建控制電路(比如分支預測等)和高速緩沖存儲器(Cache),只有少部分的晶體管來完成實際的運算工作;而GPU的控制相對簡單,而且 對Cache的需求小,所以大部分晶體管可以組成各類專用電路、多條流水線,使得GPU的計算速度有了突破性的飛躍,擁有了驚人的處理浮點運算的能力?,F(xiàn) 在CPU的技術進步正在慢于摩爾定律,而GPU的運行速度已超過摩爾定律,每6個月其性能加倍。
CPU 的架構是有利于X86指令集的串行架構,從設計思路上適合盡可能快的完成一個任務;對于GPU來說,它最初的任務是在屏幕上合成顯示數(shù)百萬個像素的圖像 ——也就是同時擁有幾百萬個任務需要并行處理,因此GPU被設計成可并行處理很多任務,天然具備了執(zhí)行大規(guī)模并行計算的優(yōu)勢。
現(xiàn) 在不僅谷歌、Netflix用GPU來搭建人工智能的神經(jīng)網(wǎng)絡,F(xiàn)acebook、Amazon、Salesforce都擁有了基于GPU的云計算能力, 國內(nèi)的科大訊飛也采用了GPU集群支持自己的語音識別技術。GPU的這一優(yōu)勢被發(fā)現(xiàn)后,迅速承載起比之前的圖形處理更重要的使命:被用于人工智能的神經(jīng)網(wǎng) 絡,使得神經(jīng)網(wǎng)絡能容納上億個節(jié)點間的連接。傳統(tǒng)的CPU集群需要數(shù)周才能計算出擁有1億節(jié)點的神經(jīng)網(wǎng)的級聯(lián)可能性,而一個GPU集群在一天內(nèi)就可完成同 一任務,效率得到了極大的提升。另外,GPU隨著大規(guī)模生產(chǎn)帶來了價格下降,使其更能得到廣泛的商業(yè)化應用。大數(shù)據(jù)訓練有效提高人工智能水平機器學習是人工智能的核心和基礎,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域。該領域的頂級專家Alpaydin先生如此定義:“機器學習是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標準。”






我們已經(jīng)進入到大數(shù)據(jù)時代,來自全球的海量數(shù)據(jù)為人工智能的發(fā)展提供了良好的條件。
根據(jù)IDC的監(jiān)測統(tǒng)計,2011年全球數(shù)據(jù)總量已經(jīng)達到1.8ZB(1ZB等于1萬億GB,1.8ZB也就相當于18億個1TB的移動硬盤,人均200GB,這些信息的量相當于可以填充572億個32GB的iPad),而這個數(shù)值還在以每兩年翻一番的速度增長,預計到2020年全球將總共擁有35ZB的數(shù)據(jù)量,增長近20倍。“深度學習”技術的出現(xiàn)“深度學習”是機器學習研究中的一個新的領域,它模擬人類大腦神經(jīng)網(wǎng)絡的工作原理,將輸出的信號通過多層處理,將底層特征抽象為高層類別,它的目標是更有效率、更精確地處理信息。深度學習自2006年由Geoffrey Hinton教授和他的兩個學生被提出后,使得機器學習有了突破性的進展,極大地推動了人工智能水平的提升。2013年,《麻省理工技術評論》把它列入年度十大技術突破之一。
人腦具有一個深度結構,認知過程是逐步進行,逐層抽象的,能夠層次化地組織思想和概念。深度學習之所以有如此大的作用,正是因為它較好地模擬了人腦這種“分層”和“抽象”的認知和思考方式。
深度學習的實質(zhì),是通過構建具有很多隱層的機器學習模型和海量的訓練數(shù)據(jù),來學習更有用的特征,從而最終提升分類或預測的準確性。因此,“深度模型”是手段,“特征學習”是目的。區(qū)別于傳統(tǒng)的淺層學習,深度學習的不同在于:1)強調(diào)了模型結構的深度,通常有5層、6層,甚至10多層的隱層節(jié)點;2)明確突出了特征學習的重要性,也就是說,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預測更加容易。與人工規(guī)則構造特征的方法相比,利用大數(shù)據(jù)來學習特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。深度學習使得人工智能在幾個主要領域都獲得了突破性進展:在語音識別領域,深度學習用深層模型替換聲學模型中的混合高斯模型(Gaussian Mixture Model, GMM),獲得了相對30%左右的錯誤率降低;在圖像識別領域,通過構造深度卷積神經(jīng)網(wǎng)絡(CNN),將Top5錯誤率由26%大幅降低至15%,又通過加大加深網(wǎng)絡結構,進一步降低到11%;在自然語言處理領域,深度學習基本獲得了與其他方法水平相當?shù)慕Y果,但可以免去繁瑣的特征提取步驟??梢哉f到目前為止,深度學習是最接近人類大腦的智能學習方法?!叭四X”芯片另一個方向打開人工智能的大門前面提到了現(xiàn)代計算機的馮?諾依曼體系結構阻礙了大規(guī)模并行計算的實現(xiàn),導致人工智能發(fā)展受限。而今天人工智能發(fā)展面臨突破,除了上文說的云計算、大數(shù)據(jù)、深度學習三個原因之外,另外一個方向的努力也是不容忽視的,那就是徹底改變了馮?諾依曼體系結構的“人腦”芯片。
“人腦”芯片,也叫神經(jīng)形態(tài)芯片,是從硬件方向對人腦物理結構的模擬。這種芯片把數(shù)字處理器當作神經(jīng)元,把內(nèi)存作為突觸,跟傳統(tǒng)?馮諾依曼結構不一樣,它的內(nèi)存、CPU和通信部件是完全集成在一起,因此信息的處理完全在本地進行。而且由于本地處理的數(shù)據(jù)量并不大,傳統(tǒng)計算機內(nèi)存與CPU之間的瓶頸不復存在了。同時神經(jīng)元之間可以方便快捷地相互溝通,只要接收到其他神經(jīng)元發(fā)過來的脈沖(動作電位),這些神經(jīng)元就會同時做動作。人工智能產(chǎn)業(yè)發(fā)展加速明顯技術“奇點”的到來使得人工智能發(fā)展明顯加速,這從產(chǎn)業(yè)層面能夠得到有力的佐證:我們已經(jīng)能夠看到IT業(yè)對人工智能的投入顯著加大,新型的應用或產(chǎn)品也不斷問世。“國際IT巨頭頻頻放“大招”IT領域的國際巨頭近年來在人工智能領域頻頻發(fā)力,一方面網(wǎng)羅頂尖人才,一方面加大投資力度,這也昭示著人工智能新的春天已經(jīng)到來。
2013年3月,谷歌以重金收購DNNresearch的方式請到了Geoffrey Hinton教授(上文提到的深度學習技術的發(fā)明者);2013年12月,F(xiàn)acebook成立了人工智能實驗室,聘請了卷積神經(jīng)網(wǎng)絡最負盛名的研究者、紐約大學終身教授Yann LeCun為負責人;2014年5月,有“谷歌大腦之父”美稱的Andrew NG(吳恩達)加盟百度,擔任首席科學家,負責百度研究院的領導工作,尤其是“百度大腦”計劃。這幾位人工智能領域泰斗級人物的加入,充分展示了這些互聯(lián)網(wǎng)巨頭對人工智能領域志在必得的決心。
根據(jù)量化分析公司Quid的數(shù)據(jù),自2009年以來,人工智能已經(jīng)吸引了超過170億美元的投資。僅去年一年,就有322家擁有類似人工智能技術的公司獲得了超過20億美元的投資。自2013年以來,Yahoo、Intel、Dropbox、LinkedIn、Pinterest以及Twitter也都收購了人工智能公司。過去四年間,人工智能領域的民間投資以平均每年62%的增長速率增加,這一速率預計還會持續(xù)下去。 “新的AI應用和產(chǎn)品屢有驚喜自然語言處理(NLP)微軟SkypeTranslator同聲傳譯Skype Translator是由Skype和微軟機器翻譯團隊聯(lián)合開發(fā),整合了微軟Skype語音和聊天技術、機器翻譯技術、神經(jīng)網(wǎng)絡語音識別打造了一款面向消費者用戶的產(chǎn)品,2014年5月在微軟Code大會上推出。兩個不同語種的人借助SkypeTranslator可實現(xiàn)無障礙交談,當你說出一個完整的句子后,系統(tǒng)便會開始進行記錄翻譯,對方即可聽到翻譯后的句子,并可通過字幕顯示在屏幕上。這個實時語音翻譯系統(tǒng)能夠識別不同用戶間的不同語言不同口音的說話方式。
目前,Skype Translator還處在早期開發(fā)階段,但這一實時語音翻譯功能有可能幫助改變世界未來的交流方式。比如在線教育,2014年12月,微軟正式推出了Skype Translator預覽版,讓來自美國和墨西哥的小學生使用各自母語就能進行語音通話。它可以識別美國小學生的英文語句并將其翻譯為西班牙語,然后以文本的形式呈獻給墨西哥小學生,反之亦然。微軟計劃將Skype Translator服務推向教育領域,如此一來全世界各地的學生都能無障礙聆聽任何語言的課程,顯然這對于促進全球教育進步有著非比尋常的意義。計算機視覺(CV)1格靈深瞳的智能視頻監(jiān)控系統(tǒng)在安防領域,攝像頭已經(jīng)得到大規(guī)模的使用,但監(jiān)控的有效性依然面臨兩個嚴峻的挑戰(zhàn):1、 攝像頭只能起到記錄功能,識別還要依靠人眼,真正能實時監(jiān)控到的場景非常有限:一個像機場大小的公共場所,攝像頭的數(shù)量能夠達到幾萬臺,而同一時間負責監(jiān)控視頻的安保人員大概只有幾個人;此外,視頻監(jiān)控往往都采用畫面輪播機制,每過一定時間自動切換屏幕上顯示的監(jiān)控視頻畫面。所以,那些真正有信息價值的畫面被人看到、注意到的幾率就很小。
2、 難以有效查詢歷史記錄。據(jù)估計全球監(jiān)控視頻記錄的存儲已經(jīng)消耗了75%的硬盤資源,以北京天安門為例,每天產(chǎn)生的監(jiān)控視頻數(shù)據(jù),刻成光盤摞起來,甚至超過埃菲爾鐵塔的高度。要在如此龐大的數(shù)據(jù)庫里依靠人眼尋找某個特定畫面或犯罪嫌疑人,需要動用大量的人力資源,并且效率低下。
格靈深瞳是一家專注于開發(fā)計算機視覺的人工智能公司,致力于讓計算機像人一樣主動獲取視覺信息并進行精確的實時分析。公司成立于2013年初,創(chuàng)始人為Google眼鏡的核心團隊成員,成立不久就獲得真格基金和聯(lián)創(chuàng)策源的天使投資,并于2014年6月獲得紅杉資本數(shù)千萬美元的A輪投資。
格靈深瞳通過研發(fā)三維視覺感知技術,實現(xiàn)對人物的精確檢測、跟蹤,對動作姿態(tài)(包括暴力、跌倒等危險行為)和人物運動軌跡(包括越界、逆行、徘徊等可疑軌跡)的檢測和分析。在自動場景和人物檢測的基礎上,自動給安保人員提供預警信號,主動提醒、報告異常,保障安保人員“看得到”。同時,格靈深瞳利用感知技術抽象出人物的特征,從非時間的維度進行監(jiān)測、跟蹤、搜索,真正做到“找得到”。目前格靈深瞳的視頻監(jiān)控系統(tǒng)已經(jīng)在對安防要求較高的銀行進行應用測試。如果該技術投入大規(guī)模商業(yè)化應用,將有效改善上文提到的現(xiàn)有視頻監(jiān)控的缺陷,是人工智能改變世界邁出的非常積極的一步。2Face++的人臉識別云服務Face++是一個人臉識別云服務平臺,通過它提供的開放服務,開發(fā)者可以低成本的在自己的產(chǎn)品中實現(xiàn)若干面部識別功能。開發(fā)者和合作方通過Face++提供的API接入和離線引擎就可以享受現(xiàn)成的人臉檢測、分析和識別等服務。Face++人臉識別技術主要有以下幾種基本功能:1)人臉檢測:從圖片中快速、準確的找到所有的或者有某些特征的臉。2)人臉分析:通過人臉,對人的性別、年齡、情緒的信息進行提取。3)人臉識別:匹配給定人臉的相似性,或者從成萬上億的人臉資料庫中搜索、返回最相似的人臉索引。
Face++為美圖秀秀、美顏相機App提供諸如:人臉檢測、人臉追蹤、關鍵點檢測技術,可精準定位人臉中需要美化的位置,實現(xiàn)精準自動人臉美化,但這些僅是人臉識別的初級階段。此外在稍高級的應用階段——搜索領域,F(xiàn)ace++所做的人臉識別為世紀佳緣提供服務,用戶可根據(jù)自己對另一半長相的需求去搜索相似外貌的用戶,當然這個搜索需要在數(shù)據(jù)庫中進行,可以是世紀佳緣的數(shù)據(jù)庫、未來可以是社交網(wǎng)絡上的數(shù)據(jù)庫、更可以是在通用搜索引擎中。
第二個是Face++與360搜索達成了合作,在360的圖片搜索中使用到相關的技術。而在另一塊安全領域,F(xiàn)ace++推出了APP“云臉應用鎖”,掃描一下人臉和設置一下備用密碼,就可以將需要加密的應用添加到需要保護的應用程序中。這樣打開加密的應用時,就要事先經(jīng)過一個人臉識別的監(jiān)測,才能成功打開此應用。非常適合于圖片、信息、支付軟件等等擁有私密信息較高的應用程序當中。知識表示、規(guī)劃和決策1Palantir:CIA的反恐秘密武器大數(shù)據(jù)挖掘分析公司Palantir成立于2004年,該平臺把人工智能算法和強大的引擎(可以同時掃描多個數(shù)據(jù)庫)整合,可以同時處理大量數(shù)據(jù)庫,并允許用戶通過多種方式快速瀏覽相關信息。其產(chǎn)品已被美國中情局(CIA)、聯(lián)邦調(diào)查局(FBI)、海陸空三軍、聯(lián)邦檢察官、私人調(diào)查機構及其他客戶所使用。
類似CIA和FBI這樣的情報機構有成千上萬個數(shù)據(jù)庫,并記錄著不同的數(shù)據(jù),比如財務數(shù)據(jù)、DNA樣本、語音資料、錄像片段以及世界各地的地圖。將這些數(shù)據(jù)建立聯(lián)系需要數(shù)年的時間,即便統(tǒng)一在一起,也很難駕馭不同種類的數(shù)據(jù),比如說如何關聯(lián)銷售數(shù)據(jù)和監(jiān)控錄像資料,而Palantir公司所做的就是開發(fā)軟件使這一切變得更容易。同時,Palantir還對各種安全問題高度敏感。
Palantir引發(fā)了計算機時代的一場革命,它梳理所有可以獲得的數(shù)據(jù)庫,對相關信息進行確認,并他們整合起來。Palantir成立之初就獲的CIA基金公司In-Q-Tel的投資,現(xiàn)在成為了美國情報機關在反恐戰(zhàn)爭不能缺少的工具。Palantir有效的解決了911后對情報工作提出的技術難題:如何從大量的數(shù)據(jù)中快速獲取有價值的線索,可以說是CIA的反恐秘密武器。
Palantir公司相當?shù)驼{(diào),但非常受政府情報機關和華爾街的熱捧。除了反恐,其關注重點也開始轉向醫(yī)療、零售、保險和生物科技,比如利用Palantir可以偵查醫(yī)療保險詐騙以及發(fā)現(xiàn)病毒爆發(fā)的源頭?,F(xiàn)在,Palantir年收入已超過10億美元,并且每年以3倍的速度增長。2IBM Watson:認知能力強勁Watson由90臺IBM服務器、360個計算機芯片驅動組成,是一個有10臺普通冰箱那么大的計算機系統(tǒng)。它擁有15TB內(nèi)存、2880個處理器、每秒可進行80萬億次運算。IBM為沃森配置的處理器是Power 7系列處理器,這是當前RISC(精簡指令集計算機)架構中最強的處理器。
Watson存儲了大量圖書、新聞和電影劇本資料、辭海、文選和《世界圖書百科全書》等數(shù)百萬份資料。每當讀完問題的提示后,Watson就在不到三秒鐘的時間里對自己長達2億頁的料里展開搜索。Watson是基于IBM“DeepQA”(深度開放域問答系統(tǒng)工程)技術開發(fā)的,DeepQA技術可以讀取數(shù)百萬頁文本數(shù)據(jù),利用深度自然語言處理技術產(chǎn)生候選答案,根據(jù)諸多不同尺度評估那些問題。
IBM研發(fā)團隊為Watson開發(fā)的100多套算法可以在3秒內(nèi)解析問題,檢索數(shù)百萬條信息然后再篩選還原成“答案”輸出成人類語言。每一種算法都有其專門的功能。
IBM公司自2006年開始研發(fā)沃森,并在2011年2月的《危險地帶》(Jeopardy?。┲橇尨鹩螒蛑幸粦?zhàn)成名后,其商業(yè)化應用有著清晰的脈絡:2011年8月沃森開始應用于醫(yī)療領域;2012年3月,沃森則首次應用于金融領域,花旗集團成為了沃森的首位金融客戶,沃森幫助花旗分析用戶的需求,處理金融、經(jīng)濟和用戶數(shù)據(jù)以及實現(xiàn)數(shù)字銀行的個性化,并幫助金融機構找出行業(yè)專家可能忽略的風險、收益以及客戶需求。美國農(nóng)業(yè)銀行信貸證券公司的一份研究報告中預測,Watson在2015年將為IBM帶來26.5億美元的收入。
例如在醫(yī)療領域,Watson已收錄了腫瘤學研究領域的42種醫(yī)學期刊、臨床試驗的60多萬條醫(yī)療證據(jù)和200萬頁文本資料。Watson能夠在幾秒之內(nèi)篩選數(shù)十年癌癥治療歷史中的150萬份患者記錄,包括病歷和患者治療結果,并為醫(yī)生提供可供選擇的循證治療方案。目前癌癥治療領域排名前三的醫(yī)院都在運行Watson。研究表明,醫(yī)療信息數(shù)據(jù)正以每五年翻番的高速度增長。這為將下一代認知計算系統(tǒng)運用于醫(yī)療行業(yè)以改善醫(yī)學的教學、實踐和支付模式提供了史無前例的商機。人工智能生態(tài)格局展望巨頭與新貴共舞“人工智能將催生新一輪IT商業(yè)模式創(chuàng)新自從PC互聯(lián)網(wǎng)時代以來,到移動互聯(lián)網(wǎng),再到智能硬件時代,技術發(fā)展和商業(yè)模式創(chuàng)新一直處于相輔相成的狀態(tài)中,一旦技術進步的紅利被商業(yè)模式創(chuàng)新挖掘殆盡后,面臨泡沫破裂的風險,直到下一輪技術革命浪潮再來,商業(yè)模式創(chuàng)新才會春風吹又生。
我們認為,移動互聯(lián)網(wǎng)時代,萬物互聯(lián)催生出了海量的數(shù)據(jù),觸摸屏的交互方式已經(jīng)滿足不了用戶多元化的輸入方式,商業(yè)模式創(chuàng)新已經(jīng)遭遇了技術無法支撐的瓶頸,如果人工智能技術突破,無疑將催生出新的商業(yè)模式,帶來巨大的市場想象空間。








現(xiàn)階段移動互聯(lián)網(wǎng)的商業(yè)模式創(chuàng)新已經(jīng)將web2.0時代的技術紅利消耗殆盡,未來新的商業(yè)模式的開發(fā)需要技術進步的支撐,人工智能是重要的技術突破點?!癆I產(chǎn)業(yè)格局成形的路徑:“底層—中層—頂層”的生態(tài)圈逐步清晰人工智能發(fā)展的拐點已經(jīng)到來,但需要指出的是,由于技術的復雜性,發(fā)展不會一蹴而就,必然經(jīng)歷一個由點到面,由專用領域(domain)到通用領域(general purpose)的歷程,通用領域的人工智能實現(xiàn)還比較遙遠。
我們以計算機視覺的應用為例,正常的成年人可以很容易地識別照片或視頻里的多種場景和人、物,但對于計算機來說還難以做到。原因是識別是一個特征抽取的過程,而特征抽取是建立在識別模型的基礎之上的,要做到通用識別,則必須對世間萬物都建立一一對應的模型,工作量極大。而即使是同一事物,由于光線、角度、距離的原因,在不同的場景里也會呈現(xiàn)出很大的差異,這進一步增加了建立識別模型的難度。
短期內(nèi)計算機的運算能力(即使是超級運算平臺)還難以望人腦視覺中樞的項背,因此無法達成這一愿景。
在未來5-10年之內(nèi),專用領域的定向智能化將是AI主要的應用發(fā)展方向。在更遠的將來,如果人腦芯片等硬件架構能有所突破,運算能力有極大提高,則專用智能將逐步進化成為跨場景跨下游應用的通用智能。而AI的生態(tài)格局,無論是專用還是通用領域,我們認為都將圍繞“底層-中層-頂層”的技術和產(chǎn)品架構逐漸成形。
人工智能產(chǎn)業(yè)生態(tài)格局的三層基本架構如下:底層為基礎資源支持層,由運算平臺和數(shù)據(jù)工廠組成;中層為AI技術層,通過不同類型的算法建立模型,形成有效的可供應用的技術;頂層為AI應用層,利用中層輸出的AI技術為用戶提供智能化的服務和產(chǎn)品。每一層架構中,都有不同的企業(yè)參與,最終形成圍繞AI技術,產(chǎn)品和服務的生態(tài)圈。 “專用領域人工智能生態(tài)圈的格局基礎資源支持層實現(xiàn)路徑運算平臺+數(shù)據(jù)工廠基礎資源支持層通過部署大規(guī)模GPU與CPU并行計算構成的云計算資源池(定義為超級運算平臺)來解決AI所需要的超強存儲和運算處理能力問題,并輔以能夠抓取到匯聚了人類智慧的海量信息的大數(shù)據(jù)工廠作為數(shù)據(jù)集,為AI技術層的實現(xiàn)提供有利支持。
超算平臺負責存儲與運算。人類沒有記憶就沒有關聯(lián),也更不用說決策與創(chuàng)造,而構成記憶的基礎正是有極大存儲能力的腦容量,那么機器要模仿人腦也必然首先要擁有龐大的存儲能力,海量數(shù)據(jù)的積累最終讓機器的“存儲”形成類似于人類的“記憶”。
百度在發(fā)展人工智能的道路上,首先做的也是不斷擴大其存儲能力。除了存儲的絕對容量之外,運算處理能力是第二個需要提升的硬實力。
運算處理能力有兩個方面,第一是服務器規(guī)模,第二是特征向量大小。所謂特征向量簡單理解的話就是指將文本語音圖像視頻等內(nèi)容轉化為機器能夠讀懂的一連串關鍵數(shù)據(jù),數(shù)據(jù)越多,機器學習的就會越好,但對服務器的壓力也會相應加大。百度能夠僅用兩年時間從10萬特征向量直接飆升到200億,足以見得百度服務器技術實力的雄厚。在這個過程中,還需要解決大規(guī)模GPU和CPU并行計算所帶來的錯誤率提升以及散熱難度加大等問題,因此,是否能夠搭建超算平臺成為了人工智能企業(yè)的重要進入門檻。
數(shù)據(jù)工廠實現(xiàn)分類與關聯(lián)。數(shù)據(jù)工廠會對數(shù)據(jù)進行基礎性的加工,而這種加工又非常關鍵。從人類的記憶聯(lián)想模式分析,要調(diào)取某部分的記憶,就會很自然的聯(lián)想到某個詞,某個畫面,某個音樂等等就能記起很多事情。這是因為人類大腦的神經(jīng)連接結構允許我們這樣去檢索,而機器是不允許的,數(shù)據(jù)存儲在硬盤上,機器想要找到某個數(shù)據(jù),必須一個個訪問過去,機器沒有分類的概念。
如果需要機器理解用戶的語言,這種搜索技術也依然要機器的大腦配合才能達到,對每一個詞的定義應該是一個庫,而這個庫中的每一個詞又都各自構成庫,數(shù)據(jù)工廠所依托的搜索算法,就是在這么一個數(shù)據(jù)海洋中去為他們建立管理,然后去索引。數(shù)據(jù)工廠相當于人腦中的記憶關聯(lián)過程:將某個詞同時與其他詞或是某個場景等等建立起動態(tài)關聯(lián)的過程。
因此,通過數(shù)據(jù)挖掘和搜索算法對數(shù)據(jù)工廠中的知識庫和信息庫進行分類與關聯(lián)的技術能力同樣是人工智能企業(yè)的重要進入門檻。AI技術層實現(xiàn)路徑面向特定場景的智能技術多姿多彩AI技術層的作用是基于底層提供的計算存儲資源和大數(shù)據(jù),通過機器學習建模,開發(fā)面向不同領域的應用技術,例如語音識別、語義識別和計算機視覺等。
中間層的運行機制和人類的思維形成過程高度相似,是從感知到思考再到最終的決策行動甚至是創(chuàng)造,核心是機器學習技術的應用。
首先,感知環(huán)節(jié)需要連接的是人、信息和物理世界,通過傳感器,搜索引擎和人機交互來獲取建模必須的數(shù)據(jù),相當于人類的感知過程。依托于底層的高性能計算和彈性存儲能力,中間層對感知到的數(shù)據(jù)進行建模運算,相當于人類的思考過程。最終,應用層利用數(shù)據(jù)擬合出的模型結果,對智能應用的服務和產(chǎn)品端輸出指令,指揮包括機器人、無人機、3D打印等在內(nèi)的各種設備響應用戶需求。盡管目前由于思考層面的計算存儲能力和建模能力的不足,導致人工智能還無法達到和人類相接近的“智慧”程度,但也足以支撐包括語音識別、圖像識別和知識圖譜在內(nèi)的各種AI技術在特定場景下的應用。另外一方面,在具體的應用場景中,更為優(yōu)化的算法和更為準確的背景知識庫數(shù)據(jù)集等因素都有助于在不提升計算資源的前提下實現(xiàn)更優(yōu)的結果。這就給眾多專業(yè)領域的AI公司帶來了巨大的市場機遇。
我們看到,專用智能的商業(yè)化應用風生水起,在這個領域,巨頭和新貴都處于同一起跑線上,產(chǎn)業(yè)格局會趨于分散,先入者優(yōu)勢明顯。我們判斷,在數(shù)據(jù)、算法、云計算資源等幾個關鍵因素中,數(shù)據(jù)的獲得以及算法的優(yōu)化是先入者的護城河,能夠幫助他們在專用領域的特定場景下,迅速實現(xiàn)AI的商業(yè)化應用,從而搶占市場。我們關注到國內(nèi)市場已經(jīng)出現(xiàn)了這樣的局面:語音識別領域的科大訊飛、計算機視覺方面的格林深瞳、語義識別方面的小i機器人、人臉識別方面的face++等等細分行業(yè)龍頭,都在具體應用場景的技術結果上,實現(xiàn)了對百度、谷歌、微軟和IBM等AI巨頭的超越。








AI應用層實現(xiàn)路徑以Nest為代表的專用智能產(chǎn)品和服務風起云涌專用智能的應用水平不斷提升將推進智能產(chǎn)品和服務的智能化程度。為了能夠滿足用戶需求,智能產(chǎn)品和服務需要多種不同的AI技術支撐:
(1) 谷歌的無人駕駛汽車,在駕駛過程中需要計算機視覺對不同路況做出相應的決策。為了實現(xiàn)無人駕駛,車輛需要配置激光測距系統(tǒng)、車道保持系統(tǒng)、GPS/慣性導航系統(tǒng)、車輪角度編碼器等設備,通過收集到的數(shù)據(jù)實時生成前方路面的三維圖像,并用計算機視覺技術判斷潛在的風險。毫無疑問,脫離了谷歌大腦的計算機視覺技術的支撐,谷歌無人駕駛應用就是空中樓閣。
(2) 再以Nest的智能溫控技術為例。為了能夠通過不斷地觀測和學習用戶習慣的舒適溫度來對室溫進行動態(tài)調(diào)整,并節(jié)約能源,Nest安裝了六個傳感器,不停地對溫度、濕度、環(huán)境光以及設備周邊進行監(jiān)控和衡量,它能判斷房間中是否有人,以決定是否自動關閉調(diào)溫設備。依托于強大的機器學習算法,Nest則能自己學習控制溫度。在使用這款調(diào)溫器的第一個星期,用戶可以根據(jù)自己的喜好調(diào)節(jié)室內(nèi)溫度,此時Nest便會記錄并學習用戶的使用習慣。為了能讓居室變得更舒適,Nest還會通過Wi-Fi和相關應用程序與室外的實時溫度進行同步,內(nèi)置的濕度傳感器還能讓空調(diào)和新風系統(tǒng)提供適宜的氣流。當用戶外出時,Nest的動作傳感器就會通知處理器激活“外出模式”。毫無疑問,脫離了深度學習技術的支撐,Nest的智能溫控是無法實現(xiàn)的。
(3) 微信朋友圈的推送廣告服務。微信朋友圈的信息流(Feeds)廣告推送基于自然語言解析、圖像識別和數(shù)據(jù)挖掘技術,通過分析用戶朋友圈語言特性,以及朋友圈圖片內(nèi)容,根據(jù)對用戶收入和消費能力的分析來刻畫用戶畫像,并決定投放何種廣告。信息流廣告與社交平臺上好友發(fā)布的信息形式類似,廣告本身內(nèi)容將基于微信公眾賬號生態(tài)體系,以類似朋友圈的原創(chuàng)內(nèi)容形式進行展現(xiàn),融合在信息流中,在基于微信用戶畫像記性定向的同時,通過實時社交的混排算法,依托關系鏈進行互動傳播。如果沒有自然語言解析和圖像識別等AI技術的支撐,微信的信息流廣告推送服務的用戶體驗將大打折扣。通過以上三個例子,我們不難看出,智能產(chǎn)品和服務是否能夠切中用戶的痛點需求,依賴于人工智能技術在產(chǎn)品背后能夠給予多大的支撐。當前的智能產(chǎn)品市場之所以出現(xiàn)產(chǎn)品熱,需求冷的局面,主要的癥結在于所謂的智能硬件大多是“偽智能”產(chǎn)品,只是把功能性電子產(chǎn)品加上聯(lián)網(wǎng)和搜集數(shù)據(jù)的功能,例如以手環(huán)為代表的可穿戴設備,以智能機頂盒為代表的智能家居設備等等。我們認為,殺手級的智能產(chǎn)品和服務必然是建立在強大的AI技術支撐下的。AI具體應用層應該是以Nest及更為先進的智能產(chǎn)品和服務為代表。我們梳理了當前智能產(chǎn)品和服務產(chǎn)業(yè)鏈上主要參與公司,典型的戰(zhàn)略布局分別有:
(a)以海爾和美的為代表的家電企業(yè)轉型智能家居方向;(b)以小米和360為代表的互聯(lián)網(wǎng)新貴從硬件入口開始卡位;(c)以百度和谷歌為代表的互聯(lián)網(wǎng)巨頭從AI技術發(fā)力打造生態(tài)圈;(d)以海康威視和大疆創(chuàng)新為代表的計算機硬件制造商轉型智能硬件的行業(yè)應用。


未來跨場景通用人工智能生態(tài)圈的格局


 “基礎資源支持層實現(xiàn)路徑:顛覆馮?諾依曼架構人腦芯片等技術將突破計算能力極限未來的人工智能將致力于通過底層硬件架構的變革來實現(xiàn)。不同于現(xiàn)階段底層對云計算的依賴,硬件模式將直接從芯片層面實現(xiàn)對人工神經(jīng)網(wǎng)絡的模擬,目標是構建一個硬件大腦。我們認為,這種突破將是下一代計算機科學的發(fā)展的重要方向。
因為最近10年計算機科學更多關注的技術進步在于信息處理的標的這一層面,可以稱之為“大數(shù)據(jù)”或者“數(shù)據(jù)大爆炸”時代。在不遠的未來,數(shù)據(jù)大爆炸造成的結果是信息處理能力的瓶頸很快達到,因此,未來10年計算機科學的關注點將會轉移到如何突破現(xiàn)階段的計算能力極限,也就是顛覆馮?諾依曼的硬件架構。這個方向可能是AI在硬件設備上的一個終極解決方案,但從目前的技術成熟度上看,這條路徑距離目標還有非常遙遠的距離。目前已經(jīng)看到的方向大致有以下三種:
(1) 人腦芯片。2014年8月,IBM宣布研制成功了一款大腦原型芯片TrueNorth,主攻超級計算機專業(yè)學習領域。TrueNorth微芯片由三星電子為IBM生產(chǎn),使用了三星為生產(chǎn)智能機和其它移動設備微處理器所使用的相同制造技術。IBM就該芯片的底層設計與紐約康奈爾大學(Cornell University)紐約校區(qū)的研究人員進行了合作。自2008年以來,這一項目獲得了美國五角大樓高級計劃研究局的5300萬美元注資。這款芯片集成了100萬個神經(jīng)元和2.56億個突觸,與普通蜜蜂的大腦水平相當,而人腦平均包含1000億個神經(jīng)元和難以統(tǒng)計數(shù)量的突觸。目前,這款芯片每秒每瓦可實現(xiàn)460億次神經(jīng)突觸操作,它能像人腦一樣去探測并識別模式。簡而言之,當人腦芯片發(fā)現(xiàn)與字母不同部分相關聯(lián)的模式時,能夠將這些字母關聯(lián)在一起,從而識別出單詞和整句,但距離可以商用的智能化程度還遙不可及。除IBM外,芯片巨頭英特爾、高通等公司也擁有了被工程師稱之為“神經(jīng)形態(tài)”(neuromorphic)的自主芯片設計。人腦啟發(fā)軟件公司Numenta創(chuàng)始人杰夫霍金斯(Jeff Hawkins)認為,類似TrueNorth這樣的二元芯片未來將讓位于能夠更有效地模擬出人腦聯(lián)系功能的芯片產(chǎn)品,找到正確的神經(jīng)元結構需要經(jīng)歷多年的研究過程。
(2) 量子計算。量子計算機是一種使用量子邏輯實現(xiàn)通用計算的設備。普通計算機存儲數(shù)據(jù)的對象是晶體管電路的狀態(tài),而量子計算用來存儲數(shù)據(jù)的對象是粒子的量子狀態(tài),它使用量子算法來進行數(shù)據(jù)操作。量子計算機的優(yōu)勢在于強大的并行計算速度?,F(xiàn)在的計算機畢竟是二進制的,一遇到比較復雜的建模,像準確預測天氣,預測更長時間后的天氣等等,就會很費力費時;而超快量子計算機就能算,算得超快。因為當許多個量子狀態(tài)的原子糾纏在一起時,它們又因量子位的“疊加性”,可以同時一起展開“并行計算”,從而使其具備超高速的運算能力。2014年,谷歌公司與科學家聯(lián)手研制量子級計算機處理器,目的是未來使機器人像人類一樣“獨立思考問題”。但達到這個未來需要多久,目前我們還無法預知。
(3) 仿生計算機。仿生計算機的提出是為了解決如何構建大規(guī)模人工神經(jīng)網(wǎng)絡的問題。通用的CPU/GPU處理神經(jīng)網(wǎng)絡效率低下,如谷歌大腦的1.6萬個CPU運行7天才能完成貓臉的無監(jiān)督學習訓練。谷歌大腦實現(xiàn)模擬人腦的突觸數(shù)量僅為100億個,而實際的人腦突觸數(shù)量超過100萬億。采用CPU/GPU的通用處理器構建數(shù)據(jù)中心,占地、散熱以及耗電等都是非常嚴峻的問題。成本方面,這樣級別的數(shù)據(jù)中心,除了谷歌、百度之外,其他互聯(lián)網(wǎng)企業(yè)根本無力搭建。專門的神經(jīng)網(wǎng)絡處理器成為解決以上問題的鑰匙。目前國內(nèi)的陳云霽團隊所搭建的寒武紀神經(jīng)網(wǎng)絡計算機正是基于仿生學的原理,通過寒武紀生物大爆炸中獲取的線索,實現(xiàn)的無需訪問內(nèi)存,減少90%以上的片上通訊時間,并支持幾乎現(xiàn)有主流機器學習算法的網(wǎng)絡計算機。寒武紀神經(jīng)網(wǎng)絡計算機跟主流GPU相比,取得了21倍的性能和300倍的性能功耗比提升?!癆I技術層的實現(xiàn)路徑:通用智能實現(xiàn)跨場景的終極應用在專用智能的時代,AI的技術應用是要針對不同的場景才能有效的。例如,格靈深瞳的計算機視覺技術,在安防視頻監(jiān)控領域可以識別出犯罪分子的異常行為舉動并予以報警,但換做是商場中,格靈深瞳的三維攝像頭就無法識別出客戶的性別年紀等特征,并根據(jù)客戶在不同柜臺中逗留的時間,分析出客戶可能偏好的產(chǎn)品并向其推薦。這兩個應用場景其實都是依托于計算機視覺技術進行識別和響應的,但是專用智能時代,受到計算能力和建模能力的約束,同樣的計算機視覺技術卻無法解決跨場景的應用。
在未來,通用智能到來后,AI技術層的普適性將極大地提升。同樣一個視頻監(jiān)控的攝像頭加上背后的計算機視覺的云平臺,放在不同的場合中,就能夠根據(jù)用戶不同的需求進行不同的識別并做出智能化的決策行為。這種終極應用的到來,必須依賴于計算資源上突破現(xiàn)有的能力極限,并且在建模上超越現(xiàn)階段的深度學習算法的極限,真正讓AI像人類一樣去觀察和思考并做出行為決策。
我們認為:在通用智能時代,進入門檻最高,護城河最寬的是底層AI資源支持的平臺企業(yè);其次是技術層中在細分領域具備核心競爭力的領先企業(yè);門檻最低的是應用層的企業(yè),標準化程度越高意味著同質(zhì)化競爭越激烈,但消費電子的產(chǎn)品屬性也將允許差異化競爭的空間。產(chǎn)業(yè)報告:人工智能產(chǎn)業(yè)深度研究報告

技術不足導致移動互聯(lián)網(wǎng)難以催生出更多的新應用和商業(yè)模式,為突破瓶頸,新一輪更激動人心、更值得期待的技術革命風暴已經(jīng)誕生,將成為未來10年乃至更長時間內(nèi)IT產(chǎn)業(yè)發(fā)展的焦點,它的名字叫做“人工智能”(AI)。
只有人工智能才能為“萬物互聯(lián)”之后的應用問題提供最完美的解決方案,它將成為IT領域最重要的技術革命,目前市場關心的IT和互聯(lián)網(wǎng)領域的幾乎所有主題和熱點(智能硬件、O2O、機器人、無人機、工業(yè)4.0),發(fā)展突破的關鍵環(huán)節(jié)都是人工智能。
人工智能是指計算機系統(tǒng)具備的能力,該能力可以履行原本只有依靠人類智慧才能完成的復雜任務。硬件體系能力的不足加上發(fā)展道路上曾經(jīng)出現(xiàn)偏差,以及算法的缺陷,使得人工智能技術的發(fā)展在上世紀80—90年代曾經(jīng)一度低迷。近年來,成本低廉的大規(guī)模并行計算、大數(shù)據(jù)、深度學習算法、人腦芯片4大催化劑的齊備,導致人工智能的發(fā)展出現(xiàn)了向上的拐點。
國際IT巨頭已經(jīng)開始在人工智能領域頻頻發(fā)力,一方面網(wǎng)羅頂尖人才,一方面加大投資力度,人工智能新的春天已經(jīng)到來。自然語言處理、計算機視覺、規(guī)劃決策等AI細分領域近期進展顯著,很多新的應用和產(chǎn)品已經(jīng)驚艷亮相。
由于技術的復雜度,未來5-10年內(nèi),專用領域的智能化是AI應用的主要方向,在更遠的將來,隨著技術的進一步突破,通用領域的智能化有望實現(xiàn)。無論是專用還是通用領域,人工智能都將圍繞“基礎資源支持-AI技術-AI應用”這三層基本架構形成生態(tài)圈。
在 專用領域的智能化階段,有能力的企業(yè)都希望打通三層架構。他們有的將從上往下延伸,如蘋果、??低?、小米等智能硬件企業(yè);有的試圖從下往上拓展,如百度、谷歌、IBM等互聯(lián)網(wǎng)和IT的巨頭,以及科大訊飛、格靈深瞳等AI技術新貴。產(chǎn)業(yè)格局更多地表現(xiàn)出“競爭”而非“合作”,整個行業(yè)依然處于野蠻生長的 初期階段。我們認為,該階段最值得投資的是已經(jīng)具備先發(fā)優(yōu)勢的AI企業(yè),無論他目前處于哪一層都可以。
在 未來通用智能時代,進入門檻最高,護城河最寬的是底層AI資源支持的平臺企業(yè);其次是技術層中在細分領域具備核心競爭力的領先企業(yè);門檻最低的是應用層的 企業(yè),但消費電子的產(chǎn)品屬性也將允許差異化競爭的空間。除了自然語言處理、計算機視覺等AI技術在某些領域的直接應用,人工智能更大的影響在于將重塑生活 服務、醫(yī)療、零售、數(shù)字營銷、農(nóng)業(yè)、工業(yè)、商業(yè)等各行各業(yè),并將引發(fā)新一輪IT設備投資周期。智能化的大潮即將來襲,萬億元的市場規(guī)模值得期待。新技術革命登場IT發(fā)展焦點將從互聯(lián)網(wǎng)轉向人工智能發(fā)軔于2007年的移動互聯(lián)網(wǎng)浪潮已經(jīng)席卷全球,極大地改變了我們的生存狀態(tài)。然而,就在資本市場熱切地期待移動互聯(lián)網(wǎng)催生出更多新應用服務、更多新商業(yè)模式的時候,由技術水平不足導致的發(fā)展瓶頸已然出現(xiàn)。
與此同時,為突破上述瓶頸,新一輪更激動人心、更值得期待的技術革命風暴已經(jīng)誕生,將成為未來10年乃至更長時間內(nèi)IT產(chǎn)業(yè)發(fā)展的焦點,將再次并更加徹底地顛覆世界。這一輪技術革命風暴,它的名字叫做“人工智能”(ArtificialIntelligence,以下簡稱AI)。 基于互聯(lián)網(wǎng)的應用服務發(fā)展已遭遇技術瓶頸,AI將成開鎖金鑰匙基于PC的互聯(lián)網(wǎng)、基于手機和平板電腦的移動互聯(lián)網(wǎng)以及基于各種其他設備的物聯(lián)網(wǎng),其本質(zhì)是解決了“連接”問題:連接人與人、人與物以及物與物,并且在連接的基礎上創(chuàng)造出新的商業(yè)模式。
以國內(nèi)BAT三巨頭為例,百度完成的是人與信息的對接,商業(yè)模式以網(wǎng)絡廣告為主;阿里解決的是人與商品的對接,電商是其商業(yè)模式;騰訊則實現(xiàn)了人與人的對接,依靠強大的免費社交軟件吸引龐大的用戶群,在此基礎上利用增值業(yè)務和游戲來實現(xiàn)貨幣化。盡管互聯(lián)網(wǎng)的普及打造了包括谷歌、亞馬遜、百度、阿里、騰訊、京東等一批巨頭以及數(shù)量更為龐大的中小企業(yè),基于網(wǎng)絡的創(chuàng)新應用和服務類型也多種多樣,但技術 瓶頸的制約已經(jīng)越來越明顯:生活方面需求痛點的解決、生產(chǎn)領域具有適應性和資源效率的智慧工廠的建立、物流體系中更加方便快捷的配送方式建設等問題,都面臨智能化程度不足帶來的障礙。只有人工智能才能為“萬物互聯(lián)”之后的應用問題提供最完美的解決方案。
人工智能的價值如此重要,以至于我們可以毫不夸張地說,它將成為IT領域最重要的技術革命,目前市場關心的IT和互聯(lián)網(wǎng)領域的幾乎所有主題和熱點(智能硬件、O2O、機器人、無人機、工業(yè)4.0),發(fā)展突破的關鍵環(huán)節(jié)都是人工智能。 下面我們將通過一些例子和應用場景來更形象具體地展示上述瓶頸以及AI的重要性智能冰箱還不能告訴我們做什么由 于生活節(jié)奏加快人們的空閑時間大為減少,做家務的時間日益顯得不足,我們需要一款聰明的冰箱,讓冰箱告訴我們做什么。來自奧維咨詢的《中國家用冰箱食品浪費調(diào)查報告》顯示,“每個家庭平均每年發(fā)生176次食物浪費現(xiàn)象。70%受訪者表示,造成浪費的主要原因是一次購買太多和放入冰箱后忘記。
智能冰箱的出現(xiàn),不僅可以自行“清理門戶”,采購新鮮食品,還能統(tǒng)籌安排,減少食材浪費,制作個性化食譜。它會根據(jù)食材新鮮與否,把不新鮮的食材調(diào)動到距離冰箱門最近的地方,提醒主人“它該吃了”。此外,智能冰箱能對用戶的膳食合理性進行分析,制作菜譜。
同 時提示需要補充的食材,如果與生鮮電商聯(lián)網(wǎng)的話,可以自動選擇送貨上門,直接實現(xiàn)食物的配送發(fā)貨收獲自動化和智能化。2014年美菱率先推出全球首臺云圖 像識別智能冰箱ChiQ,突破全球智能冰箱技術門檻,該冰箱具備變頻功能,可以用語音搜索、自動推薦等多種方式進行食譜推薦,并實現(xiàn)手機的遠程查看和控制。
智能冰箱功能法的升級,提升用戶體驗和價值,背后的最大核心是自動識別技術的突破。圖像識別技術通過圖像采集系統(tǒng)得到食材圖片,運用圖像識別算法,轉化成食品的信息列表。而通過圖像識別技術,判斷食材的種類是實現(xiàn)冰箱智能化的拐點。
可見,不是用戶對智能家居的需求不存在,而是現(xiàn)有的技術無法支撐家居的智能化,這個瓶頸無法突破,智能家居永遠是紙上談兵。那么,解決這個問題的鑰匙在哪里?人工智能技術的突破:圖像識別背后的底層技術就來自于人工智能的算法和應用!O2O尚未實現(xiàn)生活服務智能化試想這樣一個場景,你想選擇一個地方和朋友吃飯,首先你會打開一個應用,在這個過程中它會自動確定你所在的位置,然后你通過語音開始向其發(fā)出請求“我想在這附近找一家中式餐廳,下午將要與朋友一起就餐,消費價格適中?!?/span>
應用根據(jù)你發(fā)出的請求及過往的生活習慣為你尋找到數(shù)十家備選方案優(yōu)選列表,然后你可以根據(jù)興趣與愛好選擇直接確定方案,或者實時打開查看各家的類型、折扣、評分、環(huán)境、位置、菜品、用戶評價等綜合信息并進行篩選,這些信息綜合在一起形成了你對某家餐廳的判斷和最終的決策。
這時你可以就一些問題與餐廳的服務人員進行實時的溝通,然后交付押金輕松的進行預訂。預訂好了餐廳之后,通過語音控制,你可以將信息轉發(fā)給朋友。當你到了該出發(fā)赴約的時候,這個應用開始提醒你,并可以選擇是否開啟地圖語音導航模式,為你提供位置和路線服務。
從 本質(zhì)上說,消費者和商戶存在各自信息獲取不對稱的問題,而O2O在于把服務業(yè)互聯(lián)網(wǎng)化,將商戶與消費者之間連接的更好,讓信息不對稱的問題都能解決,這不 僅能夠幫助商戶,也能夠幫助消費者。消費者對O2O的最大訴求主要是在前端信息的檢索和獲取,而商家的目的在于持續(xù)獲取消費者,這主要通過前端提供消費者 信息影響其購買決策,并通過后期客戶管理增強與用戶關系。
互聯(lián)網(wǎng)的O2O商業(yè)模式氣勢洶洶的顛覆傳統(tǒng)行業(yè),似乎發(fā)展到現(xiàn)在好像開始止步不前了。目前點評網(wǎng)站、地圖導航、預定網(wǎng)站、優(yōu)惠券網(wǎng)站等很好地滿足了消費者信息獲取來源,但移動搜索引擎卻未能很好滿足消費者檢索的需求,使他們可以方便地查找餐廳以及優(yōu)惠地享受服務。
綜 合來看,未來的O2O會是一個融合線下信息聚合、語音識別、自然語言解析、搜索引擎、點評信息聚合、預訂服務、地圖導航、NFC、CRM、語音以及實時溝 通等功能為一體的基于位置的服務平臺。然而,至今仍然懸而未決的技術瓶頸是:自然語言的解析。如何通過對用戶的自然語言(文本+語音)等數(shù)據(jù),結合知識圖 譜,推理出用戶的需求并精準的推送用戶所需的本地化生活服務?這扇大門的鑰匙也是在人工智能技術的突破!無人機尚不能自主飛行目前無人機雖然在軍事和民用領域都得到了應用,但其智能化程度還遠遠不夠,仍然需要人遙控操縱,尚未實現(xiàn)自主飛行。設想一下你打開家里的窗子,一架無人機恰巧停在窗外,你從無人機上取下自己購買的物品,然后拿出手機確認收到,無人機才緩緩飛走,去尋找下一個客戶。
或 者,下午你要去某咖啡館與客戶交流,恰巧有一個快遞要送來。你提前通知快遞公司,讓無人機指揮中心更改送貨路線,通知無人機將快遞送到咖啡館。物流體系使用無人機取代人工,實現(xiàn)貨物派送的設想一旦實現(xiàn),將大大提高配送效率,減少人力、運力成本,可以說承載了人們對于未來物流的夢想。但這一夢想如果要得以實 現(xiàn),必須要使無人機具備感知和規(guī)劃的智能。
低 空以及在建筑物內(nèi)部飛行會遭遇很多的障礙物,即使預先設定飛行線路,也無法避免臨時出現(xiàn)的障礙(比如寫字樓里突然關上的門),這就需要無人機具備視覺功能、不確定性環(huán)境下的路線規(guī)劃以及行動能力。此外,為保證準確投遞,無人機或許還要具備人臉識別的能力,可以通過預先發(fā)送的照片識別出收貨人。這些感知、 規(guī)劃和行動能力都屬于人工智能技術。智能化是工業(yè)4.0之魂第一次工業(yè)革命是隨著蒸汽機驅動的機械制造設備的出現(xiàn);第二次工業(yè)革命是基于勞動分工的,電力驅動的大規(guī)模生產(chǎn);第三次工業(yè)革命是用電子和IT技術實現(xiàn)制造流程的進一步自動化;而如今,第四次工業(yè)革命正在來臨!
“工 業(yè)4.0”,是一個德國政府提出的高科技戰(zhàn)略計劃。這個概念包含了由集中式控制向分散式增強型控制的基本模式轉變,目標是建立一個高度靈活的個性化和數(shù)字化的產(chǎn)品與服務的生產(chǎn)模式。在這種模式中,傳統(tǒng)的行業(yè)界限將消失,并會產(chǎn)生各種新的活動領域和合作形式。創(chuàng)造新價值的過程正在發(fā)生改變,產(chǎn)業(yè)鏈分工將被重 組。
從以上的描述中不難看出,工業(yè)4.0對智能化的要求涵蓋更廣,涉及機器感知、規(guī)劃、決策以及人機交互等方面,而這些領域都是人工智能技術的重點研究方向。人工智能技術“奇點”到來在宇宙大爆炸理論中,“奇點”是指由爆炸而形成宇宙的那一點,即宇宙從無到有的起點。而在美國著名科學家雷·庫茲韋爾(Ray·Kurzweil:發(fā)明了盲 人閱讀機、音樂合成器和語音識別系統(tǒng);獲9項名譽博士學位,2次總統(tǒng)榮譽獎;著有暢銷作品《奇點臨近》,現(xiàn)任奇點大學校長)的理論中,“奇點”是指電腦智 能與人腦智能相互融合的那個美妙時刻。我們認為,這個美妙時刻正在到來。 什么是人工智能:從“smart”到“intelligent”目前市場上所謂“智能”的設備或概念很多,從智能手機到智能家居等,但這些“智能”實際上是“smart”的含義,即靈巧;真正意義上的智能應該是“intelligent”的含義。
“人 工智能”一詞最初是在1956年達特茅斯學會上提出的。從學科定義上來說,人工智能(ArtificialIntelligence)是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以 人類智能相似的方式做出反應的智能機器。
人工智能的概念和定義有多種,下圖中沿兩個維度排列了AI的8種定義。頂部的定義關注思維過程和推理,而底部的定義強調(diào)行為。左側的定義根據(jù)與人類表現(xiàn)的逼真度來衡量成功與否,而右側的定義依靠一個稱為“合理性”(Rationality)的理想的表現(xiàn)量來衡量。如果從比較容易理解的角度來概括的話,人工智能是指計算機系統(tǒng)具備的能力,該能力可以履行原本只有依靠人類智慧才能完成的復雜任務。
人工智能的應用領域主要包含以下幾個方面的內(nèi)容:自然語言處理(包括語音和語義識別、自動翻譯)、計算機視覺(圖像識別)、知識表示、自動推理(包括規(guī)劃和決策)、機器學習、機器人學 人腦的精密結構難以復制,人工智能技術曾一度受阻超大規(guī)模并行結構使得人腦功能強勁人類的大腦中有數(shù)百至上千億個神經(jīng)細胞(神經(jīng)元),而且每個神經(jīng)元都通過成千上萬個“突觸”與其他神經(jīng)元相連,形成超級龐大和復雜的神經(jīng)元網(wǎng)絡,以分布和并發(fā)的方式傳導信號,相當于超大規(guī)模的并行計算(Parallel Computing)。因此盡管單個神經(jīng)元傳導信號的速度很慢(每秒百米的級別,遠低于計算機的CPU),但這種超大規(guī)模的并行計算結構仍然使得人腦遠超計算機,成為世界上到目前為止最強大的信息處理系統(tǒng)。計算機的傳統(tǒng)結構制約人工智能的發(fā)展美籍匈牙利科學家馮·諾依曼(John Von·Neumann)是數(shù)字計算機之父,首先提出了計算機體系結構的設想,目前世界上絕大多數(shù)計算機都采取此種結構,它也被稱之為馮·諾依曼體系結構。簡單來說,馮·諾依曼體系結構的基本特征有以下幾點:
1
、采用存儲程序方式,指令和數(shù)據(jù)不加區(qū)別混合存儲在同一個存儲器中,指令和數(shù)據(jù)都可以送到運算器進行運算,即由指令組成的程序是可以修改的。2、存儲器是按地址訪問的線性編址的一維結構,每個單元的位數(shù)是固定的。3、指令由操作碼和地址組成。操作碼指明本指令的操作類型,地址碼指明操作數(shù)和地址。操作數(shù)本身無數(shù)據(jù)類型的標志,它的數(shù)據(jù)類型由操作碼確定。4、通過執(zhí)行指令直接發(fā)出控制信號控制計算機的操作。指令在存儲器中按其執(zhí)行順序存放,由指令計數(shù)器指明要執(zhí)行的指令所在的單元地址。指令計數(shù)器只有一個,一般按順序遞增,但執(zhí)行順序可按運算結果或當時的外界條件而改變。5、以運算器為中心,I/O設備與存儲器間的數(shù)據(jù)傳送都要經(jīng)過運算器。6、數(shù)據(jù)以二進制表示。人 工智能對計算機性能的要求很高,尤其是在非數(shù)值處理應用領域。馮·諾依曼體系的串行結構和人腦龐大復雜的并行結構相去甚遠,使得現(xiàn)有計算機系統(tǒng)難以迅速有效地處理復雜的感知、推理、決策等問題。硬件體系能力的不足加上發(fā)展道路上曾經(jīng)出現(xiàn)偏差(希望直接在通用型的人工智能方面取得突破),以及算法的缺陷,使 得人工智能技術的發(fā)展在上世紀80年代末到90年代曾經(jīng)一度低迷。 四大催化劑齊備,人工智能發(fā)展迎來轉折點近幾年來,隨著技術的進步,人工智能的發(fā)展出現(xiàn)了顯著的復蘇趨勢。我們認為,下述4個方面的原因帶來了人工智能發(fā)展的向上拐點:云計算成本低廉的大規(guī)模并行計算實現(xiàn)上文中提到,馮·諾依曼體系的串行結構使得計算機無法滿足人工智能對硬件的要求,而近年來云計算的出現(xiàn)至少部分解決了這個問題。
從 概念上講,可把云計算看成是“存儲云+計算云”的有機結合,即“云計算=存儲云+計算云”。存儲云的基礎技術是分布存儲,而計算云的基礎技術正是并行計算:將大型的計算任務拆分,然后再派發(fā)到云中的各個節(jié)點進行分布式的計算,最終再將結果收集后統(tǒng)一處理。大規(guī)模并行計算能力的實現(xiàn)使得人工智能往前邁進了 一大步。
云 計算的實質(zhì)是一種基礎架構管理的方法論,是把大量的計算資源組成IT資源池,用于動態(tài)創(chuàng)建高度虛擬化的資源供用戶使用。在云計算環(huán)境下,所有的計算資源都 能夠動態(tài)地從硬件基礎架構上增減,以適應工作任務的需求。云計算基礎架構的本質(zhì)是通過整合、共享和動態(tài)的硬件設備供應來實現(xiàn)IT投資的利用率最大化,這就 使得使用云計算的單位成本大大降低,非常有利于人工智能的商業(yè)化運營。值得特別指出的是,近來基于GPU(圖形處理器)的云計算異軍突起,以遠超CPU的并行計算能力獲得業(yè)界矚目。CPU 和GPU架構差異很大,CPU功能模塊很多,能適應復雜運算環(huán)境;GPU構成則相對簡單,目前流處理器和顯存控制器占據(jù)了絕大部分晶體管。CPU中大部分晶體管主要用于構建控制電路(比如分支預測等)和高速緩沖存儲器(Cache),只有少部分的晶體管來完成實際的運算工作;而GPU的控制相對簡單,而且 對Cache的需求小,所以大部分晶體管可以組成各類專用電路、多條流水線,使得GPU的計算速度有了突破性的飛躍,擁有了驚人的處理浮點運算的能力。現(xiàn) 在CPU的技術進步正在慢于摩爾定律,而GPU的運行速度已超過摩爾定律,每6個月其性能加倍。
CPU 
的架構是有利于X86指令集的串行架構,從設計思路上適合盡可能快的完成一個任務;對于GPU來說,它最初的任務是在屏幕上合成顯示數(shù)百萬個像素的圖像 ——也就是同時擁有幾百萬個任務需要并行處理,因此GPU被設計成可并行處理很多任務,天然具備了執(zhí)行大規(guī)模并行計算的優(yōu)勢。
現(xiàn) 在不僅谷歌、Netflix用GPU來搭建人工智能的神經(jīng)網(wǎng)絡,F(xiàn)acebook、Amazon、Salesforce都擁有了基于GPU的云計算能力, 國內(nèi)的科大訊飛也采用了GPU集群支持自己的語音識別技術。GPU的這一優(yōu)勢被發(fā)現(xiàn)后,迅速承載起比之前的圖形處理更重要的使命:被用于人工智能的神經(jīng)網(wǎng) 絡,使得神經(jīng)網(wǎng)絡能容納上億個節(jié)點間的連接。傳統(tǒng)的CPU集群需要數(shù)周才能計算出擁有1億節(jié)點的神經(jīng)網(wǎng)的級聯(lián)可能性,而一個GPU集群在一天內(nèi)就可完成同 一任務,效率得到了極大的提升。另外,GPU隨著大規(guī)模生產(chǎn)帶來了價格下降,使其更能得到廣泛的商業(yè)化應用。大數(shù)據(jù)訓練有效提高人工智能水平機器學習是人工智能的核心和基礎,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域。該領域的頂級專家Alpaydin先生如此定義:“機器學習是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標準?!?/p>

 

 

 

我們已經(jīng)進入到大數(shù)據(jù)時代,來自全球的海量數(shù)據(jù)為人工智能的發(fā)展提供了良好的條件。
根據(jù)IDC的監(jiān)測統(tǒng)計,2011年全球數(shù)據(jù)總量已經(jīng)達到1.8ZB(1ZB等于1萬億GB,1.8ZB也就相當于18億個1TB的移動硬盤,人均200GB,這些信息的量相當于可以填充572億個32GB的iPad),而這個數(shù)值還在以每兩年翻一番的速度增長,預計到2020年全球將總共擁有35ZB的數(shù)據(jù)量,增長近20倍?!吧疃葘W習”技術的出現(xiàn)“深度學習”是機器學習研究中的一個新的領域,它模擬人類大腦神經(jīng)網(wǎng)絡的工作原理,將輸出的信號通過多層處理,將底層特征抽象為高層類別,它的目標是更有效率、更精確地處理信息。深度學習自2006年由Geoffrey Hinton教授和他的兩個學生被提出后,使得機器學習有了突破性的進展,極大地推動了人工智能水平的提升。2013年,《麻省理工技術評論》把它列入年度十大技術突破之一。
人腦具有一個深度結構,認知過程是逐步進行,逐層抽象的,能夠層次化地組織思想和概念。深度學習之所以有如此大的作用,正是因為它較好地模擬了人腦這種“分層”和“抽象”的認知和思考方式。
深度學習的實質(zhì),是通過構建具有很多隱層的機器學習模型和海量的訓練數(shù)據(jù),來學習更有用的特征,從而最終提升分類或預測的準確性。因此,“深度模型”是手段,“特征學習”是目的。區(qū)別于傳統(tǒng)的淺層學習,深度學習的不同在于:1)強調(diào)了模型結構的深度,通常有5層、6層,甚至10多層的隱層節(jié)點;2)明確突出了特征學習的重要性,也就是說,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預測更加容易。與人工規(guī)則構造特征的方法相比,利用大數(shù)據(jù)來學習特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。深度學習使得人工智能在幾個主要領域都獲得了突破性進展:在語音識別領域,深度學習用深層模型替換聲學模型中的混合高斯模型(Gaussian Mixture Model, GMM),獲得了相對30%左右的錯誤率降低;在圖像識別領域,通過構造深度卷積神經(jīng)網(wǎng)絡(CNN),將Top5錯誤率由26%大幅降低至15%,又通過加大加深網(wǎng)絡結構,進一步降低到11%;在自然語言處理領域,深度學習基本獲得了與其他方法水平相當?shù)慕Y果,但可以免去繁瑣的特征提取步驟??梢哉f到目前為止,深度學習是最接近人類大腦的智能學習方法。“人腦”芯片另一個方向打開人工智能的大門前面提到了現(xiàn)代計算機的馮·諾依曼體系結構阻礙了大規(guī)模并行計算的實現(xiàn),導致人工智能發(fā)展受限。而今天人工智能發(fā)展面臨突破,除了上文說的云計算、大數(shù)據(jù)、深度學習三個原因之外,另外一個方向的努力也是不容忽視的,那就是徹底改變了馮·諾依曼體系結構的“人腦”芯片。
“人腦”芯片,也叫神經(jīng)形態(tài)芯片,是從硬件方向對人腦物理結構的模擬。這種芯片把數(shù)字處理器當作神經(jīng)元,把內(nèi)存作為突觸,跟傳統(tǒng)·馮諾依曼結構不一樣,它的內(nèi)存、CPU和通信部件是完全集成在一起,因此信息的處理完全在本地進行。而且由于本地處理的數(shù)據(jù)量并不大,傳統(tǒng)計算機內(nèi)存與CPU之間的瓶頸不復存在了。同時神經(jīng)元之間可以方便快捷地相互溝通,只要接收到其他神經(jīng)元發(fā)過來的脈沖(動作電位),這些神經(jīng)元就會同時做動作。人工智能產(chǎn)業(yè)發(fā)展加速明顯技術“奇點”的到來使得人工智能發(fā)展明顯加速,這從產(chǎn)業(yè)層面能夠得到有力的佐證:我們已經(jīng)能夠看到IT業(yè)對人工智能的投入顯著加大,新型的應用或產(chǎn)品也不斷問世。國際IT巨頭頻頻放“大招”IT領域的國際巨頭近年來在人工智能領域頻頻發(fā)力,一方面網(wǎng)羅頂尖人才,一方面加大投資力度,這也昭示著人工智能新的春天已經(jīng)到來。
2013
年3月,谷歌以重金收購DNNresearch的方式請到了Geoffrey Hinton教授(上文提到的深度學習技術的發(fā)明者);2013年12月,F(xiàn)acebook成立了人工智能實驗室,聘請了卷積神經(jīng)網(wǎng)絡最負盛名的研究者、紐約大學終身教授Yann LeCun為負責人;2014年5月,有“谷歌大腦之父”美稱的Andrew NG(吳恩達)加盟百度,擔任首席科學家,負責百度研究院的領導工作,尤其是“百度大腦”計劃。這幾位人工智能領域泰斗級人物的加入,充分展示了這些互聯(lián)網(wǎng)巨頭對人工智能領域志在必得的決心。
根據(jù)量化分析公司Quid的數(shù)據(jù),自2009年以來,人工智能已經(jīng)吸引了超過170億美元的投資。僅去年一年,就有322家擁有類似人工智能技術的公司獲得了超過20億美元的投資。自2013年以來,Yahoo、Intel、Dropbox、LinkedIn、Pinterest以及Twitter也都收購了人工智能公司。過去四年間,人工智能領域的民間投資以平均每年62%的增長速率增加,這一速率預計還會持續(xù)下去。 “新的AI應用和產(chǎn)品屢有驚喜自然語言處理(NLP)微軟SkypeTranslator同聲傳譯Skype Translator是由Skype和微軟機器翻譯團隊聯(lián)合開發(fā),整合了微軟Skype語音和聊天技術、機器翻譯技術、神經(jīng)網(wǎng)絡語音識別打造了一款面向消費者用戶的產(chǎn)品,2014年5月在微軟Code大會上推出。兩個不同語種的人借助SkypeTranslator可實現(xiàn)無障礙交談,當你說出一個完整的句子后,系統(tǒng)便會開始進行記錄翻譯,對方即可聽到翻譯后的句子,并可通過字幕顯示在屏幕上。這個實時語音翻譯系統(tǒng)能夠識別不同用戶間的不同語言不同口音的說話方式。
目前,SkypeTranslator還處在早期開發(fā)階段,但這一實時語音翻譯功能有可能幫助改變世界未來的交流方式。比如在線教育,2014年12月,微軟正式推出了Skype Translator預覽版,讓來自美國和墨西哥的小學生使用各自母語就能進行語音通話。它可以識別美國小學生的英文語句并將其翻譯為西班牙語,然后以文本的形式呈獻給墨西哥小學生,反之亦然。微軟計劃將Skype Translator服務推向教育領域,如此一來全世界各地的學生都能無障礙聆聽任何語言的課程,顯然這對于促進全球教育進步有著非比尋常的意義。計算機視覺(CV)1格靈深瞳的智能視頻監(jiān)控系統(tǒng)在安防領域,攝像頭已經(jīng)得到大規(guī)模的使用,但監(jiān)控的有效性依然面臨兩個嚴峻的挑戰(zhàn):1、攝像頭只能起到記錄功能,識別還要依靠人眼,真正能實時監(jiān)控到的場景非常有限:一個像機場大小的公共場所,攝像頭的數(shù)量能夠達到幾萬臺,而同一時間負責監(jiān)控視頻的安保人員大概只有幾個人;此外,視頻監(jiān)控往往都采用畫面輪播機制,每過一定時間自動切換屏幕上顯示的監(jiān)控視頻畫面。所以,那些真正有信息價值的畫面被人看到、注意到的幾率就很小。
2
、 難以有效查詢歷史記錄。據(jù)估計全球監(jiān)控視頻記錄的存儲已經(jīng)消耗了75%的硬盤資源,以北京天安門為例,每天產(chǎn)生的監(jiān)控視頻數(shù)據(jù),刻成光盤摞起來,甚至超過埃菲爾鐵塔的高度。要在如此龐大的數(shù)據(jù)庫里依靠人眼尋找某個特定畫面或犯罪嫌疑人,需要動用大量的人力資源,并且效率低下。
格靈深瞳是一家專注于開發(fā)計算機視覺的人工智能公司,致力于讓計算機像人一樣主動獲取視覺信息并進行精確的實時分析。公司成立于2013年初,創(chuàng)始人為Google眼鏡的核心團隊成員,成立不久就獲得真格基金和聯(lián)創(chuàng)策源的天使投資,并于2014年6月獲得紅杉資本數(shù)千萬美元的A輪投資。
格靈深瞳通過研發(fā)三維視覺感知技術,實現(xiàn)對人物的精確檢測、跟蹤,對動作姿態(tài)(包括暴力、跌倒等危險行為)和人物運動軌跡(包括越界、逆行、徘徊等可疑軌跡)的檢測和分析。在自動場景和人物檢測的基礎上,自動給安保人員提供預警信號,主動提醒、報告異常,保障安保人員“看得到”。同時,格靈深瞳利用感知技術抽象出人物的特征,從非時間的維度進行監(jiān)測、跟蹤、搜索,真正做到“找得到”。目前格靈深瞳的視頻監(jiān)控系統(tǒng)已經(jīng)在對安防要求較高的銀行進行應用測試。如果該技術投入大規(guī)模商業(yè)化應用,將有效改善上文提到的現(xiàn)有視頻監(jiān)控的缺陷,是人工智能改變世界邁出的非常積極的一步。2Face++的人臉識別云服務Face++是一個人臉識別云服務平臺,通過它提供的開放服務,開發(fā)者可以低成本的在自己的產(chǎn)品中實現(xiàn)若干面部識別功能。開發(fā)者和合作方通過Face++提供的API接入和離線引擎就可以享受現(xiàn)成的人臉檢測、分析和識別等服務。Face++人臉識別技術主要有以下幾種基本功能:1)人臉檢測:從圖片中快速、準確的找到所有的或者有某些特征的臉。2)人臉分析:通過人臉,對人的性別、年齡、情緒的信息進行提取。3)人臉識別:匹配給定人臉的相似性,或者從成萬上億的人臉資料庫中搜索、返回最相似的人臉索引。
Face++
為美圖秀秀、美顏相機App提供諸如:人臉檢測、人臉追蹤、關鍵點檢測技術,可精準定位人臉中需要美化的位置,實現(xiàn)精準自動人臉美化,但這些僅是人臉識別的初級階段。此外在稍高級的應用階段——搜索領域,F(xiàn)ace++所做的人臉識別為世紀佳緣提供服務,用戶可根據(jù)自己對另一半長相的需求去搜索相似外貌的用戶,當然這個搜索需要在數(shù)據(jù)庫中進行,可以是世紀佳緣的數(shù)據(jù)庫、未來可以是社交網(wǎng)絡上的數(shù)據(jù)庫、更可以是在通用搜索引擎中。
第二個是Face++與360搜索達成了合作,在360的圖片搜索中使用到相關的技術。而在另一塊安全領域,F(xiàn)ace++推出了APP“云臉應用鎖”,掃描一下人臉和設置一下備用密碼,就可以將需要加密的應用添加到需要保護的應用程序中。這樣打開加密的應用時,就要事先經(jīng)過一個人臉識別的監(jiān)測,才能成功打開此應用。非常適合于圖片、信息、支付軟件等等擁有私密信息較高的應用程序當中。知識表示、規(guī)劃和決策1Palantir:CIA的反恐秘密武器大數(shù)據(jù)挖掘分析公司Palantir成立于2004年,該平臺把人工智能算法和強大的引擎(可以同時掃描多個數(shù)據(jù)庫)整合,可以同時處理大量數(shù)據(jù)庫,并允許用戶通過多種方式快速瀏覽相關信息。其產(chǎn)品已被美國中情局(CIA)、聯(lián)邦調(diào)查局(FBI)、海陸空三軍、聯(lián)邦檢察官、私人調(diào)查機構及其他客戶所使用。
類似CIA和FBI這樣的情報機構有成千上萬個數(shù)據(jù)庫,并記錄著不同的數(shù)據(jù),比如財務數(shù)據(jù)、DNA樣本、語音資料、錄像片段以及世界各地的地圖。將這些數(shù)據(jù)建立聯(lián)系需要數(shù)年的時間,即便統(tǒng)一在一起,也很難駕馭不同種類的數(shù)據(jù),比如說如何關聯(lián)銷售數(shù)據(jù)和監(jiān)控錄像資料,而Palantir公司所做的就是開發(fā)軟件使這一切變得更容易。同時,Palantir還對各種安全問題高度敏感。
Palantir
引發(fā)了計算機時代的一場革命,它梳理所有可以獲得的數(shù)據(jù)庫,對相關信息進行確認,并他們整合起來。Palantir成立之初就獲的CIA基金公司In-Q-Tel的投資,現(xiàn)在成為了美國情報機關在反恐戰(zhàn)爭不能缺少的工具。Palantir有效的解決了911后對情報工作提出的技術難題:如何從大量的數(shù)據(jù)中快速獲取有價值的線索,可以說是CIA的反恐秘密武器。
Palantir
公司相當?shù)驼{(diào),但非常受政府情報機關和華爾街的熱捧。除了反恐,其關注重點也開始轉向醫(yī)療、零售、保險和生物科技,比如利用Palantir可以偵查醫(yī)療保險詐騙以及發(fā)現(xiàn)病毒爆發(fā)的源頭?,F(xiàn)在,Palantir年收入已超過10億美元,并且每年以3倍的速度增長。2IBM Watson:認知能力強勁Watson由90臺IBM服務器、360個計算機芯片驅動組成,是一個有10臺普通冰箱那么大的計算機系統(tǒng)。它擁有15TB內(nèi)存、2880個處理器、每秒可進行80萬億次運算。IBM為沃森配置的處理器是Power 7系列處理器,這是當前RISC(精簡指令集計算機)架構中最強的處理器。
Watson
存儲了大量圖書、新聞和電影劇本資料、辭海、文選和《世界圖書百科全書》等數(shù)百萬份資料。每當讀完問題的提示后,Watson就在不到三秒鐘的時間里對自己長達2億頁的料里展開搜索。Watson是基于IBM“DeepQA”(深度開放域問答系統(tǒng)工程)技術開發(fā)的,DeepQA技術可以讀取數(shù)百萬頁文本數(shù)據(jù),利用深度自然語言處理技術產(chǎn)生候選答案,根據(jù)諸多不同尺度評估那些問題。
IBM
研發(fā)團隊為Watson開發(fā)的100多套算法可以在3秒內(nèi)解析問題,檢索數(shù)百萬條信息然后再篩選還原成“答案”輸出成人類語言。每一種算法都有其專門的功能。
IBM
公司自2006年開始研發(fā)沃森,并在2011年2月的《危險地帶》(Jeopardy!)智力搶答游戲中一戰(zhàn)成名后,其商業(yè)化應用有著清晰的脈絡:2011年8月沃森開始應用于醫(yī)療領域;2012年3月,沃森則首次應用于金融領域,花旗集團成為了沃森的首位金融客戶,沃森幫助花旗分析用戶的需求,處理金融、經(jīng)濟和用戶數(shù)據(jù)以及實現(xiàn)數(shù)字銀行的個性化,并幫助金融機構找出行業(yè)專家可能忽略的風險、收益以及客戶需求。美國農(nóng)業(yè)銀行信貸證券公司的一份研究報告中預測,Watson在2015年將為IBM帶來26.5億美元的收入。
例如在醫(yī)療領域,Watson已收錄了腫瘤學研究領域的42種醫(yī)學期刊、臨床試驗的60多萬條醫(yī)療證據(jù)和200萬頁文本資料。Watson能夠在幾秒之內(nèi)篩選數(shù)十年癌癥治療歷史中的150萬份患者記錄,包括病歷和患者治療結果,并為醫(yī)生提供可供選擇的循證治療方案。目前癌癥治療領域排名前三的醫(yī)院都在運行Watson。研究表明,醫(yī)療信息數(shù)據(jù)正以每五年翻番的高速度增長。這為將下一代認知計算系統(tǒng)運用于醫(yī)療行業(yè)以改善醫(yī)學的教學、實踐和支付模式提供了史無前例的商機。人工智能生態(tài)格局展望巨頭與新貴共舞人工智能將催生新一輪IT商業(yè)模式創(chuàng)新自從PC互聯(lián)網(wǎng)時代以來,到移動互聯(lián)網(wǎng),再到智能硬件時代,技術發(fā)展和商業(yè)模式創(chuàng)新一直處于相輔相成的狀態(tài)中,一旦技術進步的紅利被商業(yè)模式創(chuàng)新挖掘殆盡后,面臨泡沫破裂的風險,直到下一輪技術革命浪潮再來,商業(yè)模式創(chuàng)新才會春風吹又生。
我們認為,移動互聯(lián)網(wǎng)時代,萬物互聯(lián)催生出了海量的數(shù)據(jù),觸摸屏的交互方式已經(jīng)滿足不了用戶多元化的輸入方式,商業(yè)模式創(chuàng)新已經(jīng)遭遇了技術無法支撐的瓶頸,如果人工智能技術突破,無疑將催生出新的商業(yè)模式,帶來巨大的市場想象空間。

 

 

 

 

現(xiàn)階段移動互聯(lián)網(wǎng)的商業(yè)模式創(chuàng)新已經(jīng)將web2.0時代的技術紅利消耗殆盡,未來新的商業(yè)模式的開發(fā)需要技術進步的支撐,人工智能是重要的技術突破點。AI產(chǎn)業(yè)格局成形的路徑:“底層—中層—頂層”的生態(tài)圈逐步清晰人工智能發(fā)展的拐點已經(jīng)到來,但需要指出的是,由于技術的復雜性,發(fā)展不會一蹴而就,必然經(jīng)歷一個由點到面,由專用領域(domain)到通用領域(general purpose)的歷程,通用領域的人工智能實現(xiàn)還比較遙遠。
我們以計算機視覺的應用為例,正常的成年人可以很容易地識別照片或視頻里的多種場景和人、物,但對于計算機來說還難以做到。原因是識別是一個特征抽取的過程,而特征抽取是建立在識別模型的基礎之上的,要做到通用識別,則必須對世間萬物都建立一一對應的模型,工作量極大。而即使是同一事物,由于光線、角度、距離的原因,在不同的場景里也會呈現(xiàn)出很大的差異,這進一步增加了建立識別模型的難度。
短期內(nèi)計算機的運算能力(即使是超級運算平臺)還難以望人腦視覺中樞的項背,因此無法達成這一愿景。
在未來5-10年之內(nèi),專用領域的定向智能化將是AI主要的應用發(fā)展方向。在更遠的將來,如果人腦芯片等硬件架構能有所突破,運算能力有極大提高,則專用智能將逐步進化成為跨場景跨下游應用的通用智能。而AI的生態(tài)格局,無論是專用還是通用領域,我們認為都將圍繞“底層-中層-頂層”的技術和產(chǎn)品架構逐漸成形。
人工智能產(chǎn)業(yè)生態(tài)格局的三層基本架構如下:底層為基礎資源支持層,由運算平臺和數(shù)據(jù)工廠組成;中層為AI技術層,通過不同類型的算法建立模型,形成有效的可供應用的技術;頂層為AI應用層,利用中層輸出的AI技術為用戶提供智能化的服務和產(chǎn)品。每一層架構中,都有不同的企業(yè)參與,最終形成圍繞AI技術,產(chǎn)品和服務的生態(tài)圈。專用領域人工智能生態(tài)圈的格局基礎資源支持層實現(xiàn)路徑運算平臺+數(shù)據(jù)工廠基礎資源支持層通過部署大規(guī)模GPU與CPU并行計算構成的云計算資源池(定義為超級運算平臺)來解決AI所需要的超強存儲和運算處理能力問題,并輔以能夠抓取到匯聚了人類智慧的海量信息的大數(shù)據(jù)工廠作為數(shù)據(jù)集,為AI技術層的實現(xiàn)提供有利支持。
超算平臺負責存儲與運算。人類沒有記憶就沒有關聯(lián),也更不用說決策與創(chuàng)造,而構成記憶的基礎正是有極大存儲能力的腦容量,那么機器要模仿人腦也必然首先要擁有龐大的存儲能力,海量數(shù)據(jù)的積累最終讓機器的“存儲”形成類似于人類的“記憶”。
百度在發(fā)展人工智能的道路上,首先做的也是不斷擴大其存儲能力。除了存儲的絕對容量之外,運算處理能力是第二個需要提升的硬實力。
運算處理能力有兩個方面,第一是服務器規(guī)模,第二是特征向量大小。所謂特征向量簡單理解的話就是指將文本語音圖像視頻等內(nèi)容轉化為機器能夠讀懂的一連串關鍵數(shù)據(jù),數(shù)據(jù)越多,機器學習的就會越好,但對服務器的壓力也會相應加大。百度能夠僅用兩年時間從10萬特征向量直接飆升到200億,足以見得百度服務器技術實力的雄厚。在這個過程中,還需要解決大規(guī)模GPU和CPU并行計算所帶來的錯誤率提升以及散熱難度加大等問題,因此,是否能夠搭建超算平臺成為了人工智能企業(yè)的重要進入門檻。
數(shù)據(jù)工廠實現(xiàn)分類與關聯(lián)。數(shù)據(jù)工廠會對數(shù)據(jù)進行基礎性的加工,而這種加工又非常關鍵。從人類的記憶聯(lián)想模式分析,要調(diào)取某部分的記憶,就會很自然的聯(lián)想到某個詞,某個畫面,某個音樂等等就能記起很多事情。這是因為人類大腦的神經(jīng)連接結構允許我們這樣去檢索,而機器是不允許的,數(shù)據(jù)存儲在硬盤上,機器想要找到某個數(shù)據(jù),必須一個個訪問過去,機器沒有分類的概念。
如果需要機器理解用戶的語言,這種搜索技術也依然要機器的大腦配合才能達到,對每一個詞的定義應該是一個庫,而這個庫中的每一個詞又都各自構成庫,數(shù)據(jù)工廠所依托的搜索算法,就是在這么一個數(shù)據(jù)海洋中去為他們建立管理,然后去索引。數(shù)據(jù)工廠相當于人腦中的記憶關聯(lián)過程:將某個詞同時與其他詞或是某個場景等等建立起動態(tài)關聯(lián)的過程。
因此,通過數(shù)據(jù)挖掘和搜索算法對數(shù)據(jù)工廠中的知識庫和信息庫進行分類與關聯(lián)的技術能力同樣是人工智能企業(yè)的重要進入門檻。AI技術層實現(xiàn)路徑面向特定場景的智能技術多姿多彩AI技術層的作用是基于底層提供的計算存儲資源和大數(shù)據(jù),通過機器學習建模,開發(fā)面向不同領域的應用技術,例如語音識別、語義識別和計算機視覺等。
中間層的運行機制和人類的思維形成過程高度相似,是從感知到思考再到最終的決策行動甚至是創(chuàng)造,核心是機器學習技術的應用。
首先,感知環(huán)節(jié)需要連接的是人、信息和物理世界,通過傳感器,搜索引擎和人機交互來獲取建模必須的數(shù)據(jù),相當于人類的感知過程。依托于底層的高性能計算和彈性存儲能力,中間層對感知到的數(shù)據(jù)進行建模運算,相當于人類的思考過程。最終,應用層利用數(shù)據(jù)擬合出的模型結果,對智能應用的服務和產(chǎn)品端輸出指令,指揮包括機器人、無人機、3D打印等在內(nèi)的各種設備響應用戶需求。盡管目前由于思考層面的計算存儲能力和建模能力的不足,導致人工智能還無法達到和人類相接近的“智慧”程度,但也足以支撐包括語音識別、圖像識別和知識圖譜在內(nèi)的各種AI技術在特定場景下的應用。另外一方面,在具體的應用場景中,更為優(yōu)化的算法和更為準確的背景知識庫數(shù)據(jù)集等因素都有助于在不提升計算資源的前提下實現(xiàn)更優(yōu)的結果。這就給眾多專業(yè)領域的AI公司帶來了巨大的市場機遇。
我們看到,專用智能的商業(yè)化應用風生水起,在這個領域,巨頭和新貴都處于同一起跑線上,產(chǎn)業(yè)格局會趨于分散,先入者優(yōu)勢明顯。我們判斷,在數(shù)據(jù)、算法、云計算資源等幾個關鍵因素中,數(shù)據(jù)的獲得以及算法的優(yōu)化是先入者的護城河,能夠幫助他們在專用領域的特定場景下,迅速實現(xiàn)AI的商業(yè)化應用,從而搶占市場。我們關注到國內(nèi)市場已經(jīng)出現(xiàn)了這樣的局面:語音識別領域的科大訊飛、計算機視覺方面的格林深瞳、語義識別方面的小i機器人、人臉識別方面的face++等等細分行業(yè)龍頭,都在具體應用場景的技術結果上,實現(xiàn)了對百度、谷歌、微軟和IBM等AI巨頭的超越。

 

 

 

 

AI應用層實現(xiàn)路徑以Nest為代表的專用智能產(chǎn)品和服務風起云涌專用智能的應用水平不斷提升將推進智能產(chǎn)品和服務的智能化程度。為了能夠滿足用戶需求,智能產(chǎn)品和服務需要多種不同的AI技術支撐:
(1)谷歌的無人駕駛汽車,在駕駛過程中需要計算機視覺對不同路況做出相應的決策。為了實現(xiàn)無人駕駛,車輛需要配置激光測距系統(tǒng)、車道保持系統(tǒng)、GPS/慣性導航系統(tǒng)、車輪角度編碼器等設備,通過收集到的數(shù)據(jù)實時生成前方路面的三維圖像,并用計算機視覺技術判斷潛在的風險。毫無疑問,脫離了谷歌大腦的計算機視覺技術的支撐,谷歌無人駕駛應用就是空中樓閣。
(2)再以Nest的智能溫控技術為例。為了能夠通過不斷地觀測和學習用戶習慣的舒適溫度來對室溫進行動態(tài)調(diào)整,并節(jié)約能源,Nest安裝了六個傳感器,不停地對溫度、濕度、環(huán)境光以及設備周邊進行監(jiān)控和衡量,它能判斷房間中是否有人,以決定是否自動關閉調(diào)溫設備。依托于強大的機器學習算法,Nest則能自己學習控制溫度。在使用這款調(diào)溫器的第一個星期,用戶可以根據(jù)自己的喜好調(diào)節(jié)室內(nèi)溫度,此時Nest便會記錄并學習用戶的使用習慣。為了能讓居室變得更舒適,Nest還會通過Wi-Fi和相關應用程序與室外的實時溫度進行同步,內(nèi)置的濕度傳感器還能讓空調(diào)和新風系統(tǒng)提供適宜的氣流。當用戶外出時,Nest的動作傳感器就會通知處理器激活“外出模式”。毫無疑問,脫離了深度學習技術的支撐,Nest的智能溫控是無法實現(xiàn)的。
(3)微信朋友圈的推送廣告服務。微信朋友圈的信息流(Feeds)廣告推送基于自然語言解析、圖像識別和數(shù)據(jù)挖掘技術,通過分析用戶朋友圈語言特性,以及朋友圈圖片內(nèi)容,根據(jù)對用戶收入和消費能力的分析來刻畫用戶畫像,并決定投放何種廣告。信息流廣告與社交平臺上好友發(fā)布的信息形式類似,廣告本身內(nèi)容將基于微信公眾賬號生態(tài)體系,以類似朋友圈的原創(chuàng)內(nèi)容形式進行展現(xiàn),融合在信息流中,在基于微信用戶畫像記性定向的同時,通過實時社交的混排算法,依托關系鏈進行互動傳播。如果沒有自然語言解析和圖像識別等AI技術的支撐,微信的信息流廣告推送服務的用戶體驗將大打折扣。通過以上三個例子,我們不難看出,智能產(chǎn)品和服務是否能夠切中用戶的痛點需求,依賴于人工智能技術在產(chǎn)品背后能夠給予多大的支撐。當前的智能產(chǎn)品市場之所以出現(xiàn)產(chǎn)品熱,需求冷的局面,主要的癥結在于所謂的智能硬件大多是“偽智能”產(chǎn)品,只是把功能性電子產(chǎn)品加上聯(lián)網(wǎng)和搜集數(shù)據(jù)的功能,例如以手環(huán)為代表的可穿戴設備,以智能機頂盒為代表的智能家居設備等等。我們認為,殺手級的智能產(chǎn)品和服務必然是建立在強大的AI技術支撐下的。AI具體應用層應該是以Nest及更為先進的智能產(chǎn)品和服務為代表。我們梳理了當前智能產(chǎn)品和服務產(chǎn)業(yè)鏈上主要參與公司,典型的戰(zhàn)略布局分別有:
(a)以海爾和美的為代表的家電企業(yè)轉型智能家居方向;(b)以小米和360為代表的互聯(lián)網(wǎng)新貴從硬件入口開始卡位;(c)以百度和谷歌為代表的互聯(lián)網(wǎng)巨頭從AI技術發(fā)力打造生態(tài)圈;(d)以??低暫痛蠼畡?chuàng)新為代表的計算機硬件制造商轉型智能硬件的行業(yè)應用。

 

未來跨場景通用人工智能生態(tài)圈的格局

 

 基礎資源支持層實現(xiàn)路徑:顛覆馮·諾依曼架構人腦芯片等技術將突破計算能力極限未來的人工智能將致力于通過底層硬件架構的變革來實現(xiàn)。不同于現(xiàn)階段底層對云計算的依賴,硬件模式將直接從芯片層面實現(xiàn)對人工神經(jīng)網(wǎng)絡的模擬,目標是構建一個硬件大腦。我們認為,這種突破將是下一代計算機科學的發(fā)展的重要方向。
因為最近10年計算機科學更多關注的技術進步在于信息處理的標的這一層面,可以稱之為“大數(shù)據(jù)”或者“數(shù)據(jù)大爆炸”時代。在不遠的未來,數(shù)據(jù)大爆炸造成的結果是信息處理能力的瓶頸很快達到,因此,未來10年計算機科學的關注點將會轉移到如何突破現(xiàn)階段的計算能力極限,也就是顛覆馮·諾依曼的硬件架構。這個方向可能是AI在硬件設備上的一個終極解決方案,但從目前的技術成熟度上看,這條路徑距離目標還有非常遙遠的距離。目前已經(jīng)看到的方向大致有以下三種:
(1) 人腦芯片。2014年8月,IBM宣布研制成功了一款大腦原型芯片TrueNorth,主攻超級計算機專業(yè)學習領域。TrueNorth微芯片由三星電子為IBM生產(chǎn),使用了三星為生產(chǎn)智能機和其它移動設備微處理器所使用的相同制造技術。IBM就該芯片的底層設計與紐約康奈爾大學(Cornell University)紐約校區(qū)的研究人員進行了合作。自2008年以來,這一項目獲得了美國五角大樓高級計劃研究局的5300萬美元注資。這款芯片集成了100萬個神經(jīng)元和2.56億個突觸,與普通蜜蜂的大腦水平相當,而人腦平均包含1000億個神經(jīng)元和難以統(tǒng)計數(shù)量的突觸。目前,這款芯片每秒每瓦可實現(xiàn)460億次神經(jīng)突觸操作,它能像人腦一樣去探測并識別模式。簡而言之,當人腦芯片發(fā)現(xiàn)與字母不同部分相關聯(lián)的模式時,能夠將這些字母關聯(lián)在一起,從而識別出單詞和整句,但距離可以商用的智能化程度還遙不可及。除IBM外,芯片巨頭英特爾、高通等公司也擁有了被工程師稱之為“神經(jīng)形態(tài)”(neuromorphic)的自主芯片設計。人腦啟發(fā)軟件公司Numenta創(chuàng)始人杰夫霍金斯(Jeff Hawkins)認為,類似TrueNorth這樣的二元芯片未來將讓位于能夠更有效地模擬出人腦聯(lián)系功能的芯片產(chǎn)品,找到正確的神經(jīng)元結構需要經(jīng)歷多年的研究過程。
(2) 量子計算。量子計算機是一種使用量子邏輯實現(xiàn)通用計算的設備。普通計算機存儲數(shù)據(jù)的對象是晶體管電路的狀態(tài),而量子計算用來存儲數(shù)據(jù)的對象是粒子的量子狀態(tài),它使用量子算法來進行數(shù)據(jù)操作。量子計算機的優(yōu)勢在于強大的并行計算速度?,F(xiàn)在的計算機畢竟是二進制的,一遇到比較復雜的建模,像準確預測天氣,預測更長時間后的天氣等等,就會很費力費時;而超快量子計算機就能算,算得超快。因為當許多個量子狀態(tài)的原子糾纏在一起時,它們又因量子位的“疊加性”,可以同時一起展開“并行計算”,從而使其具備超高速的運算能力。2014年,谷歌公司與科學家聯(lián)手研制量子級計算機處理器,目的是未來使機器人像人類一樣“獨立思考問題”。但達到這個未來需要多久,目前我們還無法預知。
(3) 仿生計算機。仿生計算機的提出是為了解決如何構建大規(guī)模人工神經(jīng)網(wǎng)絡的問題。通用的CPU/GPU處理神經(jīng)網(wǎng)絡效率低下,如谷歌大腦的1.6萬個CPU運行7天才能完成貓臉的無監(jiān)督學習訓練。谷歌大腦實現(xiàn)模擬人腦的突觸數(shù)量僅為100億個,而實際的人腦突觸數(shù)量超過100萬億。采用CPU/GPU的通用處理器構建數(shù)據(jù)中心,占地、散熱以及耗電等都是非常嚴峻的問題。成本方面,這樣級別的數(shù)據(jù)中心,除了谷歌、百度之外,其他互聯(lián)網(wǎng)企業(yè)根本無力搭建。專門的神經(jīng)網(wǎng)絡處理器成為解決以上問題的鑰匙。目前國內(nèi)的陳云霽團隊所搭建的寒武紀神經(jīng)網(wǎng)絡計算機正是基于仿生學的原理,通過寒武紀生物大爆炸中獲取的線索,實現(xiàn)的無需訪問內(nèi)存,減少90%以上的片上通訊時間,并支持幾乎現(xiàn)有主流機器學習算法的網(wǎng)絡計算機。寒武紀神經(jīng)網(wǎng)絡計算機跟主流GPU相比,取得了21倍的性能和300倍的性能功耗比提升。AI技術層的實現(xiàn)路徑:通用智能實現(xiàn)跨場景的終極應用在專用智能的時代,AI的技術應用是要針對不同的場景才能有效的。例如,格靈深瞳的計算機視覺技術,在安防視頻監(jiān)控領域可以識別出犯罪分子的異常行為舉動并予以報警,但換做是商場中,格靈深瞳的三維攝像頭就無法識別出客戶的性別年紀等特征,并根據(jù)客戶在不同柜臺中逗留的時間,分析出客戶可能偏好的產(chǎn)品并向其推薦。這兩個應用場景其實都是依托于計算機視覺技術進行識別和響應的,但是專用智能時代,受到計算能力和建模能力的約束,同樣的計算機視覺技術卻無法解決跨場景的應用。
在未來,通用智能到來后,AI技術層的普適性將極大地提升。同樣一個視頻監(jiān)控的攝像頭加上背后的計算機視覺的云平臺,放在不同的場合中,就能夠根據(jù)用戶不同的需求進行不同的識別并做出智能化的決策行為。這種終極應用的到來,必須依賴于計算資源上突破現(xiàn)有的能力極限,并且在建模上超越現(xiàn)階段的深度學習算法的極限,真正讓AI像人類一樣去觀察和思考并做出行為決策。
我們認為:在通用智能時代,進入門檻最高,護城河最寬的是底層AI資源支持的平臺企業(yè);其次是技術層中在細分領域具備核心競爭力的領先企業(yè);門檻最低的是應用層的企業(yè),標準化程度越高意味著同質(zhì)化競爭越激烈,但消費電子的產(chǎn)品屬性也將允許差異化競爭的空間。



全部評論 (0)

Copyright©2008-2025 版權所有 浙ICP備06026258號-1 浙公網(wǎng)安備 33010802003509號 杭州講師網(wǎng)絡科技有限公司
講師網(wǎng) kasajewelry.com 直接對接10000多名優(yōu)秀講師-省時省力省錢
講師網(wǎng)常年法律顧問:浙江麥迪律師事務所 梁俊景律師 李小平律師