數(shù)據(jù),自古就有,人口普查、農(nóng)業(yè)統(tǒng)計(jì)、軍事戰(zhàn)爭(zhēng)、政治計(jì)算……數(shù)據(jù)雖小,卻有助于治國(guó)安邦。美國(guó)之所以繁榮鼎盛,數(shù)據(jù)文化根基牢不可破概是主因之一。 信息爆炸、互聯(lián)互通、智慧城市時(shí)代,大數(shù)據(jù),更以排山倒海之勢(shì)席卷全球,政府施政、企業(yè)掘金,大眾要公平與正義,大數(shù)據(jù)被賦予了新的歷史使命。 在這本書中,從小數(shù)據(jù)時(shí)代到大數(shù)據(jù)的崛起,作者以宏大的歷史觀、文化觀、大數(shù)據(jù)觀,給我們描繪了一幅數(shù)據(jù)科學(xué)、智慧文化的全景圖。全書從美國(guó)建國(guó)之基講起,通過闡述初數(shù)時(shí)代、內(nèi)戰(zhàn)時(shí)代、鍍金時(shí)代、進(jìn)步時(shí)代、抽樣時(shí)代、大數(shù)據(jù)時(shí)代的特征,系統(tǒng)梳理了美國(guó)數(shù)據(jù)文化的形成,闡述了其數(shù)據(jù)治國(guó)之道,論述了中國(guó)數(shù)據(jù)文化的薄弱之處,展望了未來數(shù)據(jù)世界的遠(yuǎn)景。 “尊重事實(shí),用數(shù)據(jù)說話”,“推崇知識(shí)和理性,用數(shù)據(jù)創(chuàng)新”,作者不僅意在傳承黃仁宇“數(shù)目字”管理的薪火,還試圖把數(shù)據(jù)這個(gè)科技符號(hào)在中國(guó)轉(zhuǎn)變?yōu)槲幕?hào),形成一種文化話語(yǔ)體系。大數(shù)據(jù)正在撬動(dòng)中國(guó)的制度創(chuàng)新、科技創(chuàng)新。閱讀此書,歷史與現(xiàn)實(shí)相互融合,知識(shí)與激情相互交織,思想與觀念相互碰撞,未來與前景必定豁然開朗。 作者簡(jiǎn)介: 涂子沛,江西吉安人,現(xiàn)居美國(guó)硅谷。2012年其著作《大數(shù)據(jù)》在中國(guó)社會(huì)開大數(shù)據(jù)之先河,引發(fā)了大數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治國(guó)和開放數(shù)據(jù)的討論,歷史學(xué)家許倬云先生盛贊其“為華文世界開創(chuàng)了一個(gè)重要話題”。本書為作者第二本著作,全書對(duì)大數(shù)據(jù)追根溯源,提出當(dāng)前信息技術(shù)的發(fā)展,已經(jīng)讓中國(guó)獲得了后發(fā)優(yōu)勢(shì),中國(guó)要在大數(shù)據(jù)時(shí)代的全球競(jìng)爭(zhēng)中勝出,必須把大數(shù)據(jù)從科技符號(hào)提升成為文化符號(hào),在全社會(huì)倡導(dǎo)數(shù)據(jù)文化。 作者本科畢業(yè)于華中科技大學(xué)計(jì)算機(jī)系,研究生畢業(yè)于中山大學(xué)和卡內(nèi)基梅隆大學(xué),獲公共管理碩士和信息科學(xué)碩士學(xué)位。 目錄: 目錄: 推薦序一進(jìn)入一個(gè)重要的現(xiàn)代文化園地/許倬云//XV 推薦序二一部精彩紛呈的時(shí)代杰作/郭為//XIX 推薦序三大數(shù)據(jù)可以創(chuàng)造未來/王巍//XXIII 第一部分小數(shù)據(jù)之歷史 第一章初數(shù)時(shí)代:奠基共和 克服民主的劣勢(shì):用數(shù)據(jù)分權(quán)//004 制度創(chuàng)新:變對(duì)抗為合作的魔法棒//010 兩黨之爭(zhēng):無(wú)法精確分割的權(quán)力//013 亞拉巴馬悖論:沒有完美的方案//021 有數(shù)初成:共和政治反哺數(shù)據(jù)文化//027 中國(guó)往事:第一次現(xiàn)代意義上的人口普查//035 第二章內(nèi)戰(zhàn)時(shí)代:終結(jié)奴隸制的燈塔 目錄: 推薦序一進(jìn)入一個(gè)重要的現(xiàn)代文化園地/許倬云//XV 推薦序二一部精彩紛呈的時(shí)代杰作/郭為//XIX 推薦序三大數(shù)據(jù)可以創(chuàng)造未來/王巍//XXIII 第一部分小數(shù)據(jù)之歷史 第一章初數(shù)時(shí)代:奠基共和 克服民主的劣勢(shì):用數(shù)據(jù)分權(quán)//004 制度創(chuàng)新:變對(duì)抗為合作的魔法棒//010 兩黨之爭(zhēng):無(wú)法精確分割的權(quán)力//013 亞拉巴馬悖論:沒有完美的方案//021 有數(shù)初成:共和政治反哺數(shù)據(jù)文化//027 中國(guó)往事:第一次現(xiàn)代意義上的人口普查//035 第二章內(nèi)戰(zhàn)時(shí)代:終結(jié)奴隸制的燈塔 人口普查:南方最大的敵人//040 用數(shù)據(jù)辯論:南北戰(zhàn)爭(zhēng)的序幕//046 用數(shù)據(jù)遠(yuǎn)征:向大海進(jìn)軍//053 政治計(jì)算:解放黑奴的真正原因//069 兵家和數(shù)據(jù):中國(guó)歷史上的吉光片羽//074 第三章爆發(fā):鍍金時(shí)代的三重崛起 用數(shù)據(jù)預(yù)測(cè):轉(zhuǎn)變思維方式//083 總統(tǒng)之死:專業(yè)化的悲情序曲//089 世紀(jì)巔峰:大數(shù)據(jù)驅(qū)動(dòng)的創(chuàng)新//102 和政治分家:勞工統(tǒng)計(jì)的異軍突起//110 姑娘、棉花和數(shù)據(jù):究竟誰(shuí)在推動(dòng)歷史//116 塵封的瑰寶:中國(guó)的數(shù)據(jù)可視化先驅(qū)//122 第四章量化:進(jìn)步時(shí)代的數(shù)據(jù)大潮 用數(shù)據(jù)決策:水利工程中的數(shù)據(jù)競(jìng)爭(zhēng)//138 沖擊量化的極限:給生命定價(jià)//146 “平托”風(fēng)波:福特公司的道德危機(jī)//151 用數(shù)據(jù)來審判:理性的必然選擇//159 代理人需要監(jiān)督:成本收益分析方法的未來//163 思考中國(guó)話題:民族復(fù)興能否量化?//172 第五章抽樣時(shí)代:統(tǒng)計(jì)革命的福祉 從選票到電影票:和《亂世佳人》共舞//178 用數(shù)據(jù)跨界:質(zhì)量大師是怎樣煉成的//188 旋轉(zhuǎn)質(zhì)量的飛輪:日本崛起//193 世紀(jì)之問:日本行,為什么我們不行?//203 第二部分大數(shù)據(jù)的崛起 第六章開放時(shí)代:內(nèi)開放的歷程 內(nèi)開放1.0:數(shù)據(jù)承載知情權(quán)//217 內(nèi)開放2.0:用數(shù)據(jù)制衡//219 悲劇現(xiàn)場(chǎng)的第一個(gè)問題:普查局的數(shù)據(jù)之痛//224 LEHD項(xiàng)目:開放數(shù)據(jù)的使用權(quán)//229 內(nèi)開放3.0:用數(shù)據(jù)推動(dòng)創(chuàng)新//244 2012年:來自中國(guó)的組織創(chuàng)新//250 第七章大數(shù)據(jù)時(shí)代:通往計(jì)算型的智能社會(huì) 世上本沒有數(shù):正解大數(shù)據(jù)//255 改變世界的三股力量:大數(shù)據(jù)的成因//259 有數(shù)據(jù),還要有計(jì)算:計(jì)算型社會(huì)的興起//270 普適計(jì)算:即將到來的超級(jí)數(shù)據(jù)爆炸//278 數(shù)據(jù)和計(jì)算:第三次工業(yè)革命的CPU//280 數(shù)據(jù)之巔:通向智能型社會(huì)的挑戰(zhàn)//288 第八章智慧城市:正在拍打世界的浪潮 西方和東方:聰明和智慧//303 目標(biāo)鎖定“城市平臺(tái)”:神州數(shù)碼對(duì)話錄//309 眾包、眾智和眾創(chuàng):讓大眾解決大眾的問題//315 云、隱私和未來:中國(guó)和美國(guó)的不同挑戰(zhàn)//325 結(jié)語(yǔ)把握后發(fā)優(yōu)勢(shì):把科技符號(hào)變成文化符號(hào)//335 后記蝴蝶振翅//341涂子沛先生開啟了一道大門,我相信,后面會(huì)有更多的發(fā)展,讓大家進(jìn)入這一個(gè)重要的現(xiàn)代文化園地。 ——許倬云著名歷史學(xué)家、美國(guó)匹茲堡大學(xué)歷史系榮譽(yù)講座教授 在《數(shù)據(jù)之巔》這本書中,涂先生跳到了哲學(xué)思考的層面,以統(tǒng)計(jì)學(xué)的社會(huì)應(yīng)用為切入點(diǎn),解構(gòu)數(shù)據(jù)文化在美國(guó)政治、經(jīng)濟(jì)乃至軍事發(fā)展上起到的關(guān)鍵作用,一環(huán)扣一環(huán),構(gòu)思精巧,故事生動(dòng),邏輯清晰,讀起來實(shí)在“解渴”。感謝涂先生的智慧,為時(shí)代貢獻(xiàn)了一部杰作! ——郭為神州數(shù)碼控股有限公司董事局主席 涂子沛先生的《數(shù)據(jù)之巔》通過追溯梳理美國(guó)的數(shù)據(jù)歷史、展望人類的數(shù)據(jù)未來,給中國(guó)社會(huì)提出了一個(gè)數(shù)據(jù)時(shí)代的新命題——如何構(gòu)建數(shù)據(jù)文化?本書引人入勝、發(fā)人深思,是不可不讀的好書。 ——馬蔚華招商銀行前行長(zhǎng) 數(shù)據(jù)表示的是過去,但表達(dá)的是未來,所以觀察數(shù)據(jù)需要有歷史觀。涂子沛先生的這本新作《數(shù)據(jù)之巔》以大歷史、大數(shù)據(jù)、大社會(huì)、大進(jìn)步的格局,通過數(shù)據(jù)將遙遠(yuǎn)拉近,將涂子沛先生開啟了一道大門,我相信,后面會(huì)有更多的發(fā)展,讓大家進(jìn)入這一個(gè)重要的現(xiàn)代文化園地。 ——許倬云著名歷史學(xué)家、美國(guó)匹茲堡大學(xué)歷史系榮譽(yù)講座教授 在《數(shù)據(jù)之巔》這本書中,涂先生跳到了哲學(xué)思考的層面,以統(tǒng)計(jì)學(xué)的社會(huì)應(yīng)用為切入點(diǎn),解構(gòu)數(shù)據(jù)文化在美國(guó)政治、經(jīng)濟(jì)乃至軍事發(fā)展上起到的關(guān)鍵作用,一環(huán)扣一環(huán),構(gòu)思精巧,故事生動(dòng),邏輯清晰,讀起來實(shí)在“解渴”。感謝涂先生的智慧,為時(shí)代貢獻(xiàn)了一部杰作! ——郭為神州數(shù)碼控股有限公司董事局主席 涂子沛先生的《數(shù)據(jù)之巔》通過追溯梳理美國(guó)的數(shù)據(jù)歷史、展望人類的數(shù)據(jù)未來,給中國(guó)社會(huì)提出了一個(gè)數(shù)據(jù)時(shí)代的新命題——如何構(gòu)建數(shù)據(jù)文化?本書引人入勝、發(fā)人深思,是不可不讀的好書。 ——馬蔚華招商銀行前行長(zhǎng) 數(shù)據(jù)表示的是過去,但表達(dá)的是未來,所以觀察數(shù)據(jù)需要有歷史觀。涂子沛先生的這本新作《數(shù)據(jù)之巔》以大歷史、大數(shù)據(jù)、大社會(huì)、大進(jìn)步的格局,通過數(shù)據(jù)將遙遠(yuǎn)拉近,將悠久縮短,將巨大歸聚,將過程簡(jiǎn)直。無(wú)論你從事何業(yè)或研究何題,都值得認(rèn)真閱讀這部巔峰之作。 ——朱小黃中信銀行行長(zhǎng)、中信集團(tuán)監(jiān)事長(zhǎng) 大數(shù)據(jù)是互聯(lián)網(wǎng)金融的基礎(chǔ)支柱;ヂ(lián)網(wǎng)金融是云計(jì)算、大數(shù)據(jù)、社交網(wǎng)絡(luò)這個(gè)移動(dòng)互聯(lián)大時(shí)代里的小時(shí)代。時(shí)代潮流,浩浩蕩蕩!涂子沛先生的大數(shù)據(jù)系列著作,帶您觀時(shí)代大潮! ——肖風(fēng)通聯(lián)數(shù)據(jù)董事長(zhǎng)、萬(wàn)向信托董事長(zhǎng) 涂子沛先生《數(shù)據(jù)之巔》一書的歷史高度和現(xiàn)實(shí)意義,超出了他的《大數(shù)據(jù)》。如果說他上部書開啟了中國(guó)人對(duì)大數(shù)據(jù)的認(rèn)識(shí),此書則從歷史的角度來說明,對(duì)數(shù)據(jù)的理解和掌握是人類文明進(jìn)步的標(biāo)志。 ——田溯寧中國(guó)寬帶資本董事長(zhǎng) 涂先生深思熟慮,用語(yǔ)殷殷,穿行在中美兩國(guó)的歷史中,努力發(fā)掘各個(gè)大數(shù)據(jù)改變觀念,改造社會(huì),改革制度的故事,無(wú)論人與事件,都是栩栩如生,發(fā)人深省。這本書讓我們有目標(biāo)有信心,也給我們創(chuàng)新的無(wú)限空間。 ——王巍中國(guó)金融博物館理事長(zhǎng) 大數(shù)據(jù)的江湖有兩派,國(guó)家治理派和產(chǎn)業(yè)升級(jí)派。涂子沛先生無(wú)疑是國(guó)家治理派的宗師,這本書在美國(guó)200多年的政界商海、刀光劍影中勾勒出雄渾的數(shù)據(jù)思維、文化、價(jià)值觀和方法論。 ——吳甘沙英特爾中國(guó)研究院院長(zhǎng) 涂子沛先生已經(jīng)成為中國(guó)大數(shù)據(jù)和數(shù)據(jù)分析領(lǐng)域最前沿的思想者和專家,如果您想了解大數(shù)據(jù)的歷史、現(xiàn)實(shí)和未來,這本書將是您的必讀書目。 ——托馬斯H達(dá)文波特巴布森學(xué)院教授,麻省理工學(xué)院數(shù)字商務(wù)中心研究員 ZipeiTuhasbecometheforemostthinkerandexpertonbigdataandanalytics inChina.Ifyouwanttoknowthepast,present,andfutureofbigdatainthatcountry,youmustreadthisbook. ThomasH.Davenport DistinguishedProfessor,BabsonCollege Fellow,MITCenterforDigitalBusiness 涂子沛先生不僅在寫書,還在用書來傳遞他的熾熱激情:大數(shù)據(jù)時(shí)代是上帝恩賜給中國(guó)人的,國(guó)人切切不可錯(cuò)過這個(gè)經(jīng)濟(jì)發(fā)展和社會(huì)進(jìn)步的時(shí)代機(jī)遇。如其書中所言,在這個(gè)新的時(shí)代,我們不僅要用數(shù)據(jù)來說話,還要用數(shù)據(jù)來創(chuàng)新。 ——?jiǎng)Ⅹ椙迦A大學(xué)社會(huì)科學(xué)學(xué)院教授 在全球化、信息化和市場(chǎng)化的今天,國(guó)際競(jìng)爭(zhēng)本質(zhì)上是軟實(shí)力的競(jìng)爭(zhēng),即制度和文化的競(jìng)爭(zhēng)。涂子沛先生倡導(dǎo)的客觀、精確、理性和邏輯的“數(shù)據(jù)文化”理念,不僅是挖掘中國(guó)傳統(tǒng)優(yōu)秀文化、吸納西方文明,重塑中華文化的新范式,也是推進(jìn)國(guó)家治理體系和治理能力現(xiàn)代化的利器。 ——周超中山大學(xué)公共政策研究中心主任、教授 《數(shù)據(jù)之巔》以數(shù)據(jù)為軸線洞察人類社會(huì)的發(fā)展規(guī)律,描繪未來的趨勢(shì)和走向,力透紙背的還有作者嚴(yán)謹(jǐn)?shù)闹螌W(xué)風(fēng)格及其赤子情懷。涂子沛老師的這本新書就是一座橋梁,實(shí)現(xiàn)了中西方之間、歷史與現(xiàn)實(shí)之間、政治與商業(yè)之間的貫通融合,深入研讀,可以幫助我們進(jìn)入通達(dá)無(wú)礙的智慧境界! ——付偉中國(guó)銀聯(lián)支付學(xué)院院長(zhǎng) 身處國(guó)內(nèi)喧囂浮華的互聯(lián)網(wǎng)金融蜃景,此書恰似撥云見日,涂子沛先生跨洋而來的目光深邃地看清了中華文明與西方文明在虛與實(shí)上的認(rèn)知鴻溝。民主的細(xì)節(jié)在于數(shù)據(jù),金融的血液中流淌的也是數(shù)據(jù),《數(shù)據(jù)之巔》,眾心向往! ——郭宇航點(diǎn)融網(wǎng)創(chuàng)始人、首席執(zhí)行官 作為《大數(shù)據(jù)》最早的一批讀者,我曾于2012年10月專程前往美國(guó)拜會(huì)涂子沛先生。涂先生的格局和視野、勤奮和雅靜以及時(shí)代的責(zé)任感令我印象深刻。這本新書立意高遠(yuǎn)、數(shù)往知來,把數(shù)據(jù)從科技符號(hào)演進(jìn)到文化符號(hào),在今天這樣一個(gè)尤其需要高瞻遠(yuǎn)矚的大變革時(shí)代,相信《數(shù)據(jù)之巔》會(huì)再次成為熱點(diǎn)話題,推動(dòng)中國(guó)數(shù)據(jù)文化的普及。 ——陳登坤金蝶集團(tuán)執(zhí)行董事、高級(jí)副總裁、金蝶醫(yī)療軟件公司總經(jīng)理 涂子沛先生的新作《數(shù)據(jù)之巔》揭示了在人類近、現(xiàn)代文明進(jìn)程中,在民主和共和體制的創(chuàng)立演化中那無(wú)形的數(shù)據(jù)之手。國(guó)內(nèi)鮮有類似的作品。把數(shù)據(jù)與人類社會(huì)的進(jìn)步、民主體制的演化聯(lián)系起來,這是真正的人文關(guān)懷。當(dāng)下的中國(guó),從不缺“民主自由”的口號(hào),但口號(hào)建不起先進(jìn)的人類文明,數(shù)據(jù)才能。 ——趙嘉敏譯言網(wǎng)聯(lián)合創(chuàng)始人、首席執(zhí)行官 通過《數(shù)據(jù)之巔》,涂子沛先生再次深入美國(guó)歷史中的細(xì)節(jié),以真正治學(xué)之人的責(zé)任與良心,發(fā)掘“數(shù)據(jù)”所凝聚的可以再生的思想文化資源。數(shù)據(jù)文化是一個(gè)全新的視角,非常值得教育工作者探索和思考。在智能型社會(huì)、人機(jī)共生的時(shí)代敲響鼓點(diǎn)、加速到來的時(shí)刻,本書的閱讀,也是一場(chǎng)自我啟蒙之旅,將為我們推開那扇未來世界之門。 ——潘江雪上海真愛夢(mèng)想基金會(huì)理事長(zhǎng) 數(shù)據(jù)自古存在。本書截取歷史長(zhǎng)卷中的數(shù)據(jù)剖面,或古今中外,或政經(jīng)產(chǎn)學(xué),案例生動(dòng),立意高遠(yuǎn),令人心生欽敬。 ——趙國(guó)棟中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟秘書長(zhǎng)第七章大數(shù)據(jù)時(shí)代:通往計(jì)算型的智能社會(huì) 大數(shù)據(jù)是人類文明新的土壤,在這片土壤之上,人類將開始建設(shè)一個(gè)智能社會(huì)。 —本書作者,2014年 世上本沒有數(shù):正解大數(shù)據(jù) 傳統(tǒng)意義上的“數(shù)據(jù)”,是指“有根據(jù)的數(shù)字”,數(shù)字之所以產(chǎn)生,是因?yàn)槿祟愒趯?shí)踐中發(fā)現(xiàn),僅僅用語(yǔ)言、文字和圖形來描述這個(gè)世界是不精確的,也是遠(yuǎn)遠(yuǎn)不夠的。例如,有人問“姚明有多高”,如果回答說“很高”、“非常高”、“最高”,別人聽了,只能得到一個(gè)抽象的印象,因?yàn)槊總(gè)人對(duì)“很”、“非!庇胁煌睦斫,“最”也是相對(duì)的,但如果回答說“2.26米”,就一清二楚。除了描述世界,數(shù)據(jù)還是我們改造世界的重要工具。人類的一切生產(chǎn)、交換活動(dòng),可以說都是以數(shù)據(jù)為基礎(chǔ)展開的,例如度量衡、貨幣的背后都是數(shù)據(jù),它們的發(fā)明和出現(xiàn),都極大地推動(dòng)了人類文明的進(jìn)步。 數(shù)據(jù)最早來源于測(cè)量,所謂“有根據(jù)的數(shù)字”,是指數(shù)據(jù)是對(duì)客觀世界測(cè)量結(jié)果的記錄,而不是隨意產(chǎn)生的。測(cè)量是從古至今科學(xué)研究最主要的手段,可以說,沒有測(cè)量,就沒有科學(xué);也可以說,一切科學(xué)的本質(zhì)都是測(cè)量。就此而言,數(shù)據(jù)之于科學(xué)的重要性,就像語(yǔ)言之于文學(xué)、音符之于音樂、形色之于美術(shù)一樣,離開數(shù)據(jù),就沒有科學(xué)可言。 除了測(cè)量,新數(shù)據(jù)還可以由老數(shù)據(jù)經(jīng)計(jì)算衍生而來。測(cè)量和計(jì)算都是人為的,也就是說,世上本沒有數(shù),一切數(shù)據(jù)都是人為的產(chǎn)物。我們說的“原始數(shù)據(jù)”,并不是“原始森林”這個(gè)意義上的“原始”,原始森林是指天然就存在的,而原始數(shù)據(jù)僅僅是指第一手的、沒有經(jīng)過人為修改的數(shù)據(jù)。 傳統(tǒng)意義上的數(shù)據(jù),和信息、知識(shí)也是完全不同的概念:數(shù)據(jù)是信息的載體,信息是有背景的數(shù)據(jù),而知識(shí)是經(jīng)過人類的歸納和整理,最終呈現(xiàn)規(guī)律的信息。 圖7–1傳統(tǒng)意義上的數(shù)據(jù)和信息的區(qū)別 但進(jìn)入信息時(shí)代之后,“數(shù)據(jù)”二字的內(nèi)涵開始擴(kuò)大:不僅指代“有根據(jù)的數(shù)字”,還統(tǒng)指一切保存在電腦中的信息,包括文本、圖片、視頻等。其中的原因是,20世紀(jì)60年代軟件科學(xué)取得了巨大進(jìn)步、發(fā)明了數(shù)據(jù)庫(kù),此后,數(shù)字、文本、圖片都不加區(qū)分地保存在電腦的數(shù)據(jù)庫(kù)中,數(shù)據(jù)也逐漸成為“數(shù)字、文本、圖片、視頻”等的統(tǒng)稱,也即“信息”的代名詞。 文本、音頻、視頻本身就已經(jīng)是信息,而且其來源也不是對(duì)世界的測(cè)量,而是對(duì)世界的一種記錄,所以信息時(shí)代的數(shù)據(jù)又多了一個(gè)來源:記錄。 圖7–2數(shù)據(jù)的三大來源 圖7–3現(xiàn)代意義上的“數(shù)據(jù)”:范疇比信息還要大 注:進(jìn)入信息時(shí)代之后,數(shù)據(jù)成為信息的代名詞,兩者可以交替使用。一封郵件雖然包含很多條信息,但從技術(shù)的角度出發(fā),可能還是“一個(gè)數(shù)據(jù)”,就此而言,現(xiàn)代意義上的數(shù)據(jù)的范疇,其實(shí)比信息還大。 除了內(nèi)涵的擴(kuò)大,數(shù)據(jù)庫(kù)發(fā)明之后,還出現(xiàn)了另外一個(gè)重要現(xiàn)象,那就是數(shù)據(jù)的總量在不斷增加,而且增加的速度不斷加快。 20世紀(jì)80年代,美國(guó)就有人提出了“大數(shù)據(jù)”的概念。這個(gè)時(shí)候,其實(shí)還沒有進(jìn)入數(shù)據(jù)大爆炸的時(shí)代,但有人預(yù)見到,隨著信息技術(shù)的進(jìn)步,軟件的重要性將下降,數(shù)據(jù)的重要性將上升,因此提出“大數(shù)據(jù)”的概念。這時(shí)候的“大”,如“大人物”和“大轉(zhuǎn)折”之“大”,主要指價(jià)值上的重要性;到了21世紀(jì)前10年,尤其是2004年社交媒體產(chǎn)生之后,數(shù)據(jù)開始爆炸,大數(shù)據(jù)的提法又重新進(jìn)入大眾的視野并獲得了更大的關(guān)注。這個(gè)時(shí)候的“大”,含義也更加豐富了:一是指容量大,二是指價(jià)值大。 從這個(gè)角度出發(fā),大數(shù)據(jù)可以首先理解為傳統(tǒng)的小數(shù)據(jù)加上現(xiàn)代的“大記錄”,這種大記錄的主要表現(xiàn)形式是文本、圖片、音頻、視頻等,和傳統(tǒng)的測(cè)量完全是兩回事。而且大數(shù)據(jù)之所以“大”,主要是“大記錄”的增長(zhǎng),基于信息技術(shù)的進(jìn)步,人類記錄的范圍在不斷擴(kuò)大: 大數(shù)據(jù)=傳統(tǒng)的小數(shù)據(jù)+現(xiàn)代的大記錄 。ㄔ从跍y(cè)量)(源于記錄) 但到底多大才算大呢?針對(duì)這一問題,十多年來爭(zhēng)議頗多。這首先涉及衡量數(shù)據(jù)大小的單位,2000年的時(shí)候,一般認(rèn)為,“太”(T)級(jí)別的數(shù)據(jù)就是大數(shù)據(jù)了,當(dāng)時(shí)擁有“太”級(jí)別數(shù)據(jù)的企業(yè)并不多,但自此之后,互聯(lián)網(wǎng)企業(yè)開始崛起,這些企業(yè)擁有各種各樣的數(shù)據(jù),其中大部分都是文本、圖片和視頻,其數(shù)據(jù)量之大,傳統(tǒng)企業(yè)根本無(wú)法望其項(xiàng)背。 理解幾個(gè)主要的存儲(chǔ)單位 一首音樂≈4兆(M) 一部電影≈1吉(G,1吉=1024兆,相當(dāng)于250首歌曲的大小) 一個(gè)普通圖書館的藏書≈1太(T,1太=1024吉,相當(dāng)于1024部電影的大小) 我認(rèn)為,不僅僅是互聯(lián)網(wǎng)行業(yè),其實(shí)各行各業(yè)的數(shù)據(jù)都在爆炸,只是規(guī)模不同。如果僅僅把大數(shù)據(jù)的標(biāo)準(zhǔn)限定在互聯(lián)網(wǎng)企業(yè),認(rèn)為只有互聯(lián)網(wǎng)企業(yè)才擁有大數(shù)據(jù),那就嚴(yán)重窄化了大數(shù)據(jù)的意義。畢竟容量只是表象,價(jià)值才是本質(zhì),而且大容量并不一定代表大價(jià)值,大數(shù)據(jù)的真正意義還在于大價(jià)值,價(jià)值主要是通過數(shù)據(jù)的整合、分析和開放而獲得。大數(shù)據(jù)是指人類有前所未有的能力來使用海量的數(shù)據(jù),在其中發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值,從而為社會(huì)帶來“大知識(shí)”、“大科技”、“大利潤(rùn)”和“大智能”等發(fā)展機(jī)遇。 以上論述,是從概念上分析“數(shù)據(jù)”和“大數(shù)據(jù)”的區(qū)別,而掌握一個(gè)概念最好的方法,還是從動(dòng)態(tài)上了解其成因。大數(shù)據(jù)的成因,還是人類信息技術(shù)的進(jìn)步,而且是信息技術(shù)領(lǐng)域不同時(shí)期多個(gè)進(jìn)步交互作用的結(jié)果,其中最重要的原因,當(dāng)數(shù)摩爾定律。 改變世界的三股力量:大數(shù)據(jù)的成因 1965年,英特爾的創(chuàng)始人之一戈登?摩爾(GordonMoore)在考察了計(jì)算機(jī)硬件的發(fā)展規(guī)律之后,提出了著名的摩爾定律。該定律認(rèn)為,同一面積芯片上可容納的晶體管數(shù)量,一到兩年將增加一倍。1 要理解這種增加的意義,并不簡(jiǎn)單。摩爾的本意是,由于單位面積芯片上晶體管的密度增加了,計(jì)算機(jī)硬件的處理速度、存儲(chǔ)能力,即其主要性能一到兩年將提升一倍。本來性能提升了,價(jià)格也應(yīng)該上升才對(duì),但現(xiàn)實(shí)卻很詭異:半個(gè)多世紀(jì)以來,硬件的性能不斷提高,價(jià)格卻持續(xù)下降。之所以這樣,竟然還是因?yàn)榫w管越做越小,這種體積的縮小也導(dǎo)致其成本下降,再加上人類對(duì)晶體管的需求越來越大,大規(guī)模的生產(chǎn)也導(dǎo)致價(jià)格不斷下降。 回顧這半個(gè)多世紀(jì)的歷史,硬件的發(fā)展基本符合摩爾定律。以物理存儲(chǔ)器為例,其性能確實(shí)不斷上升,與此同時(shí),價(jià)格不斷下降。1955年,IBM推出了第一款商用硬盤存儲(chǔ)器,一兆字節(jié)的存儲(chǔ)量需要6000多美元,此后,其價(jià)格不斷下降:1960年,一兆字節(jié)下降到3600美元;1993年,下降到大概1美元;2000年,再降至1美分左右;到2010年,每兆價(jià)格約為0.005美分。半個(gè)多世紀(jì),存儲(chǔ)器的價(jià)格下降了1億多倍,這種變化的速度既巨大又劇烈,令人瞠目結(jié)舌。事實(shí)上,考察人類全部的歷史,沒有其他任何一種產(chǎn)品的價(jià)格下降空間能夠如此巨大! 圖7–41971~2011年中央處理器上的晶體管數(shù)量和摩爾定律 注:縱坐標(biāo)為晶體管數(shù)量,橫坐標(biāo)為年份。該曲線表明,在1971~2011年,大概每?jī)赡晗嗤娣e的中央處理器集成電路上的晶體管數(shù)量就增加1倍。需要注意的是,縱坐標(biāo)從2300到10000再到 100000,其實(shí)不成比例,如果嚴(yán)格按比例作圖,這將是一條非常陡峭的曲線,頁(yè)面將無(wú)法容納。(資料來源:維基百科) 晶體管的產(chǎn)量多過全世界的大米顆粒 晶體管由硅構(gòu)成,相當(dāng)于一個(gè)開關(guān),通電的時(shí)候表示“1”,不通電時(shí)候表示“0”,是電子產(chǎn)品最小的組織單元。一部手提電腦大概有400億個(gè)晶體管,一部智能手機(jī)約有10億個(gè)晶體管。晶體管行業(yè)(即半導(dǎo)體行業(yè))堪稱人類歷史上最高產(chǎn)的行業(yè),F(xiàn)在一年生產(chǎn)的晶體管比全球一年消耗的大米顆粒還要多:2002年,人類生產(chǎn)的晶體管數(shù)量大概是大米顆粒的40倍,買1粒米的錢可以購(gòu)買100個(gè)晶體管2;2009年,晶體管的產(chǎn)量上升到大米顆粒的250倍,1粒大米的價(jià)錢可以購(gòu)買10萬(wàn)個(gè)晶體管3。 摩爾定律發(fā)展到今天,一根頭發(fā)尖大小的地方,就能放上萬(wàn)個(gè)晶體管。當(dāng)然,晶體管不可能無(wú)限縮小,所以十幾年來,業(yè)界曾圍繞以下問題展開激烈爭(zhēng)論:摩爾定律所揭示的現(xiàn)象還會(huì)不會(huì)持續(xù),即單位面積上的晶體管還能不能繼續(xù)增加甚至翻倍?如果能,又能持續(xù)多久? 作為摩爾定律的發(fā)現(xiàn)者,2003年,戈登?摩爾也被問到這個(gè)問題。他認(rèn)為:“創(chuàng)新無(wú)止境,下一個(gè)10年摩爾定律可能還將有效。” 事實(shí)證明,摩爾是對(duì)的。2011年,英特爾公司宣布發(fā)明了22納米的3D(三維)晶體管,這使?fàn)幷摃簳r(shí)畫上了句號(hào)。此前的晶體管為31納米,22納米的晶體管小了大約1/3,因?yàn)樾,新的晶體管比現(xiàn)在更便宜、更節(jié)能。2012年,英特爾又宣布將投資50億美元在美國(guó)亞利桑那州建廠,計(jì)劃2014年投產(chǎn)14納米的晶體管,這比21納米的尺寸又將縮小1/3。 英特爾的發(fā)明使大部分科學(xué)家相信,摩爾定律的生命將延續(xù)到2020年。預(yù)計(jì)到2020年,1太硬盤的價(jià)格將下降到3美元,這相當(dāng)于一杯咖啡的價(jià)格。前面我們提到,美國(guó)的國(guó)會(huì)圖書館是全世界最大的圖書館,其印刷品館藏量約為15太;一所普通大學(xué)的圖書館,其館藏量可能也就一兩個(gè)太。也就是說,到2020年,只需花上一杯咖啡的錢,就可以把一個(gè)圖書館的全部信息拷進(jìn)一個(gè)小小的硬盤。信息保存的過程如此方便、成本如此低廉,歷史上從來沒有過。 圖7–51太容量的硬盤價(jià)格變化 注:1太容量的硬盤價(jià)格正在持續(xù)下降,已經(jīng)從2012年11月的94.99美元下降到2014年3月的49.99美元。以上數(shù)據(jù)是作者在亞馬遜網(wǎng)站上跟蹤的希捷硬盤在不同時(shí)段的報(bào)價(jià)。 摩爾定律已經(jīng)成為描述一切呈指數(shù)級(jí)增長(zhǎng)事物的代名詞,它給人類社會(huì)帶來的影響非常深遠(yuǎn)。正是因?yàn)榇鎯?chǔ)器的價(jià)格在半個(gè)世紀(jì)之內(nèi)經(jīng)歷了空前絕后的下降,人類才可能以非常低廉的成本保存海量的數(shù)據(jù),這為大數(shù)據(jù)時(shí)代的到來鋪平了硬件道路。這相當(dāng)于物質(zhì)基礎(chǔ),沒有它,大數(shù)據(jù)無(wú)異于水中月、鏡中花。 摩爾定律促使硬件成為大眾消費(fèi)品 摩爾定律導(dǎo)致的硬件價(jià)格大幅下降,最終使曾經(jīng)昂貴的硬件成為大眾消費(fèi)品,原來“高大上”的產(chǎn)品,如激光打印機(jī)、服務(wù)器、智能手機(jī),已經(jīng)逐漸從科研機(jī)構(gòu)、大型企業(yè)進(jìn)入普通家庭。由于這些設(shè)備的普及,美國(guó)的一些公司甚至出現(xiàn)了一種新趨勢(shì):鼓勵(lì)員工自己帶設(shè)備來上班(BYOD),公司只提供網(wǎng)絡(luò)和辦公場(chǎng)地,成為“輕”公司。 除了便宜、功能強(qiáng)大,摩爾定律也導(dǎo)致各種計(jì)算設(shè)備變得越來越小。這個(gè)現(xiàn)象在1988年被美國(guó)科學(xué)家馬克?韋澤(MarkWeiser)概括為“普適計(jì)算”。普適計(jì)算理論認(rèn)為,計(jì)算機(jī)發(fā)明以后,將經(jīng)歷三個(gè)主要階段:一是主機(jī)型階段,指的是很多人共享一臺(tái)大型機(jī),一臺(tái)機(jī)器就占據(jù)半個(gè)房間;二是個(gè)人電腦階段,計(jì)算機(jī)變小,人手一機(jī),韋澤當(dāng)時(shí)就處于這個(gè)時(shí)代,這似乎已經(jīng)是很理想的狀態(tài),但韋澤天才般地預(yù)見到,人手一機(jī)不是時(shí)代的終結(jié);在第三個(gè)階段,計(jì)算機(jī)將變得很小,小得將從人們的視線中消失,人們可以在日常環(huán)境中廣泛部署各種各樣微小的計(jì)算設(shè)備,在任何時(shí)間、地點(diǎn)都能獲取并處理數(shù)據(jù),計(jì)算最終將和環(huán)境融為一體,這個(gè)階段,被稱為普適計(jì)算階段。 今天,第三股浪潮正向我們奔涌而來,小小的智能手機(jī),其功能已經(jīng)毫不遜色于一臺(tái)計(jì)算機(jī),各種傳感器正越做越小,RFID(射頻識(shí)別)標(biāo)簽方興未艾,可穿戴式設(shè)備又向我們走來。 RFID標(biāo)簽已經(jīng)在零售、醫(yī)療、動(dòng)物飼養(yǎng)等領(lǐng)域得到了廣泛應(yīng)用。近兩年,美國(guó)費(fèi)城等城市在垃圾桶內(nèi)安裝RFID傳感器,垃圾裝滿或者因?yàn)楦癄而散發(fā)異味時(shí),傳感器就會(huì)發(fā)出信號(hào),這可以優(yōu)化垃圾車的巡回路線,減少城市管理人員收集垃圾的次數(shù)。 可穿戴式設(shè)備是指可以穿戴在身上、不影響個(gè)人活動(dòng)的微型電子設(shè)備,這些設(shè)備可以記錄佩戴者的物理位置、熱量消耗、體溫、心跳、睡眠模式、步伐多少以及健身目標(biāo)等數(shù)據(jù)。2013年,德國(guó)霍芬海姆足球俱樂部(TSG1899Hoffenheim)已經(jīng)把傳感器裝到了足球和每個(gè)球員的護(hù)膝或衣服上。這些傳感器可以實(shí)時(shí)記錄運(yùn)動(dòng)員的活動(dòng)軌跡、奔跑速度、加速過程、控球時(shí)間,一場(chǎng)比賽打下來,系統(tǒng)可以收集6000萬(wàn)條記錄,球員、教練都可以對(duì)這些數(shù)據(jù)做出分析,并借此提高訓(xùn)練質(zhì)量、制定最佳組合、減少運(yùn)動(dòng)員受傷的概率。 除了足球,傳感器還進(jìn)入了網(wǎng)球場(chǎng)。法國(guó)的運(yùn)動(dòng)器材制造商Babolat把傳感器安裝在了網(wǎng)球拍的手柄上,它可以記錄球員擊球時(shí)的狀態(tài),例如正反拍、擊球點(diǎn)、擊球的力量、球速、球的旋轉(zhuǎn)方向等參數(shù)。這些數(shù)據(jù)以幾乎實(shí)時(shí)的速度傳到現(xiàn)場(chǎng)的智能手機(jī)和平板電腦上,運(yùn)動(dòng)員和教練可以隨時(shí)查看。2014年在澳網(wǎng)封后的中國(guó)網(wǎng)球一姐李娜,用的就是這個(gè)品牌的球拍。為了配合這種球拍的使用,2013年,國(guó)際網(wǎng)球聯(lián)合會(huì)(InternationalTennisFederation,ITF)已經(jīng)修改了章程,從2014年1月起,允許運(yùn)動(dòng)員在國(guó)際比賽中使用帶有傳感器的球拍,以記錄、分析自己的數(shù)據(jù)。在未來的比賽中,如果運(yùn)動(dòng)員同意,這些數(shù)據(jù)甚至可以實(shí)時(shí)出現(xiàn)在比賽場(chǎng)地的大屏幕上,供觀眾分析參考。 除了足球、網(wǎng)球,傳感器也在快速進(jìn)入棒球、橄欖球等領(lǐng)域。美國(guó)的一些研究機(jī)構(gòu)認(rèn)為,美國(guó)運(yùn)動(dòng)產(chǎn)業(yè)的營(yíng)收,近年內(nèi)會(huì)有大幅增長(zhǎng),主要原因就是,基于傳感器的數(shù)據(jù)收集和分析技術(shù)將改寫整個(gè)領(lǐng)域的生態(tài)。 除了運(yùn)動(dòng),可穿戴式設(shè)備還有很多。2014年2月,日本東京大學(xué)的研究人員發(fā)明了一種比羽毛還輕的傳感器,把它放置在紙尿片內(nèi),紙尿片一濕就會(huì)發(fā)出信號(hào),看護(hù)就會(huì)知道并及時(shí)更換。這種傳感器的成本只有幾美分,不僅適用于嬰兒,還適用于老人、病人。此外,作為可穿戴式設(shè)備最經(jīng)典的產(chǎn)品,風(fēng)靡一時(shí)的谷歌眼鏡也在娛樂之外得到了更廣泛的應(yīng)用:美國(guó)紐約市的警察準(zhǔn)備在日常巡邏中佩戴谷歌眼鏡,以快速記錄事故現(xiàn)場(chǎng)的情形,并通過網(wǎng)絡(luò)和同事共享數(shù)據(jù)。 普適計(jì)算的根本,是在人類生活的物理環(huán)境中廣泛部署微小的計(jì)算設(shè)備,實(shí)現(xiàn)無(wú)處不在的數(shù)據(jù)自動(dòng)采集,這意味著人類數(shù)據(jù)收集能力的增強(qiáng)。在此之前,電子化的數(shù)據(jù)主要由各種信息系統(tǒng)產(chǎn)生,這些信息系統(tǒng)記錄的主要是商業(yè)過程的數(shù)據(jù),而傳感器的出現(xiàn)及其技術(shù)的成熟,使人類開始有能力大規(guī)模記錄物理世界的狀態(tài),這種進(jìn)步推動(dòng)了大數(shù)據(jù)時(shí)代的到來。 但人類數(shù)據(jù)的真正爆炸發(fā)生在社交媒體時(shí)代。 從2004年起,以臉譜網(wǎng)(Facebook)、推特(Twitter)為代表的社交媒體相繼問世,這拉開了一個(gè)互聯(lián)網(wǎng)的嶄新時(shí)代—Web2.0。在此之前,互聯(lián)網(wǎng)的主要作用是信息的傳播和分享,其最主要的組織形式是建立網(wǎng)站,但網(wǎng)站是靜態(tài)的;進(jìn)入Web2.0時(shí)代之后,互聯(lián)網(wǎng)開始成為人們實(shí)時(shí)互動(dòng)、交流協(xié)同的載體。2011年8月23日,美國(guó)弗吉尼亞州發(fā)生5.9級(jí)地震,紐約市居民首先在推特上看到這個(gè)消息,幾秒鐘之后,才感覺到地震波從震中傳過來的震感,社交媒體把人類信息傳播的速度,帶到了比地震波還快的時(shí)代! 除了把交流和協(xié)同的功能推到了一個(gè)登峰造極的高度,社交媒體的另外一層重要意義就是,給全世界無(wú)數(shù)的網(wǎng)民提供了一個(gè)平臺(tái),使其隨時(shí)隨地都可以記錄自己的行為、想法,這種記錄其實(shí)就是貢獻(xiàn)數(shù)據(jù)。我們談到過,所有的數(shù)據(jù)都是人為產(chǎn)生的,所有的數(shù)據(jù)都是對(duì)世界的測(cè)量和記錄。從1946年人類發(fā)明第一臺(tái)計(jì)算機(jī)并進(jìn)入信息時(shí)代算起,到社交媒體產(chǎn)生之前,主要是信息系統(tǒng)、傳感器在產(chǎn)生和收集數(shù)據(jù),但由于社交媒體的橫空出世,人類自己也開始在互聯(lián)網(wǎng)上生產(chǎn)數(shù)據(jù),例如發(fā)推特、微博和微信,記錄各自的活動(dòng)和行為,這部分?jǐn)?shù)據(jù)也因此被稱為“行為數(shù)據(jù)”。 圖7–6各種數(shù)據(jù)類型和大小 注:數(shù)據(jù)是對(duì)人類生活和客觀世界的測(cè)量和記錄。過去,是我們選擇什么東西需要記錄,才對(duì)它進(jìn)行記錄;在大數(shù)據(jù)時(shí)代,是選擇什么東西不需要記錄,才取消對(duì)它的記錄。隨著記錄范圍的不斷擴(kuò)大,可以肯定,人類的數(shù)據(jù)總量還將呈滾雪球式擴(kuò)大。 由于社交媒體的出現(xiàn),全世界的網(wǎng)民都開始成為數(shù)據(jù)的生產(chǎn)者,每個(gè)網(wǎng)民都猶如一個(gè)信息系統(tǒng)、一個(gè)傳感器,不斷地制造數(shù)據(jù),這引發(fā)了人類歷史上迄今為止最龐大的數(shù)據(jù)爆炸。除了數(shù)據(jù)總量驟然增加,社交媒體還使人類的數(shù)據(jù)世界更為復(fù)雜:在大家發(fā)的微博中,你的帶圖片、他的帶視頻,大小、結(jié)構(gòu)完全不一樣。因?yàn)闆]有嚴(yán)整的結(jié)構(gòu),在社交媒體上產(chǎn)生的數(shù)據(jù),也被稱為非結(jié)構(gòu)化數(shù)據(jù)。這部分?jǐn)?shù)據(jù)的處理,遠(yuǎn)比結(jié)構(gòu)嚴(yán)整的數(shù)據(jù)困難。2012年,喬治敦大學(xué)的教授李塔魯(KalevLeetaru)考察了推特上產(chǎn)生的數(shù)據(jù)量,他做出估算說,過去50年,《紐約時(shí)報(bào)》總共產(chǎn)生了30億個(gè)單詞的信息量,現(xiàn)在僅僅一天,推特上就產(chǎn)生了80億個(gè)單詞的信息量。也就是說,如今一天產(chǎn)生的數(shù)據(jù)總量相當(dāng)于《紐約時(shí)報(bào)》100多年產(chǎn)生的數(shù)據(jù)總量。 在這種前所未有的數(shù)據(jù)生產(chǎn)速度下,社交媒體的出現(xiàn)雖然還不到10年,目前全世界的數(shù)據(jù)大約75%都是非結(jié)構(gòu)化數(shù)據(jù)。今天回頭看,社交媒體的出現(xiàn),才是讓大數(shù)據(jù)一錘定音的力量;谝陨戏治觯覀円部梢赃@樣認(rèn)為: 大數(shù)據(jù)=結(jié)構(gòu)化數(shù)據(jù)+非結(jié)構(gòu)化數(shù)據(jù) 但我們前面談到,大數(shù)據(jù)之大,不僅在于其大容量,更在于其大價(jià)值。價(jià)值在于使用,如同埋在地底下的石油,遠(yuǎn)古即已有之,人類進(jìn)入石油時(shí)代,是因?yàn)檎莆樟碎_采、冶煉石油的技術(shù),現(xiàn)在進(jìn)入大數(shù)據(jù)時(shí)代,最根本的原因,也是人類使用數(shù)據(jù)的能力取得了重大突破和進(jìn)展。 這種突破集中表現(xiàn)在數(shù)據(jù)挖掘上,數(shù)據(jù)挖掘是指通過特定的算法對(duì)大量的數(shù)據(jù)進(jìn)行自動(dòng)分析,從而揭示數(shù)據(jù)當(dāng)中隱藏的規(guī)律和趨勢(shì),即在大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)新知識(shí),為決策者提供參考。數(shù)據(jù)挖掘進(jìn)步的根本原因是人類能夠不斷設(shè)計(jì)出更強(qiáng)大的模式識(shí)別算法4,這其實(shí)是軟件的進(jìn)步,其中最重要的里程碑,是1989年美國(guó)計(jì)算機(jī)協(xié)會(huì)(ACM)下屬的數(shù)據(jù)挖掘及知識(shí)發(fā)現(xiàn)專委會(huì)(SIGKDD)舉辦了第一屆數(shù)據(jù)挖掘?qū)W術(shù)年會(huì),出版了專門期刊,此后數(shù)據(jù)挖掘得到了如火如荼的 發(fā)展。 正是通過數(shù)據(jù)挖掘,近幾十年來,各大商家譜寫了不少點(diǎn)“數(shù)”成金的傳奇故事,例如沃爾瑪通過捆綁“啤酒和尿布”提高銷量。又如,奈飛公司利用客戶的網(wǎng)上點(diǎn)擊記錄,預(yù)測(cè)其喜歡觀看的內(nèi)容,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。再如,阿里巴巴等互聯(lián)網(wǎng)公司憑借長(zhǎng)期以來積累的用戶資金流水記錄,涉足金融領(lǐng)域,在幾分鐘之內(nèi)就能判斷用戶的信用資質(zhì),決定是否為其發(fā)放貸款…… 近年來,數(shù)據(jù)挖掘在企業(yè)的應(yīng)用還在不斷推陳出新,有望到達(dá)一個(gè)新高度。例如,2014年1月,美國(guó)的電子零售巨頭亞馬遜宣布了一項(xiàng)新的專利:“預(yù)判發(fā)貨”(AnticipatoryShipping),即在網(wǎng)購(gòu)時(shí),顧客還沒有下單,亞馬遜就將包裹寄出。這種顧客未動(dòng)、包裹先行的做法聽起來有些不可思議,中國(guó)的新聞媒體甚至驚呼:“亞馬遜這是要逆天嗎?”5 在商言商,亞馬遜當(dāng)然不會(huì)做賠本生意,預(yù)判發(fā)貨的核心技術(shù)還是數(shù)據(jù)挖掘。其本質(zhì)是,通過預(yù)測(cè),把發(fā)貨這個(gè)過程“外包”給算法,讓算法自動(dòng)發(fā)貨,實(shí)現(xiàn)智能化!亞馬遜解釋說,發(fā)貨的根據(jù)是顧客以前的消費(fèi)記錄、搜索記錄以及顧客的心愿單,甚至包括用戶的鼠標(biāo)在某個(gè)商品頁(yè)面上停留的時(shí)間。根據(jù)這些數(shù)據(jù),亞馬遜如果判斷某位顧客對(duì)一件新商品有購(gòu)買意愿,就會(huì)直接將商品寄給他,或者將該商品發(fā)送到離他最近的倉(cāng)庫(kù),顧客一旦下單,那收貨時(shí)間就將以“小時(shí)”計(jì),而不是以“天”計(jì)。亞馬遜認(rèn)為,正是從下單到收貨之間的物流延遲,導(dǎo)致人們購(gòu)買意愿降低,如果能夠縮短物流時(shí)間,將極大地改善客戶體驗(yàn)。 亞馬遜還提到,并不是所有的商品都會(huì)采用預(yù)判發(fā)貨的形式,這種形式比較適合在上市之初就容易吸引大量買家的商品,例如暢銷書。為了降低預(yù)判發(fā)貨的風(fēng)險(xiǎn),亞馬遜還有一些配套技巧,例如模糊填寫用戶的收貨地址,只將商品配送到離他最近的倉(cāng)庫(kù),如果在配送過程中收到訂單,再將地址信息補(bǔ)充完整,在這個(gè)等待的過程中,亞馬遜還會(huì)向這位潛在顧客推送信息,以提升這筆交易成功的可能性。 但這些都不是其算法的關(guān)鍵,預(yù)判發(fā)貨這種模式之所以有商業(yè)價(jià)值,是因?yàn)閬嗰R遜會(huì)鎖定其適用的群體,例如年收入較高的家庭,他們對(duì)某些消費(fèi)有固定的預(yù)算;又如某一領(lǐng)域的狂熱粉絲,他們?cè)敢鉃樽钚碌臅r(shí)尚一擲千金。這批高端用戶更注重購(gòu)物體驗(yàn),如果把發(fā)貨流程外包給算法,顧客就不用操心自己想買什么,這相當(dāng)于節(jié)省了他的時(shí)間;流行物品在第一時(shí)間就送上門,這是急顧客之所急?梢韵胂,當(dāng)這些家庭拆開郵包時(shí),更多的可能是欣喜,這種欣喜將強(qiáng)化顧客的忠誠(chéng)度。當(dāng)然,假如顧客真的堅(jiān)持退貨,亞馬遜還有解決辦法:一是打折銷售,二是作為禮物免費(fèi)贈(zèng)送,這也有利于亞馬遜在高端客戶中提升口碑。 亞馬遜有1億客戶,這些人的消費(fèi)記錄日積月累,可以說是海量數(shù)據(jù),但數(shù)據(jù)雖然多,卻沒有人會(huì)直接將自己的收入高低和興趣愛好告訴亞馬遜,所有的預(yù)判,亞馬遜都必須靠數(shù)據(jù)挖掘來完成。 2013年5月,加拿大蒙特利爾交通局(SociétédeTransportdeMontréal,STM)宣布,將利用SAP(思愛普)公司的大數(shù)據(jù)處理平臺(tái),對(duì)所有顧客的消費(fèi)歷史和個(gè)人信息進(jìn)行分析,然后按照其偏好、習(xí)慣和需要,為每位顧客定制專門的消費(fèi)計(jì)劃和個(gè)性化票價(jià)。蒙特利爾交通局共有120萬(wàn)名顧客,這意味著這120萬(wàn)人都將得到不同的票價(jià),其目的是優(yōu)化公共交通的運(yùn)營(yíng),提高顧客的忠誠(chéng)度。 蒙特利爾交通局之所以能夠這么做,還是因?yàn)槠湔莆樟舜罅款櫩偷臄?shù)據(jù)。在信息時(shí)代之前,受限于記錄手段,商家對(duì)于自己產(chǎn)品及服務(wù)的銷售和流向,只有一個(gè)粗略的記錄,但現(xiàn)在的信息技術(shù)已經(jīng)可以把一件產(chǎn)品的流向、每位消費(fèi)者的情況都記錄下來,再通過數(shù)據(jù)挖掘,為客戶量身定制,把消費(fèi)和服務(wù)推向一個(gè)高度個(gè)性化的時(shí)代。 數(shù)據(jù)挖掘技術(shù)的不斷成熟也在挑戰(zhàn)現(xiàn)有的統(tǒng)計(jì)體系。在第五章我們談到,20世紀(jì)30年代,由于抽樣技術(shù)的出現(xiàn),統(tǒng)計(jì)科學(xué)發(fā)生了一場(chǎng)革命,即社會(huì)調(diào)查可以通過選取有代表性的樣本來完成,而不必像人口普查一樣,把全社會(huì)的人都問一遍。但前文也談到,即使是抽樣技術(shù),也有其缺陷。1948年,杜魯門和杜威競(jìng)選,蓋洛普通過抽樣調(diào)查預(yù)測(cè)杜威將當(dāng)選,但結(jié)果讓所有人都大跌眼鏡。其失敗的原因在于,抽樣調(diào)查需要經(jīng)過問卷設(shè)計(jì)、信息收集、數(shù)據(jù)分析等多個(gè)步驟,這導(dǎo)致它掌握的數(shù)據(jù)滯后于真實(shí)的情況,在最后兩周里,蓋洛普不得不停止調(diào)查,而杜魯門恰恰在最后的關(guān)頭扭轉(zhuǎn)了乾坤。在大數(shù)據(jù)時(shí)代,對(duì)誰(shuí)將當(dāng)選總統(tǒng)的預(yù)測(cè)已經(jīng)出現(xiàn)了新方法:在投票前后,對(duì)社交媒體上的數(shù)據(jù)進(jìn)行觀點(diǎn)的挖掘,可以較為準(zhǔn)確地預(yù)測(cè)出誰(shuí)能當(dāng)選。最近兩次美國(guó)總統(tǒng)的選舉,都有人通過挖掘推特、臉譜網(wǎng)上的數(shù)據(jù),準(zhǔn)確預(yù)測(cè)到奧巴馬的當(dāng)選。 這種基于網(wǎng)絡(luò)數(shù)據(jù)的挖掘,不需要制定問卷,也不需要逐一調(diào)查,成本低廉。更重要的是,這種分析是實(shí)時(shí)的,沒有滯后性,所以有越來越多的科學(xué)家相信,因?yàn)榇髷?shù)據(jù)的出現(xiàn),統(tǒng)計(jì)科學(xué)將再次發(fā)生革命,進(jìn)入統(tǒng)計(jì)2.0時(shí)代。在這個(gè)新的時(shí)代,數(shù)據(jù)挖掘?qū)⒊蔀樵絹碓街匾姆治鲱A(yù)測(cè)工具,抽樣技術(shù)將下降為輔助工具。 表7–1數(shù)據(jù)挖掘和統(tǒng)計(jì)抽樣的區(qū)別 數(shù)據(jù)樣本 數(shù)據(jù)來源 數(shù)據(jù)時(shí)效 數(shù)據(jù)成本 數(shù)據(jù)挖掘 用的是已經(jīng)存在的大數(shù)據(jù),樣本偏差可能很大,但如果數(shù)據(jù)量足夠大,偏差又可能縮小 多個(gè)源頭 實(shí)時(shí) 基本免費(fèi) 統(tǒng)計(jì)抽樣 根據(jù)設(shè)計(jì)好的問卷,收集自己需要的數(shù)據(jù),如果設(shè)計(jì)科學(xué),那樣本會(huì)比較均勻、偏差小 比較單一 滯后 比較昂貴 注:數(shù)據(jù)挖掘的優(yōu)越性,也集中反映了大數(shù)據(jù)“量大、多源、實(shí)時(shí)”等三個(gè)特點(diǎn)。 雖然數(shù)據(jù)挖掘正如日中天,但在一定程度上,數(shù)據(jù)挖掘已經(jīng)不是大數(shù)據(jù)的前沿和熱點(diǎn),取而代之的是機(jī)器學(xué)習(xí)。當(dāng)下興起的機(jī)器學(xué)習(xí)憑借的也是計(jì)算機(jī)算法,但和數(shù)據(jù)挖掘相比,其算法并不是固定的,而是帶有自調(diào)適參數(shù)的,也就是說,它能夠隨著計(jì)算、挖掘次數(shù)的增多,不斷自動(dòng)調(diào)整自己算法的參數(shù),使挖掘和預(yù)測(cè)的結(jié)果更為準(zhǔn)確,即通過給機(jī)器“喂取”大量的數(shù)據(jù),讓機(jī)器可以像人一樣通過學(xué)習(xí)逐步自我改善、提高,這也是該技術(shù)被命名為“機(jī)器學(xué)習(xí)”的原因。 除了數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),數(shù)據(jù)的分析、使用技術(shù)已經(jīng)非常成熟,并且形成了一個(gè)譜系,例如數(shù)據(jù)倉(cāng)庫(kù)、多維聯(lián)機(jī)分析外理(MultidimensionOLAP)、數(shù)據(jù)可視化、內(nèi)存分析(In-memoryAnalytics)都是其體系的重要組成部分,在人類數(shù)據(jù)技術(shù)的進(jìn)步過程中,都扮演過重要的角色。6 回顧半個(gè)多世紀(jì)人類信息社會(huì)的歷史,正是因?yàn)?966年提出的摩爾定律,晶體管越做越小、成本越來越低,才形成了大數(shù)據(jù)現(xiàn)象的物理基礎(chǔ),這相當(dāng)于鑄器,人類有能力制造巨鼎盛載海量的數(shù)據(jù);1989年興起的數(shù)據(jù)挖掘,則相當(dāng)于把原油煉成石油的技術(shù),是讓大數(shù)據(jù)產(chǎn)生“大價(jià)值”的關(guān)鍵,因?yàn)槿绻麤]有技術(shù),石油再多,我們也只能“望油興嘆”;2004年出現(xiàn)的社交媒體,則把全世界每個(gè)人都變成了潛在的數(shù)據(jù)生成器,向摩爾定律鑄成的巨鼎當(dāng)中貢獻(xiàn)數(shù)據(jù),這是“大容量”形成的主要原因。 圖7–7大數(shù)據(jù)的三大成因 分析了大數(shù)據(jù)的靜態(tài)概念和動(dòng)態(tài)成因,我們更清楚地理解了大數(shù)據(jù)的特點(diǎn),現(xiàn)在可以從以下角度來理解、定義大數(shù)據(jù): 圖7–8大數(shù)據(jù)的概念和維度 注:正如前文討論的,當(dāng)前人類的數(shù)據(jù)約75%都是非結(jié)構(gòu)化數(shù)據(jù),大記錄的表現(xiàn)形式主要就是非結(jié)構(gòu)化數(shù)據(jù),而大記錄、非結(jié)構(gòu)化數(shù)據(jù)要體現(xiàn)出價(jià)值,當(dāng)前主要的處理方法,還是把它們轉(zhuǎn)化為有嚴(yán)整結(jié)構(gòu)的數(shù)據(jù),即傳統(tǒng)的小數(shù)據(jù),因此我認(rèn)為,大數(shù)據(jù)的價(jià)值維度主要體現(xiàn)在傳統(tǒng)的小數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)之上,而大數(shù)據(jù)的容量維度主要體現(xiàn)在現(xiàn)代的大記錄和非結(jié)構(gòu)化數(shù)據(jù)兩個(gè)方面。 大數(shù)據(jù)產(chǎn)生之后,全世界的科學(xué)家都在預(yù)測(cè)和展望。這股由信息技術(shù)掀起的新浪潮將對(duì)人類社會(huì)產(chǎn)生何種影響,將帶領(lǐng)我們的世界走向何方?我認(rèn)為,有更多的數(shù)據(jù),就必定會(huì)有更多的使用,而使用數(shù)據(jù)最根本的方法就是計(jì)算,大數(shù)據(jù)時(shí)代就是大計(jì)算的時(shí)代,無(wú)處不在的計(jì)算標(biāo)志著一個(gè)計(jì)算型社會(huì)的興起。 有數(shù)據(jù),還要有計(jì)算:計(jì)算型社會(huì)的興起 前文談到,進(jìn)入信息時(shí)代之后,“數(shù)據(jù)”這個(gè)概念的內(nèi)涵擴(kuò)大了,它不僅僅指代傳統(tǒng)的數(shù)字,還包括文字、圖片甚至音頻、視頻等。 由于數(shù)據(jù)的內(nèi)涵擴(kuò)大,可以想象,計(jì)算的內(nèi)涵也應(yīng)該發(fā)生相應(yīng)的變化。計(jì)算是以數(shù)據(jù)為基礎(chǔ)的,其本質(zhì)是對(duì)輸入的數(shù)據(jù),經(jīng)過一定規(guī)則的處理后,例如加、減、乘、除,輸出一個(gè)新數(shù)據(jù),從這個(gè)意義上說,計(jì)算就是對(duì)數(shù)據(jù)進(jìn)行有規(guī)則的轉(zhuǎn)換。 傳統(tǒng)的計(jì)算自然以傳統(tǒng)的“數(shù)字”為基礎(chǔ),例如:8×8=64,而在大數(shù)據(jù)時(shí)代,文本是數(shù)據(jù),視頻是數(shù)據(jù),這些數(shù)據(jù)是否也能計(jì)算?例如,輸入一段文本,經(jīng)過一定規(guī)則的處理,得出另外一段文本或者一張圖片,甚至一個(gè)視頻,那是不是也應(yīng)該算作“計(jì)算”? 這個(gè)新型的數(shù)據(jù)轉(zhuǎn)換過程,其實(shí)就是我們熟悉的搜索和數(shù)據(jù)挖掘。 按照我們對(duì)計(jì)算的定義:計(jì)算是按照一定的規(guī)則對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換的過程,而文本、圖片、音頻和視頻都是大數(shù)據(jù)時(shí)代的數(shù)據(jù),那以上的過程就應(yīng)該是計(jì)算。換句話說,在大數(shù)據(jù)時(shí)代,計(jì)算的內(nèi)涵也擴(kuò)大了,搜索就是計(jì)算,數(shù)據(jù)挖掘也是計(jì)算!它們依照的規(guī)則,并不是簡(jiǎn)單的加、減、乘、除,而是特定的、更為復(fù)雜的算法。 我們的世界主要由物理環(huán)境、人和社會(huì)構(gòu)成,如果按此劃分,人類的計(jì)算也可以分為兩大類:物理環(huán)境的計(jì)算、人和社會(huì)的計(jì)算。社會(huì)領(lǐng)域的計(jì)算主要是研究個(gè)人和群體的行為,包括過去和現(xiàn)在的行為,也包括有組織的群體行為和無(wú)組織的群體行為,傳統(tǒng)學(xué)科如經(jīng)濟(jì)學(xué)、政治學(xué)、社會(huì)學(xué)、歷史學(xué)等都屬于這個(gè)范疇;物理環(huán)境領(lǐng)域的計(jì)算主要研究人類生活環(huán)境的狀態(tài),傳統(tǒng)學(xué)科如物理、化學(xué)、天文學(xué)、地理學(xué)、動(dòng)物學(xué)、植物學(xué)等都屬于這個(gè)范疇。 在大數(shù)據(jù)時(shí)代,人和社會(huì)、物理環(huán)境這兩大領(lǐng)域的計(jì)算都將蓬勃興起。物理環(huán)境領(lǐng)域的計(jì)算由來已久,大數(shù)據(jù)時(shí)代最大的亮點(diǎn)就是人和社會(huì)的計(jì)算,越來越多的社會(huì)問題都將通過計(jì)算得到解決。換句話說,由于大數(shù)據(jù)的出現(xiàn),社會(huì)正逐漸變得可以計(jì)算! 可以計(jì)算的原因是,個(gè)人在真實(shí)世界的活動(dòng)和社會(huì)狀態(tài)被前所未有地記錄,這種記錄的粒度很高,頻度也在不斷增加,為社會(huì)領(lǐng)域的計(jì)算提供了極為豐富的數(shù)據(jù)。 2011年10月,美國(guó)佛羅里達(dá)州勞德代爾堡市(FortLauderdale)發(fā)生了一起惡性交通事故,事故原因是一名退休警察超速行駛。佛羅里達(dá)州《太陽(yáng)哨兵報(bào)》的記者克斯。⊿allyKestin)在查閱歷年的數(shù)據(jù)后發(fā)現(xiàn):從2004年起,整個(gè)佛羅里達(dá)州發(fā)生過320起警察超速導(dǎo)致的交通事故,并且導(dǎo)致19人喪生,而最后的結(jié)果,只有一名警察入獄服刑?怂雇∫庾R(shí)到,這可能是一個(gè)非常值得關(guān)注的社會(huì)問題,她甚至懷疑這個(gè)數(shù)據(jù)只是冰山一角,類似的警察很多,開快車可能是其經(jīng)常性的行為。 但懷疑只能是懷疑,克斯汀知道,要證明它,無(wú)異于要證明警察這個(gè)群體知法犯法、凌駕于法律之上,這是個(gè)很大的挑戰(zhàn),最大的困難就在于取證。 為了取證,克斯汀嘗試過跟蹤警車,獲取其超速的第一手記錄。她抱著測(cè)速雷達(dá),一連幾天守在高速公路邊,一看見有超速的黑點(diǎn),就驅(qū)車直追,但她很快發(fā)現(xiàn),這無(wú)異于守株待兔,難度太大:一是路上車輛太多,難以確定目標(biāo),追來追去,常常發(fā)現(xiàn)不是警車,一到晚上,目標(biāo)更是難以辨認(rèn);二是就算運(yùn)氣好、碰上的恰好就是警車,克斯汀也無(wú)權(quán)截停,僅僅通過照片或錄像,證據(jù)還是不夠充分,事后也無(wú)法服人。 克斯汀最后想出的辦法,是根據(jù)美國(guó)內(nèi)開放1.0時(shí)代制定的《信息自由法》,向當(dāng)?shù)氐慕煌ü芾聿块T申請(qǐng)數(shù)據(jù)開放,因?yàn)榫囀枪珓?wù)用車,公民有權(quán)了解其使用狀態(tài),她因此獲得了110萬(wàn)條當(dāng)?shù)鼐囃ㄟ^不同高速路口收費(fèi)站的原始記錄。在專業(yè)數(shù)據(jù)分析人員的幫助下,克斯汀用了3個(gè)月的時(shí)間對(duì)這些記錄進(jìn)行了整合和分析。 克斯汀的分析方法是:她選取兩個(gè)特定的收費(fèi)站并測(cè)算兩點(diǎn)之間的距離,再在110萬(wàn)條記錄中找到每一輛警車通過這兩個(gè)不同收費(fèi)站的時(shí)間點(diǎn),兩點(diǎn)之間的距離除以其時(shí)間差,即為該警車在這段路程中的平均行駛速度。 克斯汀的分析得到了令人震驚的結(jié)果。她發(fā)現(xiàn),在13個(gè)月期間,當(dāng)?shù)氐?br/> 3900輛警車一共發(fā)生了5100宗超速事件,也就是說,警車超速的行為幾乎每天都在發(fā)生;96%的超速在144公里/小時(shí)至176公里/小時(shí)之間,當(dāng)?shù)?/5的警車都有時(shí)速超過144公里的“劣跡”,而且,時(shí)間記錄表明,絕大部分超速行為發(fā)生在上下班時(shí)間和上下班的途中。這意味著,他們開快車并不是為了執(zhí)行公務(wù)。 克斯汀的懷疑終于得到了證實(shí),2012年2月,她利用這些數(shù)據(jù)分析的結(jié)果,在《太陽(yáng)哨兵報(bào)》上發(fā)表了一系列報(bào)道,頭篇報(bào)道的標(biāo)題為“他們凌駕法律之上?”7。在大量數(shù)據(jù)和調(diào)查訪談的基礎(chǔ)上,克斯汀得出結(jié)論說,因?yàn)楣ぷ餍枰途焐矸莸奶貦?quán)意識(shí),開快車成了警察群體的普遍習(xí)慣,即使下班之后身著便服,其駕駛速度也沒能降下來,而路上值勤的警察也警警相護(hù),互相理解并縱容這種行為。 鐵數(shù)如山?梢韵胂,克斯汀的報(bào)道一見報(bào),輿論一片嘩然。接下來一個(gè)月,《太陽(yáng)哨兵報(bào)》的電話響個(gè)不停。全國(guó)各地的讀者紛紛打來電話,有的表示感謝,有的要來取經(jīng)。當(dāng)?shù)鼐瘎?wù)部門則發(fā)生了一場(chǎng)“大地震”,5100宗超速案件涉及12個(gè)部門近800名警察,一些被“坐實(shí)”的警察陸續(xù)受到處理:48名州高速公路巡警被處以警告處分或者被勒令紀(jì)律反。44名地方刑警被剝奪開車上下班的權(quán)利并回爐參加安全駕駛培訓(xùn);邁阿密市的38名警察被處理,其中1名開除、10名停發(fā)工資;各地還有33名基層警察也受到警告、剝奪駕駛權(quán)利等不同程度的處罰。 故事到這里,還沒有完。警務(wù)部門的整頓是否有效呢?2012年12月,克斯汀又向交通管理部門申請(qǐng)開放了最新的原始數(shù)據(jù)。她對(duì)新的數(shù)據(jù)又做了分析,并和2011年的同期數(shù)據(jù)進(jìn)行了對(duì)比。數(shù)據(jù)表明,從2012年2月到10月,警察超速的個(gè)案已經(jīng)從2011年同期的3179宗下降為495宗,下降幅度高達(dá)84%?怂雇∮衷凇短(yáng)哨兵報(bào)》上發(fā)表了一篇新報(bào)道—《警察猛踩剎車!》8。在這篇報(bào)道中,她甚至把數(shù)據(jù)分解到了各個(gè)警務(wù)部門,詳細(xì)地列出了每一個(gè)部門的改進(jìn)水平。 圖7–9哪些部門的警察還在開快車?(2012年2月至10月與2011年的同期對(duì)比) 《太陽(yáng)哨兵報(bào)》只是美國(guó)一個(gè)縣的地方報(bào)紙,總發(fā)行量不足23萬(wàn)份,但因?yàn)榭怂雇〉膱?bào)道,該報(bào)名聲大振,并于2013年4月獲得了2013年度的普利策新聞獎(jiǎng),其獲獎(jiǎng)理由是:“克斯汀的報(bào)道以無(wú)可辯駁的技術(shù)調(diào)查,記錄了警察在非公務(wù)期間開快車、危及市民生命的事實(shí),這種致命的威脅在報(bào)道引發(fā)的討論和整頓中得到消減。” 可以想象,如果不是通過使用數(shù)據(jù),如果沒有上百萬(wàn)條充沛的數(shù)據(jù)記錄以及成熟的數(shù)據(jù)分析手段,類似于“警察群體普遍開快車”的社會(huì)問題,人類可能永遠(yuǎn)都無(wú)法在法庭上得到證實(shí),這種知法犯法的特權(quán)行為,也永遠(yuǎn)得不到有效的治理和糾正。 通過計(jì)算來解決社會(huì)問題,正變得越來越普遍。2013年,美國(guó)肯塔基大學(xué)利用大數(shù)據(jù)平臺(tái),對(duì)學(xué)生的各種行為數(shù)據(jù)進(jìn)行整合,例如各門課程的成績(jī)、出勤率、在線學(xué)習(xí)平臺(tái)的活躍度、使用圖書館等各種設(shè)施的記錄,再通過數(shù)據(jù)挖掘,快速確認(rèn)可能存在問題的學(xué)生,對(duì)他們開展專門的輔導(dǎo),以減少學(xué)生流失。其實(shí),國(guó)內(nèi)也有類似的應(yīng)用。2013年7月,有報(bào)道稱,華東師范大學(xué)的一位女生收到校方的短信:“同學(xué)你好,發(fā)現(xiàn)你上個(gè)月餐飲消費(fèi)較少,不知是否有經(jīng)濟(jì)困難?”9這條溫暖的短信也要?dú)w功于數(shù)據(jù)挖掘:校方通過挖掘校園飯卡的消費(fèi)數(shù)據(jù),發(fā)現(xiàn)其每頓的餐費(fèi)都偏低,于是發(fā)出了關(guān)心的詢問,但隨后發(fā)現(xiàn)這是一個(gè)美麗的錯(cuò)誤——該女生其實(shí)是在減肥?梢韵胂,誤會(huì)之所以發(fā)生,還是因?yàn)閿?shù)據(jù)不夠大,大數(shù)據(jù)的特點(diǎn)除了“量大”,還有“多源”,如果除了飯卡,還有其他來源的數(shù)據(jù)作為輔助,判斷就可能更加準(zhǔn)確。 社會(huì)領(lǐng)域的計(jì)算,也被很多學(xué)者稱為“社會(huì)計(jì)算”(socialcomputing),這個(gè)概念的提出已經(jīng)有20多年的歷史。20世紀(jì)90年代,美國(guó)的學(xué)者最早提出這個(gè)概念之時(shí),是從“社會(huì)軟件”(socialsoftware)這個(gè)角度出發(fā)的,最早的社會(huì)軟件是指支持群體交流的軟件,如MSN(微軟網(wǎng)絡(luò)服務(wù))、QQ(騰訊公司的一款即時(shí)通信軟件)等。社會(huì)軟件也是相對(duì)于“商業(yè)軟件”的一個(gè)概念,兩種軟件的目的不同:傳統(tǒng)的信息系統(tǒng)降低的是商業(yè)交易的費(fèi)用,但社會(huì)軟件降低的主要是人際交往的成本,使大規(guī)模的合作成為可能。 2004年,社交媒體產(chǎn)生之后,社會(huì)軟件的功能被發(fā)揮得淋漓盡致,個(gè)人的行為和思想通過臉譜網(wǎng)、推特、微博等工具被廣泛記錄,有學(xué)者進(jìn)一步明確主張,將基于社交媒體的行為分析稱作“社會(huì)計(jì)算”。近年來,隨著大數(shù)據(jù)的崛起,越來越多的學(xué)者認(rèn)為,關(guān)于人和社會(huì)本身的數(shù)據(jù)現(xiàn)在已經(jīng)極為豐富,而且這類數(shù)據(jù)還在快速增長(zhǎng),未來一切的社會(huì)現(xiàn)象、社會(huì)過程和社會(huì)問題,都可以而且應(yīng)該通過以計(jì)算為特點(diǎn)的定量方法分析解決,這樣更加精確、更加科學(xué)。 雖然關(guān)于“社會(huì)計(jì)算”的定義正在演進(jìn)當(dāng)中,國(guó)際共識(shí)也還未形成,但這并不妨礙相關(guān)研究的開展。近年來,美國(guó)的國(guó)家人文研究基金會(huì)(NationalEndowmentfortheHumanities,NEH)甚至還大力鼓勵(lì)利用基于歷史的大數(shù)據(jù)來研究、解決社會(huì)問題。2012年,美國(guó)的喬治梅森大學(xué)聯(lián)合英國(guó)的兩所大學(xué),將英國(guó)倫敦市240年的罪犯庭審記錄輸入電腦,然后對(duì)這些數(shù)據(jù)加以分析和挖掘,以研究各種案件的發(fā)展趨勢(shì)、觸發(fā)原因以及和社會(huì)背景的關(guān)系。另外一個(gè)研究更有意思,1918年,美國(guó)曾經(jīng)發(fā)生一起大流感,死亡上百萬(wàn)人,歷史學(xué)家認(rèn)為,大部分死亡其實(shí)都可以避免,但問題究竟出在哪里呢?美國(guó)弗吉尼亞技術(shù)大學(xué)的一個(gè)課題組著手收集了當(dāng)年各個(gè)地區(qū)的死亡人數(shù),并將這個(gè)時(shí)期全國(guó)各地所有的新聞報(bào)道都電子化,他們?cè)噲D研究信息傳播的時(shí)序、路線和死亡人數(shù)的關(guān)系,例如,什么樣的報(bào)道方式、新聞措詞最有效,什么樣的傳播渠道最有可能減少死亡人數(shù)。 又如,文藝復(fù)興期間,歐洲的思想界群星璀璨,出現(xiàn)了一大批思想先驅(qū),但歷史研究的一個(gè)困難在于,某一特定新思想的首倡者往往難以確定。隨著新證據(jù)的出現(xiàn),早年歷史學(xué)家認(rèn)定的事實(shí),常常被發(fā)現(xiàn)是張冠李戴。美國(guó)大學(xué)的一個(gè)課題組提供了一個(gè)新的方法和思路:他們把文藝復(fù)興時(shí)期幾千封名人之間的通信電子化,然后進(jìn)行文本挖掘和分析,追蹤確定一個(gè)新思想、新概念的首倡者,同時(shí)研究這些新思想和新概念又是怎樣在人們的交流和互動(dòng)中發(fā)展成形的。 就此而言,通過社會(huì)計(jì)算,一些精細(xì)的、微妙的、在人類歷史上曾經(jīng)難以捕捉的關(guān)系和知識(shí),現(xiàn)在都可以捕捉到,并被上升為顯性知識(shí)。對(duì)此,麻省理工學(xué)院的教授布林約爾松(ErikBrynjolfsson)比喻說,大數(shù)據(jù)的影響,就像4個(gè)世紀(jì)之前人類發(fā)明的顯微鏡一樣:顯微鏡把人類對(duì)物理環(huán)境的觀察和測(cè)量水平推進(jìn)到了“細(xì)胞”的級(jí)別,為人類社會(huì)帶來了歷史性的進(jìn)步和革命,而大數(shù)據(jù),將成為我們下一個(gè)觀察人類自身行為以及社會(huì)行為的“顯微鏡”。 當(dāng)然,社會(huì)領(lǐng)域的計(jì)算、對(duì)類似知識(shí)和關(guān)系的捕捉,不僅能夠有效推動(dòng)社會(huì)治理,還能產(chǎn)生商業(yè)價(jià)值。 2012年6月歐洲杯足球賽期間,中國(guó)國(guó)內(nèi)出現(xiàn)了多篇《男人一看球,女人就網(wǎng)購(gòu)》的相關(guān)報(bào)道10。報(bào)道稱,根據(jù)淘寶網(wǎng)的銷售數(shù)據(jù),歐洲杯開賽以來,女性網(wǎng)購(gòu)的成交量明顯上升,而且“網(wǎng)購(gòu)的高峰期延時(shí)兩個(gè)小時(shí),變成了23點(diǎn)到24點(diǎn)”,此外,在“凌晨1點(diǎn)45分第一場(chǎng)球結(jié)束到凌晨2點(diǎn)45分第二場(chǎng)球開始前”,出現(xiàn)了一個(gè)新的網(wǎng)購(gòu)高峰,這個(gè)新的高峰和賽前的同時(shí)段相比,成交量“增長(zhǎng)超過260%”。 這個(gè)現(xiàn)象背后的邏輯不難理解。球賽期間,男性沉迷于球賽,冷落了妻子(女朋友)和孩子,女性,特別是已婚女性會(huì)覺得沮喪、惱火、失落。每天晚上球賽開始的時(shí)候,在個(gè)體層面,每位女性都有很多選擇,她可以做家務(wù)、輔導(dǎo)孩子、跟閨蜜聊天、和母親通電話以及逛街購(gòu)物,也就是說,其行為具有不確定性,她究竟會(huì)做什么,難以預(yù)測(cè)。但是,當(dāng)我們把幾個(gè)電子商務(wù)平臺(tái)的交易數(shù)據(jù)一匯總、一分析,就會(huì)發(fā)現(xiàn),群體的行為有規(guī)可循。隨著球賽的開始,女性在網(wǎng)上購(gòu)物的成交量就開始增加,其中的高檔物品也較平時(shí)明顯增多,也就是說,平時(shí)舍不得買的東西,這時(shí)候終于出手了。在小數(shù)據(jù)時(shí)代,“男人一看球,女人就網(wǎng)購(gòu)”永遠(yuǎn)是一個(gè)猜測(cè),無(wú)法得到證實(shí),但在大數(shù)據(jù)時(shí)代,很容易就能證實(shí),甚至連成交的商品有什么特點(diǎn),都可以進(jìn)行分析。等到明年球賽再開始的時(shí)候,商家的廣告就可以更有的放矢,不僅可以把廣告對(duì)象瞄得更準(zhǔn),推廣的商品也會(huì)更有針對(duì)性,猜測(cè)上升為知識(shí),知識(shí)將創(chuàng)造利潤(rùn)。 關(guān)于個(gè)人行為和社會(huì)狀態(tài)的數(shù)據(jù)已經(jīng)無(wú)處不在,這些數(shù)據(jù)是多源的、即時(shí)的、分散的、多形式的、碎片化的,同時(shí)又是海量的。高明的商家通過大數(shù)據(jù)的整合和挖掘,可以從這些海量的、零散的數(shù)據(jù)中找到規(guī)律,發(fā)現(xiàn)大眾行為背后的心理機(jī)制。這些心理機(jī)制,在個(gè)人層面,可能是隱性的需要、無(wú)意識(shí)的訴求或者無(wú)法言說的欲望,但通過整理大量的數(shù)據(jù),商家就可以理清大眾生活中這些無(wú)意識(shí)的原型,掌握消費(fèi)者背后真正的心理動(dòng)機(jī),從而提供創(chuàng)造性、突破性的產(chǎn)品和服務(wù),獲得更多的消費(fèi)者和更大的市場(chǎng)份額。事實(shí)上,這也正是大數(shù)據(jù)用于精準(zhǔn)營(yíng)銷的最高境界。為什么當(dāng)年沃爾瑪啤酒和尿布的故事能讓全世界津津樂道幾十年?原因就在于,即使是在購(gòu)買尿布時(shí)喜歡順便購(gòu)買啤酒來犒勞自己的年輕父親,可能也不清楚這個(gè)行為背后的心理動(dòng)機(jī),但沃爾瑪通過數(shù)據(jù),捕捉到了這個(gè)無(wú)意識(shí)的原型,并通過數(shù)據(jù)分析的驗(yàn)證,將其提升為知識(shí)。 普適計(jì)算:即將到來的超級(jí)數(shù)據(jù)爆炸 除了社會(huì)領(lǐng)域的計(jì)算正在興起,物理環(huán)境領(lǐng)域的計(jì)算也在面臨一場(chǎng)革命,其中的原因,就是上文中提到的普適計(jì)算。傳感器、可穿戴式設(shè)備等微小的計(jì)算設(shè)備將進(jìn)一步普及,裝備到全世界的各種物體之上,包括機(jī)器、電器、人體、動(dòng)物、植物等需要監(jiān)測(cè)的目標(biāo),真正形成“萬(wàn)物皆聯(lián)網(wǎng)、無(wú)處不計(jì)算”的狀態(tài)。 隨著這場(chǎng)革命的到來,人類的數(shù)據(jù)總量還要爆炸,這場(chǎng)爆炸將達(dá)到史無(wú)前例的規(guī)模。 其中,機(jī)器將是第一梯隊(duì)。人類在進(jìn)入機(jī)器大生產(chǎn)的時(shí)代之初,機(jī)器的效率在不斷提高,但到達(dá)一個(gè)臨界點(diǎn)之后,機(jī)器的效率就很難再優(yōu)化了。當(dāng)機(jī)器和機(jī)器相聯(lián)、形成一個(gè)系統(tǒng)的時(shí)候,其效率問題就顯得更為顯著,一臺(tái)機(jī)器的效率可能成為系統(tǒng)的瓶頸,一臺(tái)機(jī)器的故障可能導(dǎo)致整個(gè)系統(tǒng)癱瘓,系統(tǒng)的復(fù)雜性使工程師常常顧此失彼,難以優(yōu)化系統(tǒng)的效率。如果能通過傳感器監(jiān)測(cè)機(jī)器的運(yùn)行狀態(tài),通過計(jì)算確認(rèn)各類設(shè)備的良好程度,算準(zhǔn)時(shí)間進(jìn)行設(shè)備優(yōu)化和維修更新,就能控制生產(chǎn)過程中的不確定性,減少意外情況帶來的損失。 全球最大的工業(yè)制造商通用電氣將這種運(yùn)營(yíng)效率的提高總結(jié)為“1%現(xiàn)象”。該公司經(jīng)過估算指出,如果全世界的飛機(jī)引擎維護(hù)效率提升1%,每年全世界就可以節(jié)省2.5億美元;能源行業(yè)的發(fā)電設(shè)備每提高1%的效率,就可為全球經(jīng)濟(jì)貢獻(xiàn)40億美元;醫(yī)療器械的效率如果提升1%,則可以幫助全球醫(yī)療行業(yè)節(jié)約630億美元。也就是說,所有機(jī)器只要提高1%的效率,就能為全世界帶來非?捎^的收入。 目前,全世界現(xiàn)在大概有300萬(wàn)個(gè)重要的、巨大的、日夜運(yùn)行的機(jī)器,這些機(jī)器都在一定的溫度、濕度、壓力、振動(dòng)、旋轉(zhuǎn)狀態(tài)下工作,這些參數(shù)都是重要的監(jiān)測(cè)指標(biāo)。此外,全世界還有上百億臺(tái)帶有微處理器的機(jī)器或者電器,未來都可以裝上傳感器,全球人口共有60多億,當(dāng)社交媒體被發(fā)明的時(shí)候,每個(gè)網(wǎng)民都成了一個(gè)數(shù)據(jù)生成器,就已經(jīng)引起了一次數(shù)據(jù)大爆炸,而機(jī)器遠(yuǎn)比人多,而且日夜不停地旋轉(zhuǎn)、工作,可以想象,這次即將到來的數(shù)據(jù)爆炸,遠(yuǎn)非上次可比,將是超級(jí)大爆炸。 通用電氣公司為此發(fā)布了專門的研究報(bào)告、制訂了相應(yīng)的規(guī)劃,并且計(jì)劃在旗下大至飛機(jī)、小至激光手術(shù)刀等數(shù)萬(wàn)種產(chǎn)品上都安裝傳感器,通過網(wǎng)絡(luò)將設(shè)備運(yùn)行狀態(tài)數(shù)據(jù)實(shí)時(shí)傳至平臺(tái),并將該計(jì)劃稱為“工業(yè)互聯(lián)網(wǎng)”。2012年7月,通用電氣公司投資1.7億美元在紐約州斯克內(nèi)克塔迪市(Schenectdy)開設(shè)了一家電池工廠,1.6萬(wàn)平方米的廠房?jī)?nèi)安裝了1萬(wàn)個(gè)傳感器。這些傳感器分布在各條生產(chǎn)線上,監(jiān)控、記錄生產(chǎn)過程中的溫度、氣壓、濕度、生產(chǎn)配料、能源消耗等數(shù)據(jù),工廠的管理人員則通過隨身攜帶的iPad(蘋果平板電腦)獲取這些數(shù)據(jù),以便在第一時(shí)間發(fā)現(xiàn)問題,對(duì)生產(chǎn)進(jìn)行監(jiān)督和調(diào)整。 通過傳感器監(jiān)測(cè)生產(chǎn)過程,還只是通用電氣工業(yè)互聯(lián)網(wǎng)計(jì)劃的一部分,通用電氣的目標(biāo)是“讓每件產(chǎn)品產(chǎn)生記憶”:未來,產(chǎn)品在出廠前就被植入了傳感器,記錄了它的生產(chǎn)過程,在產(chǎn)品抵達(dá)顧客、進(jìn)入服務(wù)狀態(tài)之后,傳感器將每時(shí)每刻都記錄產(chǎn)品的運(yùn)行情況,一旦出現(xiàn)問題和故障,通用電氣可以快速地整合生產(chǎn)記錄、銷售記錄、產(chǎn)品運(yùn)行記錄這三種數(shù)據(jù)進(jìn)行分析。 除了通用電氣高調(diào)突進(jìn)的工業(yè)互聯(lián)網(wǎng),還有生活物聯(lián)網(wǎng),即生活電器入網(wǎng)。2014年1月,谷歌以32億美元的現(xiàn)金收購(gòu)了智能家居設(shè)備商N(yùn)est。業(yè)界紛紛認(rèn)為,生活物聯(lián)網(wǎng)的腳步越來越臨近,我們即將邁進(jìn)一個(gè)智能家居的時(shí)代:你坐在辦公室里,就可以調(diào)節(jié)家里電冰箱的溫度;你在下班的路上,就可以控制電飯煲的開關(guān),并關(guān)上窗戶、打開空調(diào)。 但智能家居的作用可能還遠(yuǎn)遠(yuǎn)不止自動(dòng)化這么簡(jiǎn)單。例如,大部分美國(guó)家庭都有自己的車庫(kù),每個(gè)車庫(kù)都有一個(gè)電動(dòng)卷簾門,電動(dòng)門利用一個(gè)小感應(yīng)器來監(jiān)測(cè)電動(dòng)門伸縮期間的震動(dòng)情況,F(xiàn)在有人提出來,北美大地上有幾百萬(wàn)個(gè)這樣的車庫(kù)門,傳感器都是現(xiàn)成的,如果把它們?nèi)窟B接到互聯(lián)網(wǎng)上,房主可以監(jiān)控自家的大門不說,美國(guó)大地上每平方米的面積上震動(dòng)一下,互聯(lián)網(wǎng)上都知道,這種網(wǎng)絡(luò)對(duì)地震監(jiān)測(cè)是不是有輔助作用?這啟發(fā)人們思考,機(jī)器、電器入網(wǎng)可能在功能上還會(huì)有外部性,起到意想不到的作用,因?yàn)槭澜绲娜f(wàn)事萬(wàn)物都是普遍聯(lián)系、高度相關(guān)的。 物理環(huán)境領(lǐng)域的計(jì)算的崛起將給全世界帶來巨大的機(jī)遇。新一代的機(jī)器是能夠記錄自己行為以及與其他機(jī)器的交換數(shù)據(jù)的智能機(jī)器,在機(jī)器“出生”的時(shí)候,傳感器就已經(jīng)和機(jī)器一體化了。面對(duì)機(jī)器產(chǎn)生的海量數(shù)據(jù),各行各業(yè)都需要制定很多數(shù)據(jù)標(biāo)準(zhǔn),使同一類別的機(jī)器、同一品牌的機(jī)器產(chǎn)生的數(shù)據(jù)能夠自由整合、對(duì)比和分析。我們還需要新的分析平臺(tái)和工具,同時(shí),因?yàn)樯a(chǎn)過程中機(jī)器工作過程中實(shí)時(shí)數(shù)據(jù)的獲得,我們需要制定新的生產(chǎn)流程和商業(yè)規(guī)范,以提高各種決策的效率,在這個(gè)過程中,全世界會(huì)需要一大批數(shù)字機(jī)械工程師、軟件工程師、數(shù)據(jù)科學(xué)家和人機(jī)交互界面專家。 此外,因?yàn)檫@種超級(jí)大爆炸,全世界的數(shù)據(jù)中心將大量增加,這將拉動(dòng)硬件產(chǎn)業(yè)的發(fā)展。通用電氣公司估計(jì),數(shù)據(jù)中心的需求將每?jī)赡攴槐丁?015年,對(duì)數(shù)據(jù)中心的投資將增長(zhǎng)到1000億美元;到2020年,數(shù)據(jù)中心的數(shù)量會(huì)增長(zhǎng)40倍;到2025年,這一數(shù)字將達(dá)到2000億美元。數(shù)據(jù)中心是耗電大戶,據(jù)統(tǒng)計(jì),美國(guó)所有數(shù)據(jù)中心每年的耗電量是整個(gè)紐約城居民用電量的兩倍。建設(shè)清潔、高效、具有彈性的數(shù)據(jù)中心將是未來的一個(gè)重大挑戰(zhàn)。此外,數(shù)據(jù)中心的增加還將推動(dòng)寬帶網(wǎng)、光纖網(wǎng)的建設(shè),使各種數(shù)據(jù)中心能夠跨地區(qū)、跨產(chǎn)業(yè)相聯(lián)。 數(shù)據(jù)和計(jì)算:第三次工業(yè)革命的CPU 2012年以來,第三次工業(yè)革命、新工業(yè)革命、數(shù)字工業(yè)革命等各種工業(yè)革命論的提法頻頻在全球激起討論、見諸報(bào)端,雖然這些提法各異,但其中心思想是一致的,即全球的制造業(yè)正在面臨一場(chǎng)挑戰(zhàn)和變革,未來的工業(yè)制造將呈現(xiàn)數(shù)字化、智能化、定制化、互聯(lián)化以及綠色化等特點(diǎn)。而且,無(wú)論哪種提法,都離不開對(duì)3D打印機(jī)的關(guān)注和討論。學(xué)界的共識(shí)是,3D打印已經(jīng)成為第三次工業(yè)革命當(dāng)中最活躍的因素之一,它將終結(jié)人類大規(guī)模工業(yè)生產(chǎn)的歷史,引發(fā)商業(yè)組織和管理形態(tài)的重大變革。 前文我們談到物理環(huán)境領(lǐng)域的計(jì)算即將爆炸,討論了工業(yè)互聯(lián)網(wǎng)如何引導(dǎo)未來的工業(yè)制造進(jìn)入一個(gè)智能化、互聯(lián)化的時(shí)代,而3D打印將實(shí)現(xiàn)的是生產(chǎn)制造過程的數(shù)字化和定制化。隨著下文討論的展開,我們將看到,3D打印對(duì)未來設(shè)計(jì)、生產(chǎn)、流通和消費(fèi)等各個(gè)環(huán)節(jié)產(chǎn)生的影響,離不開數(shù)據(jù)的驅(qū)動(dòng)和協(xié)同。也就是說,第三次工業(yè)革命離不開數(shù)據(jù)! 3D打印是一種加式制造 3D打印是一種以數(shù)字文件為基礎(chǔ),運(yùn)用粉末狀金屬或塑料等可黏合材料,通過逐層打印的方式來構(gòu)造物體的技術(shù)。傳統(tǒng)的制造方式是“減式制造”,即通過模具,利用機(jī)器外力對(duì)原始材料進(jìn)行“壓、切、割、沖”等機(jī)械加工,將原材料轉(zhuǎn)化成產(chǎn)品,在這個(gè)過程中,原材料縮減了,因此叫作減式制造。而3D打印是通過逐層疊加、不斷增加材料的方式,一次性完成生產(chǎn)過程,所以被稱為“加式制造”。 首先,3D打印是以“數(shù)據(jù)包”為基礎(chǔ)的生產(chǎn),只要這個(gè)數(shù)據(jù)包在打印機(jī)上運(yùn)行,并且具備打印的原材料,生產(chǎn)就可以完成。2013年5月,美國(guó)有人把制造槍支各種零部件的數(shù)據(jù)包上傳到了互聯(lián)網(wǎng)上,在美國(guó)政府做出反應(yīng)、發(fā)布禁令之前,該數(shù)據(jù)包被下載了數(shù)十萬(wàn)次,民間就有人利用這些數(shù)據(jù)包打印出了可以發(fā)射子彈的塑料手槍。半年后,美國(guó)的科技工程公司SolidConcepts公司又用3D打印機(jī)打印了一支真正的金屬手槍,并試射了幾十發(fā)子彈。除槍支這種高危管控物品外,近一兩年以來,在世界各國(guó)科學(xué)家的努力下,可以打印的物品種類迅速增多,大到飛機(jī)的零部件、房子的建筑材料,小到下顎骨、心臟瓣膜、電路板等,不斷刷新人們的想象力?梢钥隙,隨著數(shù)字化生產(chǎn)的擴(kuò)大,未來任何可見的物理實(shí)體的背后都會(huì)有一個(gè)數(shù)據(jù)包與其對(duì)應(yīng)存在。從這個(gè)意義上來看,3D打印為大數(shù)據(jù)時(shí)代貢獻(xiàn)了一種新的數(shù)據(jù)種類:物理實(shí)體數(shù)據(jù)。 圖7–10數(shù)字工業(yè)革命將豐富大數(shù)據(jù)時(shí)代的數(shù)據(jù)類型 除了可以打印的物品越來越多,更重要的改變是,由于摩爾定律的持續(xù)作用,3D打印機(jī)的價(jià)格也在不斷下降。目前,不少3D打印機(jī)只需要一兩千美元,可以預(yù)計(jì),就像其他曾經(jīng)“高大上”的硬件設(shè)備一樣,3D打印機(jī)也將快速走進(jìn)普通家庭。 3D打印機(jī)的普及對(duì)人類的意義非同小可。在全面暢想其對(duì)未來社會(huì)帶來的沖擊和改變之前,我們還必須了解一個(gè)重要的概念:眾包。 “眾包”是美國(guó)的兩位記者在2005年發(fā)明的新詞,意思是利用互聯(lián)網(wǎng)將工作打包分配出去,其關(guān)鍵在于,分包時(shí)并不知道接包人是誰(shuí),這正是“眾包”區(qū)別于“外包”的地方。更有意思的是,接包人的目的可能并不是為了報(bào)酬,而是為了公益、興趣,或者尋求一種幫助他人的滿足感,甚至在一些情況下,連接包人自己也沒意識(shí)到,就在不知不覺中幫助發(fā)包人把任務(wù)完成了。 眾包最經(jīng)典的例子是維基百科。這個(gè)人類社會(huì)最大的知識(shí)分享網(wǎng)站、最重要的“百科全書”成立于2001年,目前僅僅英文詞條就有近450萬(wàn)個(gè),全部由志愿者完成。2011年3月11日下午2點(diǎn)46分,日本發(fā)生了有觀測(cè)記錄以來規(guī)模最大的地震,其后引發(fā)了大海嘯,導(dǎo)致了核泄漏和火災(zāi),日本東北部分地區(qū)因此遭受到毀滅性的破壞。地震發(fā)生后的半小時(shí)不到,3點(diǎn)18分,維基百科上就建立了相應(yīng)的詞條“2011Tōh(huán)okuearthquakeandtsunami”(2011年日本東北地區(qū)近海地震),這之后,該英文詞條經(jīng)過了全世界2122人共計(jì)6781次的修改和完善,如今已經(jīng)形成了一個(gè)圖文并茂、帶有352條引用、兩萬(wàn)多字、非常復(fù)雜和完善的詞條,在英文詞條的基礎(chǔ)上,還衍生出近80種不同語(yǔ)言的翻譯和補(bǔ)充11。 圖7–11“2011年日本東北地區(qū)近海地震”英文詞條的變化 注:左上為該詞條在2011年3月11日日本時(shí)間下午3點(diǎn)18分建立時(shí)的歷史記錄,只有短短一句話;右下為該詞條在2014年2月的截屏,詞條已經(jīng)分為十幾個(gè)部分,有兩萬(wàn)多字的介紹。(圖片來源:網(wǎng)絡(luò)截屏) 對(duì)于眾包當(dāng)中蘊(yùn)藏的巨大社會(huì)能量,我也有親身體會(huì)。2012年的一個(gè)下午,我決定為華人歷史學(xué)家許倬云先生在維基百科建立一個(gè)英文詞條。為了證明資料的真實(shí)性,維基百科規(guī)定新建的詞條必須至少有三個(gè)引用。詞條建好之后,系統(tǒng)提示我還缺一個(gè)引用,我于是回頭去找資料。僅僅一分鐘之后,我一刷屏,發(fā)現(xiàn)第三個(gè)引用竟然已經(jīng)被人加上了!我的心頭如過電般涌起一股驚訝和欣喜之情:在世界的另一個(gè)角落,竟有人在協(xié)同我的工作!短短幾十秒的時(shí)間,在這個(gè)廣袤的大千世界,就有人看到了我在互聯(lián)網(wǎng)上搭建的這個(gè)新頁(yè)面,而且,他和我一樣關(guān)心許先生的詞條,并且?guī)椭已a(bǔ)充了最后需要的一個(gè)引用。 除了基于興趣和公益的志愿貢獻(xiàn),眾包也已經(jīng)成為一種可以創(chuàng)造價(jià)值和利潤(rùn)的商業(yè)模式,驗(yàn)證碼(CAPTCHA)的應(yīng)用就是另外一個(gè)經(jīng)典例子。2002年,卡內(nèi)基梅隆大學(xué)的博士生路易斯(LuisvonAhn)發(fā)明了我們熟悉的驗(yàn)證碼,即用一排人為扭曲、奇形怪狀的字符來判斷當(dāng)下程序的使用者是“人”還是“機(jī)器”。因?yàn)闄C(jī)器無(wú)法自動(dòng)識(shí)別這些變形的字符,所以驗(yàn)證碼可以用來防止互聯(lián)網(wǎng)上廣泛存在的惡意機(jī)器注冊(cè)。恰恰在這個(gè)時(shí)候,《紐約時(shí)報(bào)》正面臨一個(gè)令人頭痛的任務(wù):他們?cè)噲D把100多年的歷史報(bào)紙全部電子化,當(dāng)時(shí)最可行的方法就是通過掃描進(jìn)行光學(xué)字符識(shí)別(OCR),但因?yàn)榕f報(bào)紙上油墨的痕跡、折疊的印記和發(fā)黃變色,加上幾十年前的字體與現(xiàn)在的也不一樣,因此識(shí)別率很低。當(dāng)然,還有一個(gè)最笨的方法就是逐字敲打,再找人校對(duì),但這樣不僅速度慢,效果也不好。這時(shí)候,路易斯想到了一個(gè)天才的辦法:全世界每一天都有幾億個(gè)驗(yàn)證碼在被校驗(yàn),他把《紐約時(shí)報(bào)》的文章切成小片,把它當(dāng)作驗(yàn)證碼發(fā)給全世界的人,這些人在使用驗(yàn)證碼的時(shí)候,在不知不覺中就幫助《紐約時(shí)報(bào)》完成了輸入和校對(duì)。對(duì)于難以識(shí)別的字符,系統(tǒng)可以發(fā)給多個(gè)校驗(yàn)者,當(dāng)幾個(gè)人返回的結(jié)果一致的時(shí)候,就說明識(shí)別的結(jié)果是正確的,然后再把這個(gè)結(jié)果返回系統(tǒng)進(jìn)行整合。2007年,路易斯成立了驗(yàn)證碼公司reCAPTCHA,該公司利用這個(gè)辦法把《紐約時(shí)報(bào)》幾十年的報(bào)紙都電子化了。2009年,該公司被谷歌收購(gòu)。 類似的例子還有很多,例如Airbnb網(wǎng)站,通過它,個(gè)人可以將多余的房間臨時(shí)出租給旅游者;又如將翻譯任務(wù)打包發(fā)給其他國(guó)家的外語(yǔ)學(xué)習(xí)者作為練習(xí)素材,以較低的成本,甚至免費(fèi)的形式就可以完成大量翻譯;再如中國(guó)的知乎、大眾點(diǎn)評(píng)網(wǎng)等問答型網(wǎng)站,都成功地應(yīng)用了眾包這種商務(wù)模式。說到底,眾包是通過互聯(lián)網(wǎng),在全球范圍內(nèi)利用、整合分散的、閑置的、廉價(jià)的勞動(dòng)力、技能和興趣等資源,為軟件業(yè)和服務(wù)業(yè)提供一種新的勞動(dòng)力組織方式。 隨著3D打印機(jī)的普及,眾包這種新的商業(yè)模式,將從服務(wù)業(yè)進(jìn)入制造業(yè),改變整個(gè)社會(huì)的生產(chǎn)制造方式。 今天的制造是以大規(guī)模的減式制造為基礎(chǔ)的,對(duì)每種產(chǎn)品而言,制造商只能就若干款式,對(duì)流水線進(jìn)行定制,然后進(jìn)行大規(guī)模生產(chǎn)。例如,今年的女式高跟鞋可能流行立體的鞋面花飾,制造商在市場(chǎng)調(diào)研的基礎(chǔ)上,認(rèn)為牡丹花和山茶花的花形可能最受歡迎,于是就生產(chǎn)這兩種花形的鞋子,而玫瑰花、百合花、菊花等其他花形,因?yàn)槭袌?chǎng)需求過小,生產(chǎn)商限于成本,就無(wú)法生產(chǎn)。 事實(shí)上,一雙鞋子的樣式可以千變?nèi)f化。類似于立體花形的改變還有很多,例如鞋跟的形狀、鞋面的花紋、紋理的線形等。每個(gè)顧客都可能有不同的喜好和需求,這些需求之間可能就是一個(gè)微小的區(qū)別,所以需求的種類雖多,但每一種需求的消費(fèi)者群體都不大。也正因如此,制造商如果投產(chǎn),將無(wú)利可圖。這部分需求被形象地稱為長(zhǎng)尾需求,對(duì)于長(zhǎng)尾需求,制造商無(wú)法一一滿足,即傳統(tǒng)制造業(yè)無(wú)法滿足所有消費(fèi)者的要求。 圖7–12傳統(tǒng)的制造商無(wú)法滿足市場(chǎng)上的長(zhǎng)尾需求 注:此圖為消費(fèi)市場(chǎng)上的長(zhǎng)尾現(xiàn)象,在短頭區(qū),代表著為數(shù)不多的大規(guī)模需求;在長(zhǎng)尾區(qū),有很多不同的需求,但每種需求的消費(fèi)者群體都不多,如果投產(chǎn),制造商將無(wú)法獲得利潤(rùn)。 但以數(shù)據(jù)包為基礎(chǔ)的3D打印將有能力解決這個(gè)難題。數(shù)字化制造不需要在流水線上定制,只需要找到數(shù)據(jù)包,對(duì)其中的代碼和數(shù)據(jù)進(jìn)行修改,一個(gè)花形、線形的區(qū)別,可能只是幾個(gè)參數(shù)值的大小不同,在對(duì)它們做出修改和調(diào)整之后,在3D打印機(jī)上再運(yùn)行一次,一款新的鞋子就生產(chǎn)出來了。 圖7–13個(gè)性化的需求可以通過修改數(shù)據(jù)包來實(shí)現(xiàn) 3D打印技術(shù)為滿足消費(fèi)者個(gè)性化的長(zhǎng)尾需求提供了契機(jī),將開啟一個(gè)制造業(yè)的新時(shí)代。在這個(gè)新時(shí)代,因?yàn)?D打印機(jī)正在走進(jìn)家庭,生產(chǎn)活動(dòng)可能在工廠之外的地方進(jìn)行。更復(fù)雜的情況是,每款3D打印機(jī)的打印范圍可能不同,你的能打印鞋子、我的能打印杯子、他的能打印玩具……為了找到合適的3D打印機(jī),必須進(jìn)行搜索。 不妨假設(shè)一位女性消費(fèi)者心儀的高跟鞋是這個(gè)樣子:玫瑰花的立體花形;5.5厘米的高跟,后跟為圓形,圓形面積為0.8平方厘米;鞋面有細(xì)條紋,條紋間隔為1.5厘米……其要求可能無(wú)比細(xì)致且千奇百怪,傳統(tǒng)制造業(yè)絕對(duì)無(wú)法實(shí)現(xiàn),但在3D打印時(shí)代,“想法即產(chǎn)品”,一個(gè)完整的設(shè)計(jì)、生產(chǎn)、消費(fèi)流程在很短的時(shí)間內(nèi)就能完成:首先上網(wǎng)搜索類似產(chǎn)品的數(shù)據(jù)包,或者搜索懂得修改這個(gè)數(shù)據(jù)包的設(shè)計(jì)師,再委托他按照新的要求進(jìn)行修改,一個(gè)有經(jīng)驗(yàn)的設(shè)計(jì)師可能在幾分鐘之內(nèi)就能夠完成修改;這之后,進(jìn)入生產(chǎn)環(huán)節(jié),消費(fèi)者要尋找愿意給她提供打印服務(wù)的3D打印機(jī),這又需要搜索,當(dāng)然,她最后可能就在自己居住的小區(qū)附近找到了合適的打印機(jī),雙方達(dá)成協(xié)議之后,就可以委托生產(chǎn)。 這個(gè)搜索的過程,就是計(jì)算。我們前面談到過,搜索就是一種計(jì)算,而且是一種典型的基于大數(shù)據(jù)的計(jì)算。在這里,通過搜索,社會(huì)需求和生產(chǎn)資料將實(shí)現(xiàn)動(dòng)態(tài)的、實(shí)時(shí)的、最經(jīng)濟(jì)的對(duì)接;搜索完成之后,委托、授權(quán)對(duì)方進(jìn)行設(shè)計(jì)、生產(chǎn)的過程就是眾包。 當(dāng)然,未來可能出現(xiàn)一個(gè)互聯(lián)網(wǎng)平臺(tái),擁有3D打印機(jī)的生產(chǎn)方也可以在這個(gè)平臺(tái)上通過搜索主動(dòng)尋找其潛在客戶,提前感知并且響應(yīng)用戶的個(gè)性化需求。這個(gè)平臺(tái)將不僅僅是現(xiàn)在的“電商”平臺(tái),還將是“互聯(lián)網(wǎng)制造”的平臺(tái)!生產(chǎn)方和消費(fèi)方在平臺(tái)上通過搜索對(duì)接,完成整個(gè)設(shè)計(jì)、生產(chǎn)和消費(fèi)流程。也就是說,通過搜索和計(jì)算,全社會(huì)的生產(chǎn)需求和社會(huì)資源將在最短的時(shí)間內(nèi),以最經(jīng)濟(jì)的方式實(shí)現(xiàn)對(duì)接,數(shù)據(jù)和計(jì)算,將是未來生產(chǎn)制造的CPU(中央處理器)! 2012年,中國(guó)科學(xué)院的研究員王飛躍先生率隊(duì)考察了美國(guó)的加式制造產(chǎn)業(yè)。他認(rèn)為,這場(chǎng)新的產(chǎn)業(yè)革命已經(jīng)觸手可及,未來的新型制造模式可以稱為“社會(huì)制造”。所謂社會(huì)制造,“就是利用3D打印、網(wǎng)絡(luò)技術(shù)和社會(huì)媒體,通過眾包等方式讓社會(huì)民眾充分參與產(chǎn)品的全生命制造過程,實(shí)現(xiàn)個(gè)性化、實(shí)時(shí)化、經(jīng)濟(jì)化的生產(chǎn)和消費(fèi)模式。在社會(huì)制造的環(huán)境中,大批3D打印機(jī)形成制造網(wǎng)絡(luò),并與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和物流網(wǎng)無(wú)縫連接,形成復(fù)雜的社會(huì)制造網(wǎng)絡(luò)系統(tǒng),實(shí)時(shí)地滿足人們的各種需求”。12 圖7–14大數(shù)據(jù):社會(huì)制造的CPU 對(duì)于社會(huì)制造這種新的生產(chǎn)模式,雖然還有諸多細(xì)節(jié)有待想象和商榷,但可以肯定的是,人類社會(huì)對(duì)個(gè)性化產(chǎn)品的需求,猶如隱藏在海底的冰山,非常巨大,只不過受制于上百年傳統(tǒng)減式制造的局限,它一直被靜靜地抑在海水之下。隨著3D打印機(jī)的普及,個(gè)性化消費(fèi)的需求將會(huì)大規(guī)模爆發(fā)。未來的任何一件產(chǎn)品,在傳統(tǒng)減式制造和現(xiàn)代加式制造之間,都可能存在一個(gè)“平衡點(diǎn)”,對(duì)生產(chǎn)的規(guī)劃,就是要通過計(jì)算找到這個(gè)平衡點(diǎn),即確定哪些款式仍然是大規(guī)模的短頭需求,哪些需求是長(zhǎng)尾需求。前者因?yàn)榱看螅诠S的流水線上生產(chǎn)仍然可以獲得大規(guī)模的經(jīng)濟(jì)效應(yīng);而后者無(wú)法形成規(guī)模效應(yīng),必須留給社會(huì)上的3D打印機(jī)去生產(chǎn)制造。每種產(chǎn)品的平衡點(diǎn)當(dāng)然都各不相同,而且隨著制造能力的變遷,這個(gè)點(diǎn)還會(huì)移動(dòng)。 圖7–15未來的生產(chǎn)制造:首先通過計(jì)算,確定兩種制造模式之間的平衡點(diǎn) 美國(guó)政府對(duì)3D打印、社會(huì)制造非常重視。2011年以來,美國(guó)總統(tǒng)科技顧問委員會(huì)(PCAST)連續(xù)發(fā)布兩份報(bào)告13,向總統(tǒng)和國(guó)會(huì)提出建議,必須確保美國(guó)在這場(chǎng)制造業(yè)革命當(dāng)中的領(lǐng)導(dǎo)地位。在最近兩年的國(guó)情咨文中,奧巴馬都專門提出要把3D打印作為創(chuàng)新重點(diǎn),強(qiáng)調(diào)通過這種社會(huì)化的制造,使制造業(yè)回歸美國(guó)。奧巴馬還在2012年前后相繼成立了白宮高級(jí)制造辦公室(OMP)、高級(jí)制造聯(lián)合委員會(huì)(AMP),并批準(zhǔn)投資10億美元,在全國(guó)成立15個(gè)加式制造創(chuàng)新中心。截至2013年年底,已經(jīng)投建了5個(gè)。2013年7月,奧巴馬又要求國(guó)會(huì)追加撥款,將建設(shè)15個(gè)加式制造創(chuàng)新中心的計(jì)劃擴(kuò)大到45個(gè)。 數(shù)據(jù)之巔:通向智能型社會(huì)的挑戰(zhàn) 2012年8月,谷歌宣布,其旗下十多輛無(wú)人駕駛汽車已經(jīng)完成了50多萬(wàn)公里的安全行車測(cè)試。在整個(gè)過程中,車隊(duì)只發(fā)生過兩起輕微的交通事故,事后的判定還證明,責(zé)任并不在無(wú)人駕駛汽車。 無(wú)人駕駛,是指汽車自動(dòng)行駛、完全不需要人的干預(yù),其本質(zhì)是把駕駛的任務(wù)“外包”給算法。一個(gè)好的算法固然重要,但對(duì)谷歌無(wú)人駕駛汽車而言,其價(jià)值最為昂貴的部分卻不是算法,而是其全身上下裝備的激光雷達(dá)、攝像頭、紅外相機(jī)、GPS(全球定位系統(tǒng))和一系列傳感器等感應(yīng)設(shè)備,僅僅激光雷達(dá)一項(xiàng)就7萬(wàn)美元,約占其全部裝備價(jià)值的一半。正是通過這些感應(yīng)設(shè)備,無(wú)人駕駛汽車不斷地收集路面的情況、汽車的地理位置、前后車輛精確的相對(duì)距離、車流的移動(dòng)速度、道路兩旁出現(xiàn)的交通標(biāo)識(shí)和前方的交通信號(hào)等數(shù)據(jù)。 可以想象,這些實(shí)時(shí)收集的數(shù)據(jù)就相當(dāng)于人類的眼睛,對(duì)無(wú)人駕駛汽車非常重要,但這還遠(yuǎn)遠(yuǎn)不夠。在汽車上路之前,谷歌必須派出大量工程師親自駕車在所有的道路上行駛,以收集各個(gè)路段的物理特點(diǎn)數(shù)據(jù),然后把這些數(shù)據(jù)添加到一個(gè)高度詳盡的立體地圖上。當(dāng)無(wú)人駕駛汽車在路上行駛時(shí),它通過從傳感器和攝像頭上收集來的數(shù)據(jù),首先與系統(tǒng)已有的數(shù)據(jù)進(jìn)行對(duì)比和分析,以快速識(shí)別自己的方位和環(huán)境。這種對(duì)比分析,每秒鐘進(jìn)行上百萬(wàn)次。根據(jù)這些分析結(jié)果,算法在極短的時(shí)間內(nèi),判斷是應(yīng)該減速、加速、換道還是拐彎。例如,系統(tǒng)在對(duì)兩種數(shù)據(jù)進(jìn)行對(duì)比之后,會(huì)提示汽車前方一公里處有一個(gè)交通燈,準(zhǔn)備識(shí)別信號(hào)的顏色;如果沒有這種提示,臨近現(xiàn)場(chǎng)時(shí)才開始識(shí)別,難度就會(huì)大大增加。又如,通過和原來收集的數(shù)據(jù)對(duì)比,無(wú)人駕駛汽車才能識(shí)別路邊的物體是原來就有的路燈桿還是其他障礙物,或者是正在移動(dòng)的行人。 可見,無(wú)人駕駛汽車完全是個(gè)大數(shù)據(jù)項(xiàng)目,而且其成功的關(guān)鍵,首先在于數(shù)據(jù)的收集,就此而言,谷歌也還不是完全的勝者,無(wú)人駕駛汽車目前最大的技術(shù)瓶頸還是數(shù)據(jù)。例如,道路、地形等原始數(shù)據(jù)的收集工作可能是在天氣良好的情況下進(jìn)行的,如果天降大雨或者路面被積雪覆蓋,整個(gè)世界的面貌發(fā)生了改變,和原來收集的數(shù)據(jù)進(jìn)行對(duì)比可能就不管用了,無(wú)人駕駛汽車就無(wú)法精確地確定方位,大數(shù)據(jù)的自動(dòng)導(dǎo)航也就宣告失敗。而且,沒有事先收集數(shù)據(jù)的地方,無(wú)人駕駛汽車根本就不能去。例如,中、印、韓等國(guó)不允許谷歌在自己國(guó)家為其地圖收集數(shù)據(jù),這也就意味著,谷歌的無(wú)人駕駛汽車未來根本不可能進(jìn)入這些國(guó)家,因?yàn)闆]有數(shù)據(jù)! 全世界的汽車巨頭,如通用、豐田、奧迪、福特都在加大對(duì)無(wú)人駕駛汽車的研發(fā)和測(cè)試,各大汽車公司都同意,其中最重要的任務(wù),就是大數(shù)據(jù)的采集。為了解決這個(gè)問題,歐洲的汽車巨頭沃爾沃甚至提出了一個(gè)“公路列車”的新理論:公路上的車隊(duì)猶如一輛輛汽車組成的一列火車,火車只需要車頭的正確帶領(lǐng),整個(gè)車廂就都可以前進(jìn),如果公路上的汽車也有個(gè)“頭車”,大部分車輛就能跟著走。換句話說,大數(shù)據(jù)的實(shí)時(shí)分析和處理只需要頭車做好就行了,其他車可以跟著頭車走,這意味著,未來的無(wú)人駕駛汽車并不是輛輛都要具備大數(shù)據(jù)的實(shí)時(shí)導(dǎo)航處理功能,只要能在公路上找到頭車就行。按照這種設(shè)計(jì)思想,2012年5月,沃爾沃組織了一個(gè)5輛車的車隊(duì),只有頭車有人駕駛,這5輛車在西班牙巴塞羅那的公路上順利完成了200公里的測(cè)試。2013年12月,沃爾沃公司宣布,它們已經(jīng)取得了瑞典國(guó)家交通管理部門的同意,將于2017年在瑞典的第二大城市哥德堡投放100輛無(wú)人駕駛汽車,由普通的市民自由陪駕測(cè)試。 無(wú)人駕駛汽車將引起一系列社會(huì)變化 無(wú)人駕駛汽車對(duì)人類社會(huì)將要產(chǎn)生的影響,并不僅僅局限于汽車行業(yè)。隨著人類從駕駛中解放出來,未來的汽車不僅是個(gè)交通工具,還是個(gè)移動(dòng)的娛樂中心、工作間和休息室。因?yàn)槭怯绍浖刂疲瑳]有人駕駛,無(wú)人駕駛汽車將減少一批傳統(tǒng)汽車必須裝備的操控設(shè)備,例如油門踏板、剎車踏板和方向盤,這意味著車重減輕、耗油量下降,將為全世界節(jié)省不少能源。此外,研究表明,90%的交通事故都是人為原因造成的,例如情緒不佳、酒后駕車、疲勞駕駛等,但把駕駛的任務(wù)交給算法,算法沒有情緒,也永遠(yuǎn)不會(huì)疲勞,據(jù)保守估計(jì),人為原因?qū)е碌慕煌ㄊ鹿蕦⑾陆?0%,這不僅能夠減少社會(huì)損失、提高人類的生命安全,也將重構(gòu)未來的保險(xiǎn)行業(yè)。 谷歌和沃爾沃的努力,無(wú)疑將推動(dòng)無(wú)人駕駛汽車的市場(chǎng)化,至于何時(shí)才能市場(chǎng)化,這也是全世界都在討論的話題。汽車是工業(yè)時(shí)代興起的標(biāo)志,大數(shù)據(jù)是信息時(shí)代半個(gè)多世紀(jì)結(jié)出的碩果,通過無(wú)人駕駛汽車,兩者正在融合對(duì)接。這種融合對(duì)接標(biāo)志著人類正在進(jìn)入一個(gè)全新的時(shí)代:智能化時(shí)代。 而且,和谷歌無(wú)人駕駛汽車一樣,這個(gè)智能時(shí)代也是由數(shù)據(jù)驅(qū)動(dòng)的。 這是因?yàn),無(wú)論是信息、知識(shí),還是機(jī)器智能,在大數(shù)據(jù)時(shí)代,都是以數(shù)據(jù)為載體存在的。數(shù)據(jù)是對(duì)客觀世界的記錄,當(dāng)我們賦予數(shù)據(jù)背景時(shí),它就成為信息;信息是知識(shí)的來源,當(dāng)把信息提煉出規(guī)律的時(shí)候,它就上升為知識(shí);知識(shí)是智能的基礎(chǔ),當(dāng)電腦、網(wǎng)絡(luò)、機(jī)器能夠利用某種知識(shí)進(jìn)行自動(dòng)判別并采取行動(dòng)為人類服務(wù)的時(shí)候,機(jī)器智能就產(chǎn)生了。 大數(shù)據(jù)的出現(xiàn),是人類大量記錄世界的結(jié)果。大數(shù)據(jù)可以推進(jìn)科學(xué)研究、改善社會(huì)治理、提高企業(yè)的運(yùn)營(yíng)效率和贏利能力,但歸根結(jié)底,相比于小數(shù)據(jù),大數(shù)據(jù)新的效用可以概括為兩個(gè)方面:一是通過大規(guī)模的數(shù)據(jù)整合和挖掘,發(fā)現(xiàn)新知識(shí),實(shí)現(xiàn)“1+1>2”的數(shù)據(jù)增值效果;二是通過大量的數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí),實(shí)現(xiàn)自動(dòng)化,這相當(dāng)于賦予機(jī)器智能,使機(jī)器自動(dòng)完成曾經(jīng)種種必須由人類親力親為的工作,推動(dòng)人類向智能型社會(huì)邁進(jìn),而這堪稱人類使用數(shù)據(jù)的巔峰狀態(tài)。 圖7–16數(shù)據(jù)之巔:用數(shù)據(jù)訓(xùn)練機(jī)器,使機(jī)器獲得智能,為人類提供自動(dòng)化的服務(wù) 類似于無(wú)人駕駛汽車,由大數(shù)據(jù)驅(qū)動(dòng)的智能化的例子正在大量涌現(xiàn)。 也是在2012年,一種新型的智能學(xué)習(xí)平臺(tái)在美國(guó)興起,成為高科技領(lǐng)域創(chuàng)新和投資的重點(diǎn),其中不少公司已經(jīng)獲得了初步成功。這種智能平臺(tái)可以實(shí)現(xiàn)全球幾十萬(wàn)人同步學(xué)習(xí),在同一時(shí)間聽取同一位老師授課,做同樣的作業(yè)、接受同樣的評(píng)分標(biāo)準(zhǔn)和考試。這意味著你即使身處非洲,也能和哈佛大學(xué)的學(xué)生一起學(xué)習(xí)、聽哈佛的教授講課。更關(guān)鍵的是,這是一個(gè)智能平臺(tái),可以對(duì)學(xué)習(xí)者的學(xué)習(xí)行為進(jìn)行自動(dòng)提示、引導(dǎo)和評(píng)價(jià),從而彌補(bǔ)沒有老師面對(duì)面交流指導(dǎo)的不足。 和谷歌汽車一樣,平臺(tái)的智能來自于大量數(shù)據(jù)。單個(gè)個(gè)體學(xué)習(xí)行為的數(shù)據(jù)似乎是雜亂無(wú)章的,但當(dāng)數(shù)據(jù)累積到一定程度時(shí),群體行為就會(huì)在數(shù)據(jù)上呈現(xiàn)一種秩序和規(guī)律。通過收集、分析大量數(shù)據(jù),就能總結(jié)出這種秩序和規(guī)律,然后把這種規(guī)律變成不同的算法,和新的學(xué)習(xí)者的學(xué)習(xí)行為進(jìn)行對(duì)比,為他們達(dá)成最佳的學(xué)習(xí)效果進(jìn)行提示和導(dǎo)航,每個(gè)學(xué)習(xí)者都可能得到個(gè)性化、有針對(duì)性的輔導(dǎo)。 可見,數(shù)據(jù)還是關(guān)鍵。為了收集更多的數(shù)據(jù),各個(gè)公司、大學(xué)的在線學(xué)習(xí)平臺(tái)幾乎都向全世界免費(fèi)開放。有更多的學(xué)習(xí)者,才能收集更多的數(shù)據(jù);有了數(shù)據(jù),它們才能研究世界各國(guó)男女老少等不同學(xué)習(xí)者的行為模式,進(jìn)而打造更好的智能學(xué)習(xí)算法。 就此而言,大數(shù)據(jù)就是大智能。數(shù)據(jù)好比人類的新土壤,正是依托這片土壤,智能型的文明才得以滋生繁衍,土壤越廣袤,其孕育的新文明才更有生機(jī)和活力。 對(duì)于數(shù)據(jù)的重要性,谷歌的首席科學(xué)家諾維格(PeterNorvig)曾感嘆說:“我們沒有更好的算法,谷歌有的,只是更多的數(shù)據(jù)!14這種說法雖然略有夸張,但卻揭示出信息技術(shù)的一個(gè)發(fā)展方向:數(shù)據(jù)正逐漸成為當(dāng)下競(jìng)爭(zhēng)的關(guān)鍵、發(fā)展的瓶頸。 由于摩爾定律催生的硬件技術(shù)飛速進(jìn)步,存儲(chǔ)能力、計(jì)算速度已經(jīng)不是信息技術(shù)發(fā)展的瓶頸,硬件算得再快、變得再小,我們?nèi)祟惪赡芤呀?jīng)感覺不到,這是因?yàn),?jì)算機(jī)的能力并不僅僅取決于計(jì)算的速度和存儲(chǔ)器的容量,兩者完全不成正比。就像在公路上,一輛車能開多快并不僅僅取決于這輛車的馬力,還有車流的速度、公路的質(zhì)量、紅綠燈的多少,這些因素都限制了車速,它們才是真實(shí)世界中車速提高的瓶頸。對(duì)計(jì)算機(jī)而言,瓶頸在不斷發(fā)生轉(zhuǎn)移,曾經(jīng)從硬件轉(zhuǎn)到軟件、算法,但現(xiàn)在正在向數(shù)據(jù)轉(zhuǎn)移。 硬件的發(fā)展不是當(dāng)下技術(shù)的瓶頸 英特爾22納米的晶體管已經(jīng)于2012年4月下線,該公司占據(jù)了全世界80%以上的個(gè)人電腦芯片市場(chǎng),2013年,它還宣布要進(jìn)軍智能手機(jī)市場(chǎng)。隨著晶體管的變小,可以預(yù)計(jì),手機(jī)的功能還將增強(qiáng),同時(shí)體積將變小。強(qiáng)大的計(jì)算能力意味著更多的云端計(jì)算可以轉(zhuǎn)往本地,速度會(huì)更快。但即使轉(zhuǎn)往本地,我們作為終端用戶,很多時(shí)候已經(jīng)感覺不到這種計(jì)算速度的提高了。而且,正是因?yàn)橛?jì)算能力太過強(qiáng)大,機(jī)身的散熱和繼電問題成為手機(jī)制造過程中的新挑戰(zhàn)。 因?yàn)闄C(jī)器學(xué)習(xí)的長(zhǎng)足進(jìn)步,現(xiàn)在算法的好壞也和數(shù)據(jù)緊密相關(guān)。算法是運(yùn)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)的方法和技巧,解決某一類問題的特定步驟,其核心是建立模型。但建模首先需要的就是數(shù)據(jù),在過去很長(zhǎng)一段時(shí)間內(nèi),由于數(shù)據(jù)不足,人類只能設(shè)計(jì)一些小的模型或者淺的模型。十幾年來,由于數(shù)據(jù)逐漸變得充沛,可以構(gòu)建更大、更深度的模型。前文還提到,通過向計(jì)算機(jī)“喂取”數(shù)據(jù),算法可以自動(dòng)調(diào)適自己的參數(shù),喂的數(shù)據(jù)越多,算法就可能更好、更完善。換句話說,當(dāng)擁有了更多數(shù)據(jù),算法就可能更強(qiáng)大,軟件的性能就可能更好。 圖7–17軟件:從包含數(shù)據(jù)到被數(shù)據(jù)包圍 注:在信息時(shí)代的早期,信息系統(tǒng)(即軟件)是收集數(shù)據(jù)的主要手段。那個(gè)時(shí)候,數(shù)據(jù)可以說是被軟件包含;在今天的大數(shù)據(jù)時(shí)代,數(shù)據(jù)無(wú)處不在,軟件可以說已經(jīng)被數(shù)據(jù)包圍了。這種被包圍的態(tài)勢(shì),也推動(dòng)了軟件的升級(jí)。 圖7–18人類信息技術(shù)瓶頸的轉(zhuǎn)移過程 智能時(shí)代的到來,還表現(xiàn)在人機(jī)交互的形式上。 人機(jī)交互,即人類如何控制電腦,如何與電腦交流。第一次人機(jī)交互革命發(fā)生在1984年,蘋果電腦的操作系統(tǒng)采用了簡(jiǎn)稱為WIMP的圖形界面,而在此之前,人類必須通過代碼和計(jì)算機(jī)交流,這就意味著,只有通過專業(yè)的培訓(xùn)才能操控計(jì)算機(jī),非常不方便。WIMP的圖形界面,就是我們非常熟悉的、今天還在使用的視窗系統(tǒng),即以窗口(Window)、圖標(biāo)(Icon)、菜單(Menu)以及鼠標(biāo)(Pointer)這四大要素為組件的圖形化界面。通過這個(gè)界面,用戶可以借助鼠標(biāo)的點(diǎn)擊完成電腦操作,達(dá)到“所見即所得”的目的。它因美觀、友好、快捷而大受歡迎,事實(shí)上,作為第一次人機(jī)交互革命的成果,圖形化界面是促使計(jì)算機(jī)成為大眾消費(fèi)品的重要原因之一。 而當(dāng)前,我們正在見證人機(jī)交互的界面再次發(fā)生深刻的革命,這一次,將把圖形變?yōu)槁曇,即通過聲音控制電腦,實(shí)現(xiàn)智能交互,最終把“人機(jī)交流”變得像“人人交流”一樣簡(jiǎn)單、直接。 圖7–19人類和計(jì)算機(jī)交互方式的變遷 由于智能手機(jī)的普及,手機(jī)將成為全世界最中心的計(jì)算設(shè)備。屏幕變得越來越小,即使圖形再簡(jiǎn)潔,也不方便我們用手點(diǎn)擊。智能交互勢(shì)在必行! 智能交互的形式也已經(jīng)出現(xiàn),例如谷歌提供的語(yǔ)音搜索、蘋果手機(jī)提供的智能語(yǔ)音助手Siri等。蘋果的Siri已經(jīng)可以理解用戶的生活語(yǔ)言,幫助用戶完成一些簡(jiǎn)單的日常事務(wù),例如發(fā)送信息、安排會(huì)議、撥打電話等。未來,類似的“個(gè)人助理”可以完成更多事務(wù)。不過,它的成功也取決于數(shù)據(jù):“個(gè)人助理”必須收集大量的用戶行為數(shù)據(jù),在分析這些數(shù)據(jù)的基礎(chǔ)上,才能為個(gè)人提供智能服務(wù)。例如,你想寫封郵件,可以和手機(jī)展開以下對(duì)話: 你:我想發(fā)封郵件給韓寒。 計(jì)算機(jī):你想跟他說什么? 你:2015年1月1日,我們?cè)诒本┮娒妗?br/> 計(jì)算機(jī):你在1月1日上午已經(jīng)有一個(gè)約會(huì)了。 你:那就安排在下午兩點(diǎn)。 計(jì)算機(jī):是上海的那個(gè)韓寒嗎?(你的聯(lián)系人當(dāng)中可能還有一個(gè)叫“韓涵”的同音的名字。) 你:對(duì)。 計(jì)算機(jī):郵件準(zhǔn)備好了,是保存還是發(fā)送? …… 統(tǒng)計(jì)語(yǔ)言模型 下一代人機(jī)交互界面的核心技術(shù)是自然語(yǔ)言處理、語(yǔ)音識(shí)別、聲音合成等,即實(shí)現(xiàn)文本和聲音這兩種數(shù)據(jù)之間的轉(zhuǎn)換,使計(jì)算機(jī)不僅聽得懂人類的語(yǔ)言,還可以開口說話。人類的語(yǔ)言其實(shí)極為復(fù)雜,計(jì)算機(jī)并不是真的像人一樣聰明,可以理解人類,而是通過大量數(shù)據(jù)建立語(yǔ)言模式,進(jìn)而“理解”人究竟說的是什么,這種技術(shù)被稱為“統(tǒng)計(jì)語(yǔ)言模型”(StatisticalLanguageModels,SLM)。 未來的這種人機(jī)交流,在一定程度上,甚至比人人交流還要簡(jiǎn)單,因?yàn)槊鎸?duì)機(jī)器,你不用說“請(qǐng)”、“對(duì)不起”,可以省去人際交往中的一切繁文縟節(jié)。人機(jī)交互的這種革命將改變我們對(duì)計(jì)算機(jī)的認(rèn)識(shí)和態(tài)度甚至感情,人類將更加仰仗計(jì)算機(jī),進(jìn)入一種更為親密的人機(jī)共生狀態(tài)。這種以聲音為載體的人機(jī)交互形式,也將拉動(dòng)下一輪的軟件創(chuàng)新和增長(zhǎng),蘊(yùn)藏著無(wú)盡的商機(jī)。 通過人機(jī)交互,我們也可以更好地理解何為智能時(shí)代以及這個(gè)時(shí)代和以前的區(qū)別。在前智能時(shí)代,是人努力向機(jī)器靠攏,通過掌握使用機(jī)器的技能,讓機(jī)器為自己服務(wù);在智能時(shí)代,是機(jī)器開始向人靠攏,主動(dòng)理解人、為人服務(wù)。 前智能時(shí)代:人通過學(xué)習(xí),掌握機(jī)器的使用方法,本質(zhì)是人去適應(yīng)機(jī)器 智能時(shí)代:機(jī)器通過“理解”人的語(yǔ)言來適應(yīng)人、為人服務(wù) 除了用聲音和機(jī)器交流,大部分科學(xué)家都相信,未來人類將可以用眼睛和腦電波直接與計(jì)算機(jī)交流,事實(shí)上,這些技術(shù)的雛形都已經(jīng)出現(xiàn)。 機(jī)器向人靠攏,主動(dòng)理解人、適應(yīng)人,其終極形式莫過于機(jī)器人。近幾年,在大數(shù)據(jù)的驅(qū)動(dòng)下,機(jī)器人產(chǎn)業(yè)也有了巨大發(fā)展,IBM設(shè)計(jì)的機(jī)器人“沃森”就是其中的突出代表。之所以命名為“沃森”,正是為了紀(jì)念我們前文提到的IBM創(chuàng)始人托馬斯?沃森。2011年2月,“沃森”參加美國(guó)的電視綜藝節(jié)目《危險(xiǎn)邊緣》(Jeopardy!)。該節(jié)目采取智力競(jìng)賽的形式,由主持人自由提問,兩邊是節(jié)目當(dāng)中海選出來的兩位堪稱全美最博學(xué)的人,中間是機(jī)器人“沃森”,問題可以是天文地理,也可以是明星八卦!拔稚痹诮邮盏絾栴}之后,會(huì)同時(shí)運(yùn)用不同的算法,在兩億個(gè)文檔中計(jì)算答案。如果由不同的算法找到了相同的答案,就證明答案的正確率很高,“沃森”就會(huì)按下?lián)尨鹌,再用語(yǔ)音合成技術(shù)讀出答案。“沃森”在和人類打了兩輪平手之后,最終在第三輪勝出,贏得了100萬(wàn)美元的獎(jiǎng)金。唯一不足的是,受限于我們上文討論的人機(jī)交互界面,“沃森”是以文本的形式接收問題,而不是聲音。 圖7–20《危險(xiǎn)邊緣》的節(jié)目現(xiàn)場(chǎng):“沃森”和其他兩位參賽者 注:中間位置上的標(biāo)志代表“沃森”,當(dāng)時(shí)“沃森”的體積其實(shí)很大,可以占小半個(gè)房間,因此放在幕后。2014年1月,IBM把“沃森”的體積縮小到3個(gè)比薩盒一般的大小,人可以提著走,這再次證明了人類硬件技術(shù)的快速進(jìn)步。沃森每秒可處理500吉的數(shù)據(jù),相當(dāng)于100萬(wàn)本書。在比賽時(shí),為了提高運(yùn)算速度,IBM還把所有的數(shù)據(jù)放置在內(nèi)存而不是硬盤里,即我們前文提到的“內(nèi)存分析”技術(shù)。(圖片來源:電視截屏) 在20世紀(jì)90年代,也有一臺(tái)機(jī)器因?yàn)榫哂兄悄芏胍粫r(shí),它就是“深藍(lán)”!吧钏{(lán)”在象棋比賽中擊敗了世界冠軍卡斯帕羅夫。當(dāng)年的“深藍(lán)”,可以說是算法驅(qū)動(dòng)的,隨著算法的完善,卡斯帕羅夫其實(shí)是必輸無(wú)疑,原因我們?cè)谏衔囊蔡徇^:人是有情緒的,情緒的波動(dòng)就可能導(dǎo)致錯(cuò)誤,而機(jī)器永遠(yuǎn)在冷酷地計(jì)算,只要有了完備的算法,就不會(huì)出現(xiàn)任何失手;但和“沃森”相比,“深藍(lán)”只會(huì)做一件事—下棋。今天的“沃森”是大數(shù)據(jù)驅(qū)動(dòng)的,你無(wú)論問它什么,它都可能回答得比人還要準(zhǔn)確、還要快。2013年2月,參加過比賽的“沃森”又找到了新工作:在紐約的一所癌癥?漆t(yī)院“坐診”,輔助醫(yī)生診斷病人。 未來已經(jīng)來到我們中間,只是還沒有均勻地分布到生活的各個(gè)角落!從無(wú)人駕駛汽車、智能學(xué)習(xí)平臺(tái)、個(gè)人語(yǔ)音助理以及機(jī)器人領(lǐng)域取得的進(jìn)步中,我們可以看到這個(gè)智能型社會(huì)的種種端倪。這將是一個(gè)由數(shù)據(jù)驅(qū)動(dòng)、由算法定義的世界,自動(dòng)化將接管越來越多的工作。毫無(wú)疑問,這是人類的福祉,人類將從中獲得更大的解放,但同時(shí),這個(gè)新的社會(huì)形態(tài)也將給人類帶來空前的挑戰(zhàn)。 2012年9月,美國(guó)重思機(jī)器人公司(RethinkRobotics)推出了一款名為“Baxter”的商用機(jī)器人,這款機(jī)器人具有基本的“學(xué)習(xí)”能力,通過一小時(shí)的培訓(xùn),它就可以在流水線上獨(dú)立完成裝貨卸貨、打包拆箱、檢查和裝配零件等重復(fù)性的工作,一臺(tái)Baxter的售價(jià)僅為22000美元,這遠(yuǎn)遠(yuǎn)低于一名普通美國(guó)工人的年薪。更重要的是,機(jī)器人不需要公司購(gòu)買醫(yī)療保險(xiǎn)、不會(huì)請(qǐng)假、不會(huì)抱怨、不會(huì)要求漲工資,可以保持同樣的工作狀態(tài)5年、10年甚至幾十年! 圖7–21商用機(jī)器人Baxter的外觀 圖片來源:網(wǎng)絡(luò) 這款機(jī)器人的出現(xiàn),引起了美國(guó)社會(huì)的熱烈討論。大部分科學(xué)家、經(jīng)濟(jì)學(xué)家都相信,隨著智能時(shí)代的到來,那些重復(fù)性的、日常性的工作將逐漸被機(jī)器人接手。在這些崗位上,計(jì)算機(jī)甚至比人還可靠,它們能把工作做得更好。2013年9月,英國(guó)牛津大學(xué)馬丁學(xué)院的科研人員研究了自動(dòng)化對(duì)人類就業(yè)市場(chǎng)的影響,他們?cè)趫?bào)告中總結(jié)說,在未來20年內(nèi),今天美國(guó)社會(huì)45%的工作,都可能被自動(dòng)化和機(jī)器人接手15。 45%!這是任何社會(huì)都無(wú)法承受的失業(yè)率。 2014年1月,在達(dá)沃斯世界經(jīng)濟(jì)論壇上,谷歌的董事局主席施密特(EricSchmidt)也表達(dá)了類似的憂慮。他講到,由于信息技術(shù)的進(jìn)步,越來越多的工作將從人類的手中流失,失業(yè)將引發(fā)各種嚴(yán)重的社會(huì)危機(jī),發(fā)達(dá)國(guó)家現(xiàn)在就必須思考如何應(yīng)對(duì)這些挑戰(zhàn)。 有經(jīng)濟(jì)學(xué)家甚至支招說,開征計(jì)算機(jī)稅,使用計(jì)算機(jī)和自動(dòng)化越多的公司,必須繳納更多的稅收,國(guó)家可以用這部分錢來補(bǔ)貼失業(yè)群體。 這種情況會(huì)不會(huì)出現(xiàn),我們首先可以以史為鑒。今天美國(guó)社會(huì)的轉(zhuǎn)型,和100多年前從農(nóng)業(yè)社會(huì)向工業(yè)社會(huì)的轉(zhuǎn)型頗有相似的地方。當(dāng)時(shí),工作機(jī)會(huì)從農(nóng)業(yè)大規(guī)模地向工業(yè)轉(zhuǎn)移。100年前,每3個(gè)美國(guó)人當(dāng)中就有1個(gè)農(nóng)民,而今天的美國(guó),只有2%左右的農(nóng)民,即每50個(gè)人中有1個(gè)農(nóng)民,但生產(chǎn)的糧食不僅能夠自給,美國(guó)還是世界上最大的農(nóng)產(chǎn)品出口國(guó),也就是說,其產(chǎn)量遠(yuǎn)比100年前還多。當(dāng)時(shí),機(jī)器廣泛地代替了人力,失業(yè)問題也曾令當(dāng)時(shí)的建設(shè)者困擾萬(wàn)分。1884年,當(dāng)賴特成為美國(guó)第一任勞工統(tǒng)計(jì)局局長(zhǎng)時(shí),他在全國(guó)反復(fù)調(diào)查統(tǒng)計(jì)的一個(gè)問題就是:機(jī)器的出現(xiàn)到底是增加了還是減少了就業(yè)機(jī)會(huì)?賴特最后的發(fā)現(xiàn)是,機(jī)器雖然取代了人力,但機(jī)器的出現(xiàn)還是增加了就業(yè)機(jī)會(huì)。其中的原因是,工業(yè)產(chǎn)品極大地刺激了全社會(huì)的需求,最終,工作機(jī)會(huì)的蛋糕變大了,而且變得很大,和它相比,機(jī)器對(duì)人力的取代只是很小的一部分。 但向智能社會(huì)轉(zhuǎn)型的挑戰(zhàn)又有不同的地方,形勢(shì)更為嚴(yán)峻。首先問題是,我們的蛋糕是不是還會(huì)變大? Instagram,一款基于互聯(lián)網(wǎng)的照片分享應(yīng)用程序,擁有3000多萬(wàn)用戶,直到2012年4月被臉譜網(wǎng)用10億美元的高價(jià)收購(gòu)時(shí),整個(gè)公司只有13個(gè)人。WhatsApp,一個(gè)基于智能手機(jī)的社交媒體軟件,在全球擁有4億用戶,在2014年2月被臉譜網(wǎng)用190億美元的天價(jià)收購(gòu)時(shí),整個(gè)公司只有53個(gè)人。而臉譜網(wǎng)本身,在全世界擁有10多億用戶,全公司不足2000人。相比之下,幾乎在全世界都擁有用戶的推特公司更小,只有300余人。但在2013年被數(shù)字化技術(shù)擊垮、宣布破產(chǎn)的柯達(dá)公司,其雇員最多時(shí)高達(dá)15萬(wàn)人,堪稱工業(yè)時(shí)代的行業(yè)巨人。今天的企業(yè),首先在基因上就完全不同于工業(yè)時(shí)代的勞動(dòng)力密集型企業(yè)。未來智能社會(huì)的主流企業(yè),一定是知識(shí)密集型企業(yè),就企業(yè)的大小而言,它將變小,而絕不是變大。此外,無(wú)人駕駛汽車、智能學(xué)習(xí)平臺(tái)的出現(xiàn),都會(huì)消減原來存在的工作機(jī)會(huì),例如,隨著無(wú)人駕駛汽車的普及,司機(jī)這個(gè)行業(yè)可能會(huì)徹底消失。前文在介紹普適計(jì)算時(shí)提到,美國(guó)費(fèi)城把RFID標(biāo)簽安裝在垃圾桶里,以優(yōu)化垃圾收集的路線和頻度,這個(gè)措施導(dǎo)致當(dāng)?shù)乩占藛T的隊(duì)伍縮減了1/3。除了自動(dòng)化,新的商業(yè)模式也會(huì)消減工作機(jī)會(huì),前面在介紹眾包時(shí)提到的Airbnb住房分享網(wǎng)站,通過它可以把個(gè)人的余房出租給有需要的游客,這毫無(wú)疑問也將沖擊一些低端的酒店,其工作人員就極有可能失業(yè)。 諸如美國(guó)之類的發(fā)達(dá)國(guó)家將首先遭遇這些挑戰(zhàn),但這場(chǎng)智能化的革命,將像旋風(fēng)一樣,逐步席卷整個(gè)世界。中國(guó)也將面臨這些挑戰(zhàn),這僅僅是個(gè)時(shí)間問題。 可以肯定,由于各國(guó)文化以及應(yīng)對(duì)戰(zhàn)略的差異,信息技術(shù)的進(jìn)步將給每個(gè)國(guó)家?guī)聿煌挠绊。但在全球化大背景下的今天,向智能型社?huì)的邁進(jìn)其實(shí)也是一場(chǎng)世界范圍內(nèi)的競(jìng)爭(zhēng),中國(guó)政府如何應(yīng)對(duì),值得認(rèn)真思考,特別是在變化發(fā)生的早期階段,有效的戰(zhàn)略部署將對(duì)未來的發(fā)展起到?jīng)Q定性的作用。 擺在中國(guó)政府面前的選擇有很多,個(gè)中頭緒可謂千絲萬(wàn)縷。但我相信,有一點(diǎn)一定是關(guān)鍵,這就是教育:通過教育提高全民素質(zhì),讓民眾具備應(yīng)對(duì)這種轉(zhuǎn)型和挑戰(zhàn)的技能,適應(yīng)新時(shí)代的需求;赝I(yè)革命時(shí)的情景,歐美等國(guó)家和地區(qū)都建立了大量學(xué)校,用來培養(yǎng)產(chǎn)業(yè)工人。今天,我們需要學(xué)校培養(yǎng)更多的知識(shí)工作者,例如軟件工程師和數(shù)據(jù)科學(xué)家,這將顯著提高中國(guó)在這場(chǎng)全球轉(zhuǎn)型中的競(jìng)爭(zhēng)力。 這是工作機(jī)會(huì)的大規(guī)模轉(zhuǎn)移,對(duì)教育的需求也是海量的、多樣的。中國(guó)做得好,還可以在世界范圍內(nèi)輸出人才、輸出知識(shí),幫助其他國(guó)家和地區(qū)應(yīng)對(duì)這些挑戰(zhàn)。但依靠現(xiàn)有的教育系統(tǒng),每一個(gè)國(guó)家,包括美國(guó),都不可能完成這個(gè)挑戰(zhàn)。前路何在?回到我們剛剛討論過的智能學(xué)習(xí)平臺(tái),只要有根網(wǎng)線,就可以使用世界一流的教育資源,一名老師可以同步為幾十萬(wàn)人授課,這將為無(wú)數(shù)的普通人提供免費(fèi)學(xué)習(xí)、終生學(xué)習(xí)和隨時(shí)隨地學(xué)習(xí)的機(jī)會(huì)。這種智能學(xué)習(xí)平臺(tái)的推廣和普及,可能是全世界應(yīng)對(duì)向智能型社會(huì)轉(zhuǎn)型最有效的工具。 正所謂,技術(shù)的發(fā)展給我們帶來了難題,同時(shí)又給我們開出了處方。大數(shù)據(jù)給人類帶來了挑戰(zhàn),也帶來了新時(shí)代的曙光。人類終將受益于技術(shù)的發(fā)展和進(jìn)步,在即將到來的智能時(shí)代獲得更大的自由和解放。
|