大(dà)數據時代的到來,是全球知(zhī)名咨詢公司麥肯錫最早提出的,麥肯錫稱:“數據,已經滲透到當今每一(yī)個行業和業務職能領域,成爲重要的生(shēng)産因素。人們對于海量數據的挖掘和運用,預示着新一(yī)波生(shēng)産率增長和消費(fèi)者盈餘浪潮的到來。”
《互聯網進化論》一(yī)書(shū)中(zhōng)提出“互聯網的未來功能和結構将于人類大(dà)腦高度相似,也将具備互聯網虛拟感覺,虛拟運動,虛拟中(zhōng)樞,虛拟記憶神經系統” ,并繪制了一(yī)幅互聯網虛拟大(dà)腦結構圖。
根據這一(yī)觀點,我(wǒ)(wǒ)們嘗試分(fēn)析目前互聯網最流行的四個概念-----大(dà)數據,雲計算,物(wù)聯網和移動互聯網與傳統互聯網之間的關系。
從這幅圖中(zhōng)我(wǒ)(wǒ)們可以看出:
物(wù)聯網對應了互聯網的感覺和運動神經系統。
雲計算是互聯網的核心硬件層和核心軟件層的集合,也是互聯網中(zhōng)樞神經系統萌芽。
大(dà)數據代表了互聯網的信息層(數據海洋),是互聯網智慧和意識産生(shēng)的基礎。
包括物(wù)聯網,傳統互聯網,移動互聯網在源源不斷的向互聯網大(dà)數據層彙聚數據和接受數據。
大(dà)數據時代的到來,是全球知(zhī)名咨詢公司麥肯錫最早提出的,麥肯錫稱:“數據,已經滲透到當今每一(yī)個行業和業務職能領域,成爲重要的生(shēng)産因素。人們對于海量數據的挖掘和運用,預示着新一(yī)波生(shēng)産率增長和消費(fèi)者盈餘浪潮的到來。” 近幾年大(dà)數據一(yī)詞的持續升溫也帶來了大(dà)數據泡沫的疑慮,大(dà)數據的前景與目前雲計算、物(wù)聯網、移動互聯網等是分(fēn)不開(kāi)的,下(xià)面就來了解一(yī)下(xià)大(dà)數據與這些熱點的關系。
大(dà)數據市場格局
從嚴格意義上來說,早在20世紀90年代“數據倉庫之父”的Bill Inmon便提出了“大(dà)數據”的概念。大(dà)數據之所以在最近走紅,主要歸結于互聯網、移動設備、物(wù)聯網和雲計算等快速崛起,全球數據量大(dà)大(dà)提升。可以說,移動互聯網、物(wù)聯網以及雲計算等熱點崛起在很大(dà)程度上是大(dà)數據産生(shēng)的原因。
我(wǒ)(wǒ)們可以通過這樣一(yī)張圖片,形象的知(zhī)道大(dà)數據與移動互聯網、物(wù)聯網以及傳統互聯網的關系。物(wù)聯網,移動互聯網再加上傳統互聯網,每天都在産生(shēng)海量數據,而大(dà)數據又(yòu)通過雲計算的形式,将這些數據篩選處理分(fēn)析,提前出有用的信息,這就是大(dà)數據分(fēn)析。
大(dà)數據與移動互聯網、物(wù)聯網以及傳統互聯網
作爲數據存儲巨頭,EMC的大(dà)數據理念是,首先從“大(dà)”入手,“大(dà)”肯定是指大(dà)型數據集,一(yī)般在10TB規模左右。很多用戶把多個數據集放(fàng)在一(yī)起,形成PB級的數據量。同時從數據源來談,大(dà)數據是指這些數據來自多種數據源,以實時、叠代的方式來實現。
大(dà)數據來源
我(wǒ)(wǒ)們看到,各種行業都出現了大(dà)數據趨勢,有些可能是零售業商(shāng)戶,要對零售業數據進行分(fēn)析,或者是一(yī)些有關全球天氣預報模型的數據,還有油氣行業一(yī)些地理信息數據,比如基因學分(fēn)析,醫學中(zhōng)也有成像類的大(dà)數據,甚至電(diàn)影、娛樂行業還有用于渲染的大(dà)型數據存在。
大(dà)數據與現實生(shēng)活
大(dà)數據能帶來什麽變化呢?裏克·斯莫蘭的“大(dà)數據人類面孔”項目講述了許多故事:海象通過頭頂的觸角探索海洋;借助衛星擊準蚊子;加納用短信系統防止假藥銷售;智能手機可以預測誰正在變抑郁;信用卡在使用者離(lí)婚前兩年就能預測離(lí)婚;藥片直接将信息從人的身體(tǐ)傳給醫生(shēng)。
通過對衛星以及全球數億傳感器、RFID标簽、帶GPS的相機和智能手機實時收集的數據做可視化處理,人類就可以感知(zhī)、測量、理解和影響人類的生(shēng)存方式,實現先輩們遙不可及的夢想。
2012年3月,裏克·斯莫蘭和JenniferErwitt發動全球各地100多位攝影師、編輯和作家來探索大(dà)數據的世界,以驗證它是否象許多業界人士所說:代表了一(yī)種從未出現過的工(gōng)具,可以幫助人類面對最大(dà)的挑戰。大(dà)數據人類面孔-通過計步器記錄數據分(fēn)析身體(tǐ)狀況。2012年9月25日到10月2日,邀請全球各地參與者通過“大(dà)數據人類面孔”這一(yī)應用(五種語言的iOS和安卓版本免費(fèi)下(xià)載)來“測量我(wǒ)(wǒ)們的世界”。這一(yī)應用可以讓人們用手機作爲傳感器參與一(yī)系列活動,他們同時可以比較全球其它參與者對一(yī)些值得深思的問題給出了什麽答案。參與者可以繪制出自己每天的路徑,分(fēn)享那些帶給他們好運的物(wù)品和儀式,了解其他人想要在一(yī)生(shēng)中(zhōng)經曆的特别體(tǐ)驗,發現自己身邊以前沒有意識到的秘密。參與者還能夠得出自己的“數字身影”。
2012年10月2日,邀請媒體(tǐ)出席在紐約、倫敦和新加坡舉行的“指揮控制中(zhōng)心”大(dà)型活動,所有參與者的數據将在活動中(zhōng)加以分(fēn)析、視覺化處理和诠釋。大(dà)數據領域的專家們和創新者們将通過互動的“大(dà)數據實驗室”分(fēn)享他們的工(gōng)作成果。全球各地的觀衆可以實時在線觀看活動直播。
麥肯錫全球研究機構在發布的《大(dà)數據:創新、競争和生(shēng)産力的下(xià)一(yī)個前沿領域》中(zhōng)表示,充分(fēn)利用大(dà)數據可幫助全球個人定位服務提供商(shāng)增加1000億美元收入、幫助歐洲公共部門的管理每年提升2500億美元産值、幫助美國醫療保健行業每年提升3000億美元産值,并可幫助美國零售業獲得 60%以上的淨利潤增長……
如果感覺此數據太過空泛,那麽我(wǒ)(wǒ)們可以通過安防監控在大(dà)數據方面的應用來進行詳細的了解。很多讀者應該都看過電(diàn)影《全民公敵》,威爾史密斯飾演的律師出現在各地任意位置的攝像頭都會在第一(yī)時間被發現,這便是大(dà)數據的作用。從技術角度來看,從傳統的海量存儲監控,到實現聯網智能化監控便是大(dà)數據很好的應用。在國際大(dà)都市中(zhōng),每年行駛的車(chē)輛數據可能會達到百億級,從這些海量信息提取車(chē)牌、車(chē)身顔色,就可以很快查出軌迹、違章等,而接下(xià)來的關聯分(fēn)析就是基于大(dà)數據的基礎展開(kāi)。
再比如大(dà)家經常使用的淘寶爲例。天貓副總裁王文彬曾表示“我(wǒ)(wǒ)們可以得到買家的訪問量、固定頻(pín)率、偏好商(shāng)品等淺層分(fēn)析。未來将有更多,不僅能看到商(shāng)家銷量的高低,甚至還可以看出其原因。”商(shāng)家還可以通過對點擊量、跨店(diàn)鋪點擊,訂單流轉量甚至旺旺聊天信息等消費(fèi)者購買行爲的分(fēn)析,進而有針對性的進行提高,達到提高銷量的目的。
從人類文明出現到2003年,人類總共才産生(shēng)了5EB(ExaBytes)的數據,但是當前的人類兩天内就創造出了相同的數據量,全球 90% 的數據都是在過去(qù)兩年中(zhōng)生(shēng)成的,到2020年全球數據使用量将大(dà)概需要376億個1TB的硬盤進行存儲。
大(dà)數據。當然,大(dà)數據并不等同于目前的海量數據。目前全球均比較認可IDC對“大(dà)數據”的定義:爲了更經濟地從高頻(pín)率獲取的、大(dà)容量的、不同結構和類型的數據中(zhōng)獲取價值,而設計的新一(yī)代架構和技術。此定義也可以概括爲四個特點,即高容量(volume)、多樣性(variety),速度(velocity),以及價值(value)四個V,包括基礎架構、數據管理、分(fēn)析挖掘和決策支持四個層面。當然,也有其他不同的觀點,IBM對于大(dà)數據的定義便是規模性(Volume)、多樣性(Variety)、高速性(Velocity)和真實性(Veracity)的“4V理論”,NetApp 大(dà)中(zhōng)華區總經理陳文所理解的大(dà)數據包括A、B、C三個要素:大(dà)分(fēn)析(Analytic),高帶寬(Bandwidth)和大(dà)内容(Content)。
大(dà)數據與雲計算
物(wù)聯網、移動互聯網等是大(dà)數據的來源,而大(dà)數據分(fēn)析則是爲物(wù)聯網和移動互聯網提供有用的分(fēn)析,獲取價值。雲計算又(yòu)與大(dà)數據有什麽關系呢?這個問題其實早在2011年,就有人分(fēn)析,例如EMC World 2011的大(dà)會主題就是“當雲計算遇見大(dà)數據”。
雲計算與大(dà)數據兩者之間有很多的交集,業界主要做雲的公司有谷歌、亞馬遜等都擁有大(dà)量大(dà)數據。EMC總裁基辛格強調大(dà)數據應用必須在雲設施上跑,這就是兩者的關系--大(dà)數據離(lí)不開(kāi)雲。同時,支撐大(dà)數據以及雲計算的底層原則是一(yī)樣的,即規模化、自動化、資(zī)源配置、自愈性,這些都是底層的技術原則。因此基辛格認爲大(dà)數據和雲之間存在很多合力的地方。
另一(yī)方面,随着互聯網信息量的激增,用戶單個數據集達到數以TB計,有的客戶甚至已達到Pera級(1000Tera)了,用現有的存儲系統結構處理數據量級較小(xiǎo),而且隻能處理單一(yī)數據源數據,面對大(dà)數據的壓力。在處理大(dà)量級以及多數據源的數據能力非常弱。這也就是爲什麽EMC收購Greenplum,支持開(kāi)源的Hadoop計劃的目的所在。基辛格很明白(bái),大(dà)數據的挑戰不僅僅在于存儲和保護,數據分(fēn)析能力的強弱,将成爲這個時代的關鍵點:我(wǒ)(wǒ)們已經解決了數據存儲和保護的問題,所需要的隻是時間,但是海量數據分(fēn)析的問題,我(wǒ)(wǒ)們還沒有在大(dà)數據到來時做好準備。
談到大(dà)數據的特點,一(yī)是數據規模是PB級,二是多數據源,能夠把半結構化、非結構化和結構化的數據很好地融合起來。同時具有實時、可叠代的特點。具體(tǐ)形容就是大(dà)數據環境類似于Facebook環境,随時可以添加變量。基辛格一(yī)再的支出,數據分(fēn)析的曆史已有30年,現在我(wǒ)(wǒ)們已進入大(dà)數據時代。