當(dāng)前位置:首頁 > 百科知識 > 通信 > 正文

大數(shù)據(jù)

大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。 大數(shù)據(jù)的4V特點(diǎn):Volume、Velocity、Variety、Veracity。 “大數(shù)據(jù)”是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的整合共享,交叉復(fù)用,形成的智力資源和知識服務(wù)能力。

簡介

  “大數(shù)據(jù)”作為時(shí)下最火熱的IT行業(yè)的詞匯,隨之?dāng)?shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)量的商業(yè)價(jià)值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點(diǎn)。
  早在1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪
  著云臺大數(shù)據(jù)(4張)潮的華彩樂章”。不過,大約從2009年開始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時(shí)測量和傳遞著有關(guān)位置、運(yùn)動、震動、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。
  大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。且中國物聯(lián)網(wǎng)校企聯(lián)盟認(rèn)為,物聯(lián)網(wǎng)的發(fā)展離不開大數(shù)據(jù),依靠大數(shù)據(jù)提供足夠有利的資源。
  隨著云時(shí)代的來臨,大數(shù)據(jù)(Bigdata)也吸引了越來越多的關(guān)注?!吨婆_》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Bigdata)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
  大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)?!?span id="1jonntf" class='hrefStyle'>計(jì)算機(jī)學(xué)報(bào)》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺需要具備的幾個重要特性,對當(dāng)前的主流實(shí)現(xiàn)平臺———并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)進(jìn)行了分析歸納,指出了各自的優(yōu)勢及不足,同時(shí)也對各個方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進(jìn)行了介紹,對未來研究做了展望[3]。
  對于“大數(shù)據(jù)”(Bigdata)研究機(jī)構(gòu)Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
  大數(shù)據(jù)”這個術(shù)語最早期的引用可追溯到apacheorg的開源項(xiàng)目Nutch。當(dāng)時(shí),大數(shù)據(jù)用來描述為更新網(wǎng)絡(luò)搜索索引需要同時(shí)進(jìn)行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce和GoogleFileSystem(GFS)的發(fā)布,大數(shù)據(jù)不再僅用來描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度。
  從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。
  大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營過程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。
  大數(shù)據(jù)的4個“V”,或者說特點(diǎn)有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低,商業(yè)價(jià)值高。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個“V”——Volume,Variety,Value,Velocity。
  物聯(lián)網(wǎng)、云計(jì)算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。

技術(shù)

  大數(shù)據(jù)技術(shù)將被設(shè)計(jì)用于在成本可承受(economically)的條件下,通過非??焖伲╲elocity)的采集、發(fā)現(xiàn)和分析,從大量化(volumes)、多類別(variety)的數(shù)據(jù)中提取價(jià)值(value),將是IT 領(lǐng)域新一代的技術(shù)與架構(gòu)。企業(yè)用以分析的數(shù)據(jù)越全面,分析的結(jié)果就越接近于真實(shí)。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務(wù)的各個細(xì)節(jié)相融合。
一些相關(guān)技術(shù)
  分析技術(shù):
  數(shù)據(jù)處理:自然語言處理技術(shù)
  統(tǒng)計(jì)和分析:A/B test; top N排行榜;地域占比;文本情感分析
  數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類
  模型預(yù)測:預(yù)測模型;機(jī)器學(xué)習(xí);建模仿真
  大數(shù)據(jù)技術(shù):
  數(shù)據(jù)采集:ETL工具
  數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫;NoSQL;SQL等
  基礎(chǔ)架構(gòu)支持:云存儲;分布式文件系統(tǒng)等
  計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等
  存儲
  結(jié)構(gòu)化數(shù)據(jù):
  海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低
  非結(jié)構(gòu)化數(shù)據(jù):
  圖片、視頻、word、pdf、ppt等文件存儲
  不利于檢索、查詢和存儲
  半結(jié)構(gòu)化數(shù)據(jù):
  轉(zhuǎn)換為結(jié)構(gòu)化存儲
  按照非結(jié)構(gòu)化存儲
  解決方案:
  Hadoop(MapReduce技術(shù))
  流計(jì)算(twitter的storm和yahoo!的S4)

大數(shù)據(jù)的應(yīng)用

企業(yè)
IBM:
  IBM大數(shù)據(jù)提供的服務(wù)包括數(shù)據(jù)分析,文本分析,藍(lán)色云杉(混搭供電合作的網(wǎng)絡(luò)平臺);業(yè)務(wù)事件處理;IBM Mashup Center的計(jì)量,監(jiān)測,和商業(yè)化服務(wù)(MMMS)
  IBM的大數(shù)據(jù)產(chǎn)品組合中的最新系列產(chǎn)品的InfoSphere bigInsights,基于Apache Hadoop。
  該產(chǎn)品組合包括:
  打包的Apache Hadoop的軟件和服務(wù),代號是bigInsights核心,用于開始大數(shù)據(jù)分析
  軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡單、直觀的提取、批注相關(guān)信息
  為金融,風(fēng)險(xiǎn)管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案
微軟:
  2011年1月與惠普(具體而言是HP數(shù)據(jù)庫綜合應(yīng)用部門) 合作目標(biāo)是開發(fā)了一系列能夠提升生產(chǎn)力和提高決策速度的設(shè)備。
EMC
  EMC 斬獲了紐交所和Nasdaq;
  大數(shù)據(jù)解決方案已包括40多個產(chǎn)品。
Oracle:
  Oracle大數(shù)據(jù)機(jī)與Oracle Exalogic中間件云服務(wù)器、Oracle Exadata數(shù)據(jù)庫云服務(wù)器以及Oracle Exalytics商務(wù)智能云服務(wù)器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產(chǎn)品組合。
政府  
政府職能變革
  重視應(yīng)用大數(shù)據(jù)技術(shù),盤活各地云計(jì)算中心資產(chǎn):把原來大規(guī)模投資產(chǎn)業(yè)園、物聯(lián)網(wǎng)產(chǎn)業(yè)園從政績工程,改造成智慧工程;
  在安防領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提高應(yīng)急處置能力和安全防范能力;
  在民生領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提升服務(wù)能力和運(yùn)作效率,以及個性化的服務(wù),比如醫(yī)療、衛(wèi)生、教育等部門;
  解決在金融,電信領(lǐng)域等中數(shù)據(jù)分析的問題:一直得到得極大的重視,但受困于存儲能力和計(jì)算能力的限制,只局限在交易數(shù)型數(shù)據(jù)的統(tǒng)計(jì)分析;
 


內(nèi)容來自百科網(wǎng)