熱門:瘦小腿瘦小腿瘦小腿

  1. 首頁
  2. 科技日報
  3. 科技

對大資料系統的瞭解

  • 小白兔

  • 2018-10-12 18:14:22

大資料概念:

直義:巨量資料集合

麥肯錫全球研究所給出的定義是:一種規模大到在獲取、儲存、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特徵。

IBM最早定義的4V:

Volume:資料體量大(bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB)

Velocity:資料流轉快速(處理速度快,和傳統的資料探勘技術本質區別)

Variety:資料型別多樣(網路日誌、視訊、圖片、地理位置資訊等)

Value:價值密度低(但商業價值高)

Veracity:真實性(IBM加入的5V)

大資料“解構”

大資料”在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來網際網路和資訊行業的發展而引起人們關注。

大資料包括結構化、半結構化和非結構化資料,非結構化資料越來越成為資料的主要部分。據IDC的調查報告顯示:企業中80%的資料都是非結構化資料,這些資料每年都按指數增長60%。大資料就是網際網路發展到現今階段的一種表象或特徵而已,是以雲端計算等技術發展的推動下,將原本很難收集和使用的資料開始容易被利用起來,通過各行各業的創新,通過資料分析創造出新的商業價值。

第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這裡從大資料的特徵定義理解行業對大資料的整體描繪和定性;從對大資料價值的探討來深入解析大資料的珍貴所在;洞悉大資料的發展趨勢;從大資料隱私這個特別而重要的視角審視人和資料之間的長久博弈。

最早提出大資料時代到來的是麥肯錫:“資料,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量資料的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。”

大資料特性圖:

大資料思維

在大資料時代已經到來為我們觀察世界提供了一種全新的思維,要用大資料思維去發掘大資料的潛在價值。如電子商務網站通過對使用者的購買和瀏覽資料進行分析,進行相關商品推薦功能。

維克托·邁爾-舍恩伯格認為:

需要全部資料樣本而不是抽樣,從樣本思維轉向總體思維

通過取樣來研究事物的規律是常用的方法,也是在無法獲取全量資料條件下的無奈選擇,在大資料時代,人們可以獲得並分析更多資料,而不依賴於取樣,進而可以更全面地認識事物,更清楚地發現樣本資料無法揭示的細節資訊。隨著資料收集,儲存,分析技術突破性發展,而不再因諸多限制不得不採用樣本研究法。總體的資料分析可以更加全面、系統地認識事物。

關注效率而不是精確度,從精確思維轉向容錯思維

小資料時代,由於收集的樣本資訊量較少,必須確保記錄下來的資料儘量結構化,精確化確保分析得出的結論正確性。舍恩伯格指出,“執迷於精確性是資訊缺乏時代和模擬時代的產物。只有5%的資料是結構化且能適用於傳統資料庫的。如果不接受混亂,剩下95%的非結構化資料都無法利用,只有接受不精確性,我們才能開啟一扇從未涉足的世界的窗戶”。也就是說,在大資料時代,思維方式要從精確思維轉向容錯思維,當擁有海量即時資料時,絕對的精準不再是追求的主要目標,適當忽略微觀層面上的精確度,容許一定程度的錯誤與混雜,反而可以在巨集觀層面擁有更好的知識和洞察力。

關注相關性而不是因果關係,從因果思維轉向相關思維

以通過大資料技術挖掘出事物之間隱蔽的相關關係,獲得更多的認知與洞見,運用這些認知與洞見就可以幫助我們捕捉現在和預測未來的戰場形勢,而建立在相關關係分析基礎上的預測正是大資料的核心議題。

Wal-Mart,通過對銷售記錄的全面分析,美國颶風來臨季節蛋撻銷量也會增加,就將颶風物品和蛋撻放一塊,提高了蛋撻的銷量;

1948年遼瀋戰役,司令員林彪通過對每日例行軍情彙報分析,發現胡家窩棚附件繳獲的短槍:長槍數和小車:大車數,俘虜和擊斃的軍官士兵比,判斷敵人的司令部,並最終抓住了廖耀湘;

這些例子真實的反映在各行各業,探求資料價值取決於把握資料的人,關鍵是人的資料思維;與其說是大資料創造了價值,不如說是大資料思維觸發了新的價值增長。

資料大且可以線上用起來。功能價值轉向資料價值。大資料並不在“大”,而在於“有用”。資料的使用就涉及到使用的成本,及資料的價值含量、挖掘成本比是用資料過程要關注的。

大資料價值

如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的“加工能力”,通過“加工”實現資料的“增值”。

不管大資料的核心價值是不是預測,但是基於大資料形成決策的模式已經為不少的企業帶來了盈利和聲譽。

從大資料的價值鏈條來分析,存在三種模式:

1- 手握大資料,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。

2- 沒有資料,但是知道如何幫助有資料的人利用它;比較典型的是IT諮詢和服務企業,比如,埃森哲,IBM,Oracle等。

3- 既有資料,又有大資料思維;比較典型的是Google,Amazon,Mastercard等。

未來在大資料領域最具有價值的是兩種事物:1-擁有大資料思維的人,這種人可以將大資料的潛在價值轉化為實際利益;2-還未有被大資料觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。

而當物聯網發展到達一定規模時,藉助條形碼、二維碼、RFID等能夠唯一標識產品,感測器、可穿戴裝置、智慧感知、視訊採集、增強現實等技術可實現實時的資訊採集和分析,這些資料能夠支撐智慧城市,智慧交通,智慧能源,智慧醫療,智慧環保的理念需要,這些都所謂的智慧將是大資料的採集資料來源和服務範圍。

未來的大資料除了將更好的解決社會問題,商業營銷問題,科學技術問題,還有一個可預見的趨勢是以人為本的大資料方針。人才是地球的主宰,大部分的資料都與人類有關,要通過大資料解決人的問題。

第二層面是技術,技術是大資料價值體現的手段和前進的基石。在這裡分別從雲端計算、分散式處理技術、儲存技術和感知技術的發展來說明大資料從採集、處理、儲存到形成結果的整個過程。

雲技術

實時的大型資料集分析需要分散式處理框架來向數十、數百或甚至數萬的電腦分配工作。雲端計算思想的起源是麥卡錫在上世紀60年代提出的:把計算能力作為一種像水和電一樣的公用事業提供給使用者。雲端計算提供基礎架構平臺,大資料應用執行在這個平臺上;

這裡暫且列舉一些,比如虛擬化技術,分散式處理技術,海量資料的儲存和管理技術,NoSQL、實時流資料處理、智慧分析技術(類似模式識別以及自然語言理解)等。

雲端計算和大資料之間的關係可以用下面的一張圖來說明,兩者之間結合後會產生如下效應:可以提供更多基於海量業務資料的創新型服務;通過雲端計算技術的不斷髮展降低大資料業務的創新成本。

如果將雲端計算與大資料進行一些比較,最明顯的區分在兩個方面:

第一,在概念上兩者有所不同,雲端計算改變了IT,而大資料則改變了業務。然而大資料必須有云作為基礎架構,才能得以順暢運營。

第二,大資料和雲端計算的目標受眾不同,雲端計算是CIO等關心的技術層,是一個進階的IT解決方案。而大資料是CEO關注的、是業務層的產品,而大資料的決策者是業務層

分散式處理技術

分散式處理系統可以將不同地點的或具有不同功能的或擁有不同資料的多臺計算機用通訊網路連線起來,在控制系統的統一管理控制下,協調地完成資訊處理任務—這就是分散式處理系統的定義。

儲存技術

大資料可以抽象的分為大資料儲存和大資料分析,這兩者的關係是:大資料儲存的目的是支撐大資料分析。到目前為止,還是兩種截然不同的計算機技術領域:大資料儲存致力於研發可以擴充套件至PB甚至EB級別的資料儲存平臺;大資料分析關注在最短時間內處理大量不同型別的資料集。

感知技術

大資料的採集和感知技術的發展是緊密聯絡的。以感測器技術,指紋識別技術,RFID技術,座標定位技術等為基礎的感知能力提升同樣是物聯網發展的基石。全世界的工業裝置、汽車、電錶上有著無數的數碼感測器,隨時測量和傳遞著有關位置、運動、震動、溫度、溼度乃至空氣中化學物質的變化,都會產生海量的資料資訊。

這些感知被逐漸捕獲的過程就是就世界被資料化的過程,一旦世界被完全資料化了,那麼世界的本質也就是資訊了。

第三層面是實踐,實踐是大資料的最終價值體現。在這裡分別從網際網路的大資料,政府的大資料,企業的大資料和個人的大資料四個方面來描繪大資料已經展現的美好景象及即將實現的藍圖。

網際網路的大資料

網際網路上的資料每年增長50%,每兩年便將翻一番,而目前世界上90%以上的資料是最近幾年才產生的。據IDC預測,到2020年全球將總共擁有35ZB的資料量。網際網路是大資料發展的前哨陣地,隨著WEB2.0時代的發展,人們似乎都習慣了將自己的生活通過網路進行資料化,方便分享以及記錄並回憶。

網際網路大資料的典型代表性包括:

1-使用者行為資料(精準廣告投放、內容推薦、行為習慣和喜好分析、產品優化等)

2-使用者消費資料(精準營銷、信用記錄分析、活動促銷、理財等)

3-使用者地理位置資料(O2O推廣,商家推薦,交友推薦等)

4-網際網路金融資料(P2P,小額貸款,支付,信用,供應鏈金融等)

5-使用者社交等UGC(User Generated Content使用者原創)資料(趨勢分析、流行元素分析、受歡迎程度分析、輿論監控分析、社會問題分析等)

政府的大資料

現狀是政府擁有大資料,但還沒有很好的利用起來,政府需要在制度和政策上給與支援,應該有勇氣將手中的資料逐步開放,供給更多有能力的機構組織或個人來分析並加以利用,以加速造福人類。

企業的大資料

企業的CXO們最關注的還是報表曲線的背後能有怎樣的資訊,他該做怎樣的決策,其實這一切都需要通過資料來傳遞和支撐。在理想的世界中,大資料是巨大的槓桿,可以改變公司的影響力,帶來競爭差異、節省金錢、增加利潤、愉悅買家、獎賞忠誠使用者、將潛在客戶轉化為客戶、增加吸引力、打敗競爭對手、開拓使用者群並創造市場

1) 對大量消費者提供產品或服務的企業(精準營銷);

2) 做小而美模式的中長尾企業(服務轉型);

3) 面臨網際網路壓力之下必須轉型的傳統企業(生死存亡)。

資料產業會向傳統企業的供應鏈模式發展,最終形成“資料供應鏈”。

個人的大資料這個概念

就是與個人相關聯的各種有價值資料資訊被有效採集後,可由本人授權提供第三方進行處理和使用,並獲得第三方提供的資料服務。

以資料處理為中心的14個大資料專業詞彙

本地資料庫(LDB/Local Data Base)

駐留於執行客戶應用程式的機器的資料庫。本地資料庫位於本地磁碟或區域網。

資料採集(Data Acquisition,DAQ)

資料採集又稱資料獲取,將被測試物件的各種參量通過各種感測器做適當轉換後,再經過訊號調理、取樣、量化、編碼、傳輸等步驟傳遞到控制器的過程。

資料模型(data model)

資料模型是現實世界資料特徵的抽象,用於描述一組資料的概念和定義。

資料整理(Data Cleansing)

資料處理(Data Handling)

資料壓縮(Data Compression)

資料恢復(Data Recovery)

資料整合(Data Integration)

資料遷移(Data Migration)

資料冗餘(Data Redundancy/Redundant Data)

資料抽取(Data mining)

網路資料抽取 (Web data mining)

網路資料抽取(Web data mining),是指從網路中取得大量的又利用價值的數字化資訊。主要包括結構化資料抽取(Structured Data Extraction)、資訊整合(Information integreation)和觀點挖掘(Opinion mining)等。

資料備份(Data Backup)

如何處理大資料

集中式計算VS分散式計算

集中式計算:通過不斷增加處理器的個數來增強單個計算機的計算能力,從而提高處理的速度。需要的記憶體很大,計算的速度很快。

分散式計算:一組通過網路連線的計算機,形成一個分散的系統。將需要處理的大量資料分散成多個部分,交由集群系統中的單個計算機分別處理,最後將這些計算結果合併得到最終結果。(MapReduce的核心思想)

Ambari

作為Hadoop生態系統的一部分,這個Apache專案提供了基於Web的直觀介面,可用於配置、管理和監控Hadoop叢集。有些開發人員想把Ambari的功能整合到自己的應用程式當中,Ambari也為他們提供了充分利用REST(代表性狀態傳輸協議)的API。

Avro

這個Apache專案提供了資料序列化系統,擁有豐富的資料結構和緊湊格式。模式用JSON來定義,它很容易與動態語言整合起來。

Chukwa

Chukwa基於Hadoop,可以收集來自大型分散式系統的資料,用於監控。它還含有用於分析和顯示資料的工具。

Flume

Flume可以從其他應用程式收集日誌資料,然後將這些資料送入到Hadoop。官方網站聲稱:“它功能強大、具有容錯性,還擁有可以調整優化的可靠性機制和許多故障切換及恢復機制。”

Oozie

這種工作流程排程工具是為了管理Hadoop任務而專門設計的。它能夠按照時間或按照資料可用情況觸發任務,並與MapReduce、Pig、Hive、Sqoop及其他許多相關工具整合起來。

Pig

Apache Pig是一種面向分散式大資料分析的平臺。它依賴一種名為Pig Latin的程式語言,擁有簡化的並行程式設計、優化和可擴充套件性等優點。

Sqoop

企業經常需要在關係資料庫與Hadoop之間傳輸資料,而Sqoop就是能完成這項任務的一款工具。它可以將資料匯入到Hive或HBase,並從Hadoop匯出到關係資料庫管理系統(RDBMS)。

Spark

作為MapReduce之外的一種選擇,Spark是一種資料處理引擎。它聲稱,用在記憶體中時,其速度比MapReduce最多快100倍;用在磁 盤上時,其速度比MapReduce最多快10倍。它可以與Hadoop和Apache Mesos一起使用,也可以獨立使用。

Tez

Tez建立在Apache Hadoop YARN的基礎上,這是“一種應用程式框架,允許為任務構建一種複雜的有向無環圖,以便處理資料。”它讓Hive和Pig可以簡化複雜的任務,而這些任務原本需要多個步驟才能完成。

Zookeeper

這種大資料管理工具自稱是“一項集中式服務,可用於維護配置資訊、命名、提供分散式同步以及提供群組服務。”它讓Hadoop叢集裡面的節點可以彼此協調。

Storm

Storm現在是一個Apache專案,它提供了實時處理大資料的功能(不像Hadoop只提供批任務處理)。

推薦您的文章

其他文章