(1)可靠性高。Hadoop具有多個工作數(shù)據(jù)副本,確??舍槍κ〉墓?jié)點(個人理解:一個節(jié)點可理解為一臺計算機或服務器)進行重新分布處理。
(2)擴展性高。Hadoop可擴展至數(shù)干節(jié)點。
(3)效率高。Hadoop以并行方式工作,處理數(shù)據(jù)速度快。
(4)成本低。與一體機、商用數(shù)據(jù)倉庫等對比,Hadoop是開源的,項目的軟件成本因此降低。
二、Hadoop的生態(tài)系統(tǒng)構成
(1)HDFS是一種分布式文件系統(tǒng),運行于大型商用機集群,HDFS為Hadoop提供高可靠性的底層存儲支撐。
(2)MapReduce是一種分布式數(shù)據(jù)處理模式和執(zhí)行環(huán)境,為Hadoop提供高性能計算能力。
(3)HBase位于結構化存儲層(根據(jù)網(wǎng)絡資料理解:HBase位于類似windows系統(tǒng)中多層級文件夾的結構中),是一個分布式的列存儲數(shù)據(jù)庫。
(4)Zookecper是一個分布式的、高可用性的協(xié)調(diào)服務,提供分布式鎖(根據(jù)百度百科:分布式鎖是控制分布式系統(tǒng)間同步訪問共享資源的方式)等基本服務,用于構建分布式應用,為Hadoop提供了穩(wěn)定服務和failover機制(根據(jù)網(wǎng)絡資料理解:failover機制是失效轉(zhuǎn)移機制,當主要組件由于失效或預定關機時間原因而無法工作時,該機制將系統(tǒng)組件的功能轉(zhuǎn)移至二級系統(tǒng)組件)。
(5)Hive是一個建立于Hadoop基礎之上的數(shù)據(jù)倉庫,它提供在Hadoop文件中用于數(shù)據(jù)整理、特殊查詢、分析存儲的數(shù)據(jù)集工具。
(6)Pig是一種數(shù)據(jù)流語言和運行環(huán)境,用于檢索大的數(shù)據(jù)集,可簡化Hadoop常見工作任務。
(7)Sqoop為HBasc提供了方便的RDBMS(根據(jù)百度百科:關系數(shù)據(jù)庫管理系統(tǒng))數(shù)據(jù)導入功能,可較為方便地將傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)遷移至HBase中。
圖片來源:學堂在線《大數(shù)據(jù)導論》
三、Spark介紹
Spark是另一種大數(shù)據(jù)系統(tǒng),由一系列解決不同種類問題的系統(tǒng)和編程庫構成。下文以APACHE Spark為例,介紹Spark。
APACHE Spark由Spark SQL、Spark Streaming、MLlib、GraphX組成。
Spark SQL可以通過編寫SQL程序的方式處理數(shù)據(jù)。因為Spark所有計算依賴于內(nèi)存,中途計算結果不會被存儲,所以Spark的一個優(yōu)勢是數(shù)據(jù)處理速度快,但同時,Spark對內(nèi)存的要求較高。
Spark Streaming可實現(xiàn)數(shù)據(jù)流計算(根據(jù)百度百科理解:因為數(shù)據(jù)的價值隨著時間的流逝而降低,傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)無法快速且無法持續(xù)的處理大量且不斷更新的大數(shù)據(jù),所以產(chǎn)生了可實現(xiàn)數(shù)據(jù)一出現(xiàn)就處理的數(shù)據(jù)流計算)。
MLlib是機器學習庫,可以輔助研發(fā)人員編寫機器學習算法。
GraphX是圖計算框架(根據(jù)網(wǎng)路資料理解:圖計算框架是在大數(shù)據(jù)中高效計算、存儲、管理圖數(shù)據(jù)的框架)。
四、Spark的優(yōu)點
(1)Spark基于內(nèi)存的迭代計算,計算速度快。
(2)Spark引入RDD(彈性分布式數(shù)據(jù)集:可將RDD視為一個對象,所有的數(shù)據(jù)處理均封裝于此對象中),容錯性高。
(3)Spark可提供更多的數(shù)據(jù)集操作類型,數(shù)據(jù)處理能力更強。數(shù)據(jù)集操作類型可分為Transformations和Actions兩類(根據(jù)網(wǎng)絡資料:Transformations可提供包括Map函數(shù)等操作,Actions可提供包括Reduce函數(shù)等操作)。
(4)Spark可支持更多編程語言,包括:Scala(根據(jù)網(wǎng)絡資料:類似java的編程語言)、Java、Python、R。
編輯:黃飛
-
Hadoop
+關注
關注
1文章
90瀏覽量
16795 -
HDFS
+關注
關注
1文章
32瀏覽量
10049 -
大數(shù)據(jù)
+關注
關注
64文章
9006瀏覽量
142795
原文標題:大數(shù)據(jù)相關介紹(10)——大數(shù)據(jù)系統(tǒng)(下)
文章出處:【微信號:行業(yè)學習與研究,微信公眾號:行業(yè)學習與研究】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
#硬聲創(chuàng)作季 大數(shù)據(jù)技術原理與應用_10.2 Spark生態(tài)系統(tǒng)
大數(shù)據(jù)hadoop入門之hadoop家族產(chǎn)品詳解
大數(shù)據(jù)hadoop生態(tài)系統(tǒng)概念簡單介紹
工廠生產(chǎn)系統(tǒng)能效的生態(tài)系統(tǒng)優(yōu)化設計
基于加速卡的FPGA生態(tài)系統(tǒng)布局是怎樣的?
STM32單片機基礎01——初識 STM32Cube 生態(tài)系統(tǒng) 精選資料分享
STM32Cube生態(tài)系統(tǒng)更新
IT的生態(tài)系統(tǒng)概述
基于Kepware的Hadoop大數(shù)據(jù)應用構建-提升數(shù)據(jù)價值利用效能

大數(shù)據(jù)相關介紹:Hadoop的生態(tài)系統(tǒng)構成
評論