首頁大(da)數(shu)據百科正文

505彩票快三

  下(xia)面是一(yi)張生態圖(tu),主要的組(zu)件都是為(wei)了方便大(da)家從底層的MapReduce模型中脫離出來(lai),用高層語(yu)言來(lai)做分布式計算,下(xia)文將分別為(wei)你作簡(jian)述。

一(yi)圖(tu)簡(jian)述大(da)數(shu)據技術生態圈

  1、HBase

  是一(yi)個高可靠性、高性能、面向(xiang)列(lie)、可伸縮(suo)的分布式存儲系di)常 Base技術可在(zai)廉價(jia)PC Server上搭建起大(da)規(gui)模結構化數(shu)據集群。像Facebook,都拿它做大(da)型實時應用。

  2、Hive

  Facebook領導(dao)的一(yi)個數(shu)據倉庫工具(ju),可以將結構化的數(shu)據文件映(ying)射(she)為(wei)一(yi)張數(shu)據庫表,並提供完(wan)整的sql查詢功能,可以將sql語(yu)句(ju)轉換為(wei)MapReduce任務進行運行。其優點(dian)是學習成本低(di),可以通過類SQL語(yu)句(ju)快速實現(xian)簡(jian)單的MapReduce統計。像一(yi)些data scientist 就可以直接查詢,不需要學習其他編(bian)程接口。

  3、Pig

  Yahoo開發的,並行地執行數(shu)據流(liu)處理的引擎,它包(bao)含了一(yi)種(zhong)腳本語(yu)言,稱為(wei)Pig Latin,用來(lai)描述這些數(shu)據流(liu)。Pig Latin本身提供了許多(duo)傳(chuan)統的數(shu)據操作,同時允許用戶自(zi)己開發一(yi)些自(zi)定義函數(shu)用來(lai)讀取、處理和寫(xie)數(shu)據。在(zai)LinkedIn也是大(da)量使用。

  4、Cascading/Scalding

  Cascading是Twitter收購的一(yi)個公司技術,主要是提供數(shu)據管道(dao)的一(yi)些抽象(xiang)接口,然後又推出了基(ji)于Cascading的Scala版(ban)本就叫Scalding。Coursera是用Scalding作為(wei)MapReduce的編(bian)程接口放在(zai)Amazon的EMR運行。

  5、Zookeeper

  一(yi)個分布式的,開放源碼的分布式應用程序協調服(fu)務,是Google的Chubby一(yi)個開源的實現(xian)。

  6、Oozie

  一(yi)個基(ji)于工作流(liu)引擎的mu) 純蚣塴Sloudera公司貢(gong)獻給(gei)Apache的,它能夠提供對Hadoop MapReduce和Pig Jobs的任務調度與協調。

  7、Azkaban

  跟上面很像,Linkedin開源的面向(xiang)Hadoop的mu) 垂?髁liu)系di)常  ├死嗨si)于cron 的管理任務。

  8、Tez

  Hortonworks主推的優化MapReduce執行引擎,與MapReduce相(xiang)比較,Tez在(zai)性能方面更加ying)鏨 /p>

  注︰本文由ETHINK提供,作者︰不可錯過的大(da)數(shu)據,版(ban)權著作權屬原(yuan)創者所(suo)有,編(bian)輯︰Fynlch(王(wang)培),數(shu)據觀微信公眾號(ID:cbdioreview),欲了si)jie)更多(duo)大(da)數(shu)據行業相(xiang)關資訊,可搜索數(shu)據觀(中國大(da)數(shu)據產(chan)業觀察網www.cbdio.com)進入查看。

責任編(bian)輯︰王(wang)培

分享︰
延伸閱讀
    速讀區(qu)塊鏈(lian)
    貴州

    貴州大(da)數(shu)據產(chan)業政策

    貴州大(da)數(shu)據產(chan)業動(dong)態

    貴州大(da)數(shu)據企業

    更多(duo)
    大(da)數(shu)據概念_大(da)數(shu)據分析_大(da)數(shu)據應用_大(da)數(shu)據百科專題
    企業
    更多(duo)
    505彩票快三 | 下一页