為什么要學(xué)習(xí)大數(shù)據(jù)

來(lái)源：培訓(xùn)無(wú)憂網(wǎng) 發(fā)布人：裴裴

2022-11-15 19:03:21|已瀏覽：4722次

為什么要學(xué)習(xí)大數(shù)據(jù)？本篇從實(shí)際操作的角度分享大數(shù)據(jù)內(nèi)部關(guān)鍵的運(yùn)作機(jī)制，這是在真正開(kāi)始學(xué)習(xí)大數(shù)據(jù)之前對(duì)大數(shù)據(jù)的一個(gè)概覽。為的是讓我們成為大數(shù)據(jù)的主人。以下是小編為你整理的為什么要學(xué)習(xí)大數(shù)據(jù)

大數(shù)據(jù)運(yùn)行機(jī)制

這是對(duì)大數(shù)據(jù)運(yùn)行機(jī)制的概覽，如果你閱讀過(guò)上一篇(OODA)，就會(huì)感覺(jué)非常熟悉。不錯(cuò)，他們?cè)诟拍钌鲜侨绯鲆怀返?不過(guò)實(shí)際操作卻又有巨大的不同。

收集數(shù)據(jù)：

大數(shù)據(jù)的第一站就是收集和存儲(chǔ)海量數(shù)據(jù)(公開(kāi)/隱私)。現(xiàn)在每個(gè)人都是一個(gè)巨大的數(shù)據(jù)源，通過(guò)智能手機(jī)和個(gè)人筆記本釋放出大量的個(gè)人行為信息。獲取數(shù)據(jù)似乎已經(jīng)變得越來(lái)越容易，數(shù)據(jù)收集這一模塊最大的挑戰(zhàn)在于獲取海量數(shù)據(jù)的高速要求以及數(shù)據(jù)的全面性考慮。

清洗數(shù)據(jù)：

傳統(tǒng)商業(yè)智能在數(shù)據(jù)清洗處理的做法(ETL)是，把準(zhǔn)確的數(shù)據(jù)放入定義好的格式中，通過(guò)基礎(chǔ)的抽取統(tǒng)計(jì)生成高維度的數(shù)據(jù)，方便直接使用。然而大數(shù)據(jù)有個(gè)最突出的特征——數(shù)據(jù)非結(jié)構(gòu)化或者半結(jié)構(gòu)化。因?yàn)閿?shù)據(jù)有可能是圖片，二進(jìn)制等等。數(shù)據(jù)清洗的最大挑戰(zhàn)來(lái)了——如何轉(zhuǎn)化處理大量非結(jié)構(gòu)數(shù)據(jù)，便于分布式地計(jì)算分析。

硬件：

這是大家都很熟悉的概念，和大數(shù)據(jù)相關(guān)的是虛擬化。主要包括存儲(chǔ)虛擬化，計(jì)算虛擬化。因此又說(shuō)虛擬化存儲(chǔ)和云計(jì)算是大數(shù)據(jù)的“左膀右臂”!!大數(shù)據(jù)還需要支持多種類型的數(shù)據(jù)庫(kù)，因此一個(gè)支持?jǐn)U展的數(shù)據(jù)倉(cāng)庫(kù)是大數(shù)據(jù)中的基礎(chǔ)。

HBase/Sqoop/Flume(數(shù)據(jù)導(dǎo)入與導(dǎo)出):

HBase是運(yùn)行在HDFS架構(gòu)上的列存儲(chǔ)數(shù)據(jù)庫(kù)，并且已經(jīng)與Pig/Hive很好地集成。通過(guò)Java API可以近無(wú)縫地使用HBase。

Sqoop設(shè)計(jì)的目的是方便從傳統(tǒng)數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)到Hadoop數(shù)據(jù)集合(HDFS/Hive)。

Flume設(shè)計(jì)的目的是便捷地從日志文件系統(tǒng)直接把數(shù)據(jù)導(dǎo)到Hadoop數(shù)據(jù)集合(HDFS)中。

以上這些數(shù)據(jù)轉(zhuǎn)移工具都極大的方便了使用的人，提高了工作效率，把經(jīng)歷專注在業(yè)務(wù)分析上!

ZooKeeper/Oozie(系統(tǒng)管理架構(gòu))：

ZooKeeper是一個(gè)系統(tǒng)管理協(xié)調(diào)架構(gòu)，用于管理分布式架構(gòu)的基本配置。它提供了很多接口，使得配置管理任務(wù)簡(jiǎn)單化!

Oozie服務(wù)是用于管理工作流。用于調(diào)度不同工作流，使得每個(gè)工作都有始有終。

這些架構(gòu)幫助我們輕量化地管理大數(shù)據(jù)分布式計(jì)算架構(gòu)。

Ambari/Whirr(系統(tǒng)部署管理)：

Ambari幫助相關(guān)人員快捷地部署搭建整個(gè)大數(shù)據(jù)分析架構(gòu)，并且實(shí)時(shí)監(jiān)控系統(tǒng)的運(yùn)行狀況。

Whirr的主要作用是幫助快速的進(jìn)行云計(jì)算開(kāi)發(fā)。

Mahout(機(jī)器學(xué)習(xí))：

Mahout旨在幫助我們快速地完成高智商的系統(tǒng)。其中已經(jīng)實(shí)現(xiàn)了部分機(jī)器學(xué)習(xí)的邏輯。這個(gè)架構(gòu)可以讓我們快速地集成更多機(jī)器學(xué)習(xí)的智能!!

大數(shù)據(jù)服務(wù)對(duì)比

不同大數(shù)據(jù)服務(wù)提供商有不同的產(chǎn)品線，因此不同提供商的產(chǎn)品適用場(chǎng)景也會(huì)有所不同。我們重點(diǎn)分析三大服務(wù)提供商的大數(shù)據(jù)服務(wù)架構(gòu)。

亞馬遜

擁有大量關(guān)于大數(shù)據(jù)處理的經(jīng)驗(yàn)。初期大數(shù)據(jù)使用者大部分都使用亞馬遜打造的Hadoop架構(gòu)服務(wù)(EC2)。

經(jīng)過(guò)厚重沉淀之后，Amazon在2009年提供開(kāi)發(fā)EMR大數(shù)據(jù)服務(wù)。EMR服務(wù)提供了多種大數(shù)據(jù)處理分析方案，比如簡(jiǎn)單查詢服務(wù)，關(guān)聯(lián)數(shù)據(jù)分析服務(wù)。EMR服務(wù)可以使用Hadoop語(yǔ)言繼續(xù)開(kāi)發(fā)，并且訪問(wèn)EMR服務(wù)的步驟也相當(dāng)簡(jiǎn)單并且安全。

亞馬遜使用托管DynamoDB代替HBase，作為易于擴(kuò)展的NoSQL數(shù)據(jù)庫(kù)。

谷歌

谷歌云服務(wù)平臺(tái)出類拔萃，它所提供的并非虛擬化解決方案，而是提供由API定義的服務(wù)和應(yīng)用程序。程序員無(wú)需顧慮硬件，甚至不需要關(guān)心后臺(tái)的運(yùn)作行為。

當(dāng)然這從某種程度也限制了程序員的工作，不過(guò)如果谷歌的服務(wù)適合業(yè)務(wù)，那么使用起來(lái)將是全世界最高效快捷的大數(shù)據(jù)架構(gòu)服務(wù)。

谷歌的AppEngine作為云平臺(tái)管理服務(wù)，提供了基于MapReduce的大數(shù)據(jù)并行計(jì)算服務(wù)。所有的這些服務(wù)都可以通過(guò)REST風(fēng)格的API訪問(wèn)。

BigQuery作為分析的數(shù)據(jù)庫(kù)，提供了類SQL的查詢語(yǔ)法。它的性能要比Apache Hive來(lái)得快!

微軟

微軟在大數(shù)據(jù)中屬于后來(lái)居上者。通過(guò)Microsoft Azure大數(shù)據(jù)服務(wù)平臺(tái)，微軟融合自身海量成熟的軟件，例如SQL Server，提供了多種IaaS服務(wù)。

微軟的服務(wù)面向更多的程序員，使得可以使用不同語(yǔ)言來(lái)對(duì)接大數(shù)據(jù)平臺(tái)Azure。Azure旨在提供一個(gè)生態(tài)的大數(shù)據(jù)分析開(kāi)發(fā)環(huán)境，使得普通研究員也可以施展自己對(duì)大數(shù)據(jù)的理解!

注：尊重原創(chuàng)文章,轉(zhuǎn)載請(qǐng)注明出處和鏈接 http://m.dedgn.cn/news-id-68683.html 違者必究！部分文章來(lái)源于網(wǎng)絡(luò)由培訓(xùn)無(wú)憂網(wǎng)編輯部人員整理發(fā)布,內(nèi)容真實(shí)性請(qǐng)自行核實(shí)或聯(lián)系我們，了解更多相關(guān)資訊請(qǐng)關(guān)注數(shù)據(jù)庫(kù)工程師頻道查看更多，了解相關(guān)專業(yè)課程信息您可在線咨詢也可免費(fèi)申請(qǐng)?jiān)囌n。關(guān)注官方微信了解更多：150 3333 6050

相關(guān)新聞

相關(guān)新聞

免費(fèi) 申請(qǐng) 試聽(tīng)

提交申請(qǐng)，《培訓(xùn)無(wú)憂網(wǎng)》課程顧問(wèn)老師會(huì)一對(duì)一幫助你規(guī)劃更適合你的專業(yè)課程！

a级毛片免费全部播放-a级毛片免费观看在线播放-a级毛片免费观看网站-a级毛片免费看-国产成人精品在视频-国产成人精品在线

為什么要學(xué)習(xí)大數(shù)據(jù)