更新時間:2024-04-30 08:13:48作者:佚名
你好!
關于大數據有很多東西需要學習。 需要從基礎開始,由淺入深,循序漸進,才能扎實掌握大數據技術。
學習大數據的基礎是Java語言和Linux操作系統。 學習順序沒有特定的順序。 一般來說,你會選擇先開始學習Java語言。 由于大數據相關軟件基本運行在Linux操作系統上,因此Linux系統也是大數據必學的基礎。 要想深入學習真正的大數據技術,需要扎實的掌握。
學習了這兩個基礎之后,下一步就是大數據相關技術:
1、
這是一個流行的大數據處理平臺,幾乎已經成為大數據的代名詞,所以這是必須學習的。 它包括幾個組件:HDFS 和 YARN。 HDFS是存儲數據的地方。 就像我們電腦的硬盤一樣,上面存儲著文件。 它處理和計算數據。 它的特點之一是,無論數據有多大,只要是在短時間內就能跑完數據,但時間可能不會很快,所以稱為數據批處理。
YARN是體現平臺理念的重要組件。 憑借其大數據生態系統,其他軟件可以在其上運行。 這樣我們就可以更好的利用HDFS大存儲的優勢,節省更多的資源。 例如,我們不再需要構建單獨的系統。 如果您有 Spark 集群,只需直接在現有的紗線上運行它即可。
事實上,如果你了解這些組件,你就可以處理大數據。 然而,你可能還不清楚“大數據”到底有多大。 聽我說,別擔心這個。 未來,當你開始工作時,你會在很多場景中遇到幾十TB/幾百TB的大規模數據。 到時候你就不再覺得大數據好。 數據越大,你就越頭疼。 當然大數據技術是學什么的,不要害怕處理如此大規模的數據,因為這就是你的價值所在。 讓那些做php、html5、DBA的人羨慕不已。
2、
這是萬能的,安裝HA的時候會用到它,以后Hbase也會用到它。 一般用來存儲一些協作信息。 這個信息比較小,一般不超過1M。 使用它的軟件取決于它。 對于我們個人來說,只需正確安裝并讓它正常運行即可。 就是這樣。
3.MySQL
mysql數據庫,一個小型的數據處理工具,后面安裝hive的時候會用到。 mysql需要掌握到什么水平? 您可以在Linux上安裝它,運行它,配置簡單的權限,更改root密碼,并創建數據庫。 這里主要是學習SQL的語法,因為hive的語法和這個很相似。
4.斯庫普
這是用來將數據從Mysql導入到其中的。 當然,你也可以跳過這個,直接將Mysql數據表導出成文件,然后放到HDFS上。 當然,在生產環境中使用Mysql時要注意Mysql的壓力。
5.蜂巢
這東西對于懂SQL語法的人來說簡直是神器。 它可以讓你處理大數據變得非常簡單,你將不再需要為編寫程序而煩惱。 有人說豬? 幾乎就像豬一樣。 你只需要掌握一項。
6.奧茲
既然你學會了Hive,相信你一定需要這個東西。 它可以幫助您管理 Hive 或 Spark 腳本。 它還可以檢查您的程序是否正確執行。 如果發生錯誤,它會向您發送警報并幫助您重試程序。 最重要的是它還可以幫助你配置任務依賴關系。 相信你一定會喜歡的,不然看著大量的腳本和密密麻麻的crond你會覺得很屎。
7. 數據庫
這是生態系統中的NOSQL數據庫。 其數據以key和value的形式存儲,并且key是唯一的,因此可以用于重復數據刪除。 與MYSQL相比,它可以存儲大得多的數據量。 。 因此,常被用作大數據處理完成后的存儲目的地。
8.卡夫卡
這是一個比較好用的隊列工具。 排隊有什么用? 你知道買票必須排隊嗎? 如果數據太多了,也需要排隊處理,這樣和你合作的其他同學就不會尖叫了,你為什么給我這么多數據(比如幾百G的文件),我怎么辦?處理它? 不要怪他,因為他不是搞大數據的,你可以告訴他,我把數據放到隊列里,你用的時候一一拿,這樣他就別再抱怨了,立刻就走來優化他的程序。
因為如果他處理不了那就是他的問題了。 不是你提出的問題。 當然,我們也可以使用這個工具來存儲在線實時數據或者存入HDFS。 這時候可以配合一個叫Flume的工具來使用,它是專門用來提供數據的簡單處理,編寫各種Data接收器(比如Kafka)。
9.火花
它是用來彌補數據處理速度上的缺點的。 其特點是將數據加載到內存中進行計算,而不是讀取速度極慢的硬盤。 它特別適合迭代運算大數據技術是學什么的,所以算法主播特別喜歡它。 它是用scala編寫的。 它可以用Java語言或Scala來操作,因為它們都使用JVM。
當你掌握了這些技術英語作文,你基本上就可以成為一名專業的大數據開發工程師了。 之后,你可以進一步提高你的語言、機器學習等知識,以便你在以后的工作中變得越來越好。
大數據開發主要涉及學習編程語言和大數據處理技術。 關于如何學習,下面我給大家分享一個學習路線。 希望對您有所幫助。 知乎專欄也供大家參考學習:
「原創內容」