什么是大數(shù)據(jù)?
大數(shù)據(jù)就是利用一些技術(shù)手段來處理海量數(shù)據(jù)并實現(xiàn)其價值。首先是海量數(shù)據(jù),如果沒有數(shù)據(jù)支撐,大數(shù)據(jù)就只是空談。其次是技術(shù)手段,用來離線或者實時處理數(shù)據(jù),其中的Hadoop你一定有所耳聞。目前,大數(shù)據(jù)應(yīng)用比較廣泛的行業(yè)有:電商、運營商、金融、醫(yī)療等。
為什么需要大數(shù)據(jù)?
這里就拿電商舉例。是否你曾經(jīng)思考過,為什么每次你瀏覽過的商品,就會出現(xiàn)在首頁推薦或者其他APP的廣告中。其實這就是大數(shù)據(jù)的應(yīng)用之一。
你在APP上瀏覽商品,后臺會收集你的商品瀏覽數(shù)據(jù),其中包括用戶賬號、商品類別等字段。此刻,如果你是技術(shù)人員,你會如何將瀏覽數(shù)據(jù)存放起來?在傳統(tǒng)開發(fā)思維中很多人會選擇:MySQL。
但是一天幾百、幾千億的商品瀏覽數(shù)據(jù),主機(jī)需要多大的磁盤才能完成數(shù)據(jù)留存?MySQL能處理這么多數(shù)據(jù)嗎?如何實時高效分析出用戶的瀏覽偏好?這需要開發(fā)者思考技術(shù)選型。
而大數(shù)據(jù)的出現(xiàn),就解決了這些問題。
大數(shù)據(jù)難學(xué)么?
大數(shù)據(jù)其實是不難學(xué)的,只是要求技術(shù)層面比較廣,涉及編程、網(wǎng)絡(luò)、主機(jī)等方面知識,需要多方面知識的沉淀。大數(shù)據(jù)的深入學(xué)習(xí)需要在理論的基礎(chǔ)上加以實踐。在學(xué)習(xí)技術(shù)框架的時候,最好動手在阿里云或者虛擬機(jī)上搭建集群,一方面可以提高Linux的使用能力和了解集群的運行原理,另一方面可以在集群上進(jìn)行操作練習(xí)。
其次,大數(shù)據(jù)技術(shù)在生產(chǎn)和測試環(huán)境中其實是不一樣的。生產(chǎn)環(huán)境會有實際的業(yè)務(wù)場景和各種各樣的問題,所以有機(jī)會接觸到大數(shù)據(jù)生產(chǎn)環(huán)境的話,學(xué)習(xí)效率會事半功倍。