都說如今是互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,很多事情都是可用大數(shù)據(jù)來解釋的。與之相對(duì)應(yīng)的還有數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)也出現(xiàn)在大眾面前。這不免讓很多不了解的人有些暈。那么數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)是什么關(guān)系?有的人說數(shù)據(jù)庫(kù)就是儲(chǔ)藏大數(shù)據(jù)的地方唄,其實(shí)這只是其中的一部分,并不是全面的介紹,下面我們就來詳細(xì)了解一下三者之間的關(guān)系。
數(shù)據(jù)處理的起源
人類的發(fā)展,離不開數(shù)據(jù)的處理。最早的數(shù)據(jù)處理方式是什么?可能是結(jié)繩記事——這種古老的數(shù)據(jù)處理方式,包含了現(xiàn)代計(jì)算機(jī)擁有的數(shù)據(jù)存儲(chǔ)、查詢、分析等全部功能。
這個(gè)方法貌似可以,但是數(shù)據(jù)量稍微大一點(diǎn)的話……
后來,人類創(chuàng)造出了文字后,數(shù)據(jù)處理能力就大多了。一個(gè)典型的“應(yīng)用”是,從舊石器時(shí)代開始,人們就通過甲骨文進(jìn)行記賬。
到新石器時(shí)代中晚期,母系氏族社會(huì)經(jīng)濟(jì)高度發(fā)展,人們開始創(chuàng)造并廣泛采用成套的刻劃符號(hào)進(jìn)行記錄、計(jì)量。
數(shù)據(jù)庫(kù)的誕生
現(xiàn)代數(shù)據(jù)處理革命性的進(jìn)展,要等到1960年。為了解決零件管理問題。一款叫做ICS的軟件被研發(fā)出來了,專門用來管理這些零件信息。
后來以此為基礎(chǔ)誕生了大名鼎鼎的IMS(Information Management System)數(shù)據(jù)庫(kù)。這是現(xiàn)代數(shù)據(jù)庫(kù)的祖先。
如何理解數(shù)據(jù)庫(kù)呢
可以把它想象為加強(qiáng)版的EXCEL,在一個(gè)表格中記錄數(shù)據(jù)。例如學(xué)生的成績(jī)單,記錄有姓名、學(xué)科、成績(jī)信息。想要查詢下學(xué)生的平均成績(jī),只需要按順序遍歷這個(gè)表格,加和取平均數(shù)。
如果學(xué)生很多,對(duì)于EXCEL來說那就比較麻煩,但對(duì)于數(shù)據(jù)庫(kù)來說則比較簡(jiǎn)單,可使用一種叫SQL的語言,通過描述性的交互取得數(shù)據(jù),非常方便。
數(shù)據(jù)倉(cāng)庫(kù)的誕生
數(shù)據(jù)庫(kù)的誕生,很好地解決了保存、使用數(shù)據(jù)的問題,大量類似的產(chǎn)品涌現(xiàn)出來。
但到了上世紀(jì)70、80年代,企業(yè)管理的內(nèi)部數(shù)據(jù)發(fā)生了一些變化,一方面數(shù)據(jù)量越來越大,另一方面使用復(fù)雜度提高很多。各種復(fù)雜報(bào)表令人非常頭疼,要在其中挖掘出數(shù)據(jù)背后的價(jià)值,當(dāng)時(shí)的數(shù)據(jù)庫(kù)已經(jīng)跟不上需求。
于是,專門用于數(shù)據(jù)分析的數(shù)據(jù)庫(kù)誕生了——1988年數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)的概念第一次被提出了。
數(shù)據(jù)倉(cāng)庫(kù)之于數(shù)據(jù)庫(kù)就如同F(xiàn)1跑車與普通轎車的區(qū)別。
普通轎車突出功能性、舒適性、安全性等等,可滿足通用化的全面需求;而F1跑車則強(qiáng)調(diào)極致性能,而犧牲了舒適性等。數(shù)據(jù)倉(cāng)庫(kù)就是針對(duì)數(shù)據(jù)分析類場(chǎng)景,有特殊定制優(yōu)化的產(chǎn)品。
大數(shù)據(jù)的沖擊
到了上世紀(jì)90年代,隨著互聯(lián)網(wǎng)的興起,數(shù)據(jù)量爆炸式增長(zhǎng),數(shù)據(jù)處理規(guī)模已經(jīng)從MB(1首MP3)、發(fā)展到TB(20萬首歌)乃至EB級(jí)(2億首歌)的驚人規(guī)模。
此外,數(shù)據(jù)處理還產(chǎn)生了實(shí)時(shí)性等新要求,基于傳統(tǒng)架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù)也面臨巨大挑戰(zhàn)。
就在這個(gè)時(shí)候,大數(shù)據(jù)概念被首次提出了,拉開了“大數(shù)據(jù)”時(shí)代的大幕。原來令人困擾的問題,似乎一夜之間找到答案。
不同于今天大家耳熟能詳?shù)拇髷?shù)據(jù),這里的大數(shù)據(jù)可以理解為一種數(shù)據(jù)處理技術(shù),簡(jiǎn)單說,就是在單臺(tái)計(jì)算機(jī)簡(jiǎn)單計(jì)算的基礎(chǔ)上,通過堆積計(jì)算機(jī)這樣的線性擴(kuò)展方式來處理數(shù)據(jù)。
數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)當(dāng)時(shí)處理不了的海量數(shù)據(jù),在這種分布式處理思路下迎刃而解,數(shù)據(jù)庫(kù)幾十年的積累,一夜之間被大數(shù)據(jù)吊打。
回歸數(shù)據(jù)庫(kù)
然而,大數(shù)據(jù)的狂野架構(gòu),從誕生之日起就決定其短板:分布式的方式固然很方便擴(kuò)展,但是,作為大數(shù)據(jù)技術(shù)的基本單元,單機(jī)技術(shù)設(shè)計(jì)很粗糙,因此很快暴露出計(jì)算效率不高、精確性、準(zhǔn)確度不足等問題。
而大數(shù)據(jù)技術(shù)的短板,正式數(shù)據(jù)庫(kù)的強(qiáng)項(xiàng)。
事實(shí)上,后來大數(shù)據(jù)體系中引入SQL、MPP引擎、列存等等,正是吸取了數(shù)據(jù)庫(kù)幾十年來積累的一點(diǎn)點(diǎn)精華。但是大數(shù)據(jù)技術(shù)的基礎(chǔ)過于野蠻,因此很難改進(jìn)。
而此時(shí),因?yàn)榉植际絽f(xié)議的成熟,為數(shù)據(jù)庫(kù)解決此前無力承受的海量數(shù)據(jù)、多模異構(gòu)等問題提供了技術(shù)方案。數(shù)據(jù)庫(kù)的春天,又回來了!
通過上述介紹,我們知道數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)是什么關(guān)系了吧,想了解更多關(guān)于數(shù)據(jù)庫(kù)的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。