大數(shù)據(jù)可視化技術(shù)可以說是大數(shù)據(jù)分析和應(yīng)用的一個非常關(guān)鍵的技術(shù),中培偉業(yè)《大數(shù)據(jù)分析與可視化技術(shù)》謝老師在這里向大家分享了在大數(shù)據(jù)可視化分析方面的經(jīng)典案例。
下圖是美國執(zhí)行的臨床藥物試驗收集到的結(jié)果資料視覺化成圖表。藥物試驗通常非常復雜且牽涉了在長時間累積的資料。
試驗通常涉入不止一人,病人會被分成許多隊伍。每一隊會有不同的特性,比如特別的用藥順序。結(jié)果會有大量的資料包含不同的試驗藥物以及觀察到的結(jié)果。我們將資料視覺化來尋找試驗藥物及負面副作用之間的關(guān)連性。
圖表上的四個星星呈現(xiàn)出同一個藥物試驗資料利用不同視覺化方式所得的結(jié)果。每五個形成星星的點都表示一種藥物或藥物變種在試驗中施用在隊伍中每個病人。在中間的點代表病人體驗到的一種不希望有的副作用。不同藥物及副作用間的連結(jié)用線條來表示。
我們現(xiàn)在可以輕易的觀察到在星星外圍的每一種藥物與在中間的副作用之間的連結(jié)。這里也呈現(xiàn)四種不同的視覺化變形。每一個在不同物件的過濾器都標記了一個特別的發(fā)現(xiàn)。舉例來說,某種負面副作用及一種藥物之間的連結(jié)或在五種藥物試驗及副作用之間使用顏色來強調(diào)連結(jié)的強度。
分析方法
這份資料較復雜且在使用圖表工具軟體之前涉入需多處理步驟。首先,利用網(wǎng)站clinicaltrials.gov 的工具下載其上的報告。下載的檔案格式為XML,在分析之前這些XML 檔案需要經(jīng)過Teradata Aster MapReduce 函數(shù)作前處理。根據(jù)文字探勘(Text Mining) 函數(shù)從報告中擷取關(guān)于特別藥物的副作用名字,使得點跟線的資訊可以在關(guān)聯(lián)式表格中建立。從表格中儲存的資訊就可以畫出圖表以及計算出不同的量測資訊。在處理資料遇到的挑戰(zhàn)有異常值(outlier) 及遺漏值(missing value)
有這四種呈現(xiàn)方式使得我們可以在資料中看到不同的重要的模式。線的顏色跟藥物及副作用之間的連結(jié)強度有關(guān)。這些資料發(fā)布在公開網(wǎng)域并且可以從clinicaltrial.gov FDA.gov 取得。
大數(shù)據(jù)可視化技術(shù)在大數(shù)據(jù)時代發(fā)揮著不可替代的重要作用,有著非常廣闊的市場前景。中培偉業(yè)作為國內(nèi)IT培訓領(lǐng)導品牌,下一期的《大數(shù)據(jù)分析及可視化技術(shù)應(yīng)用實戰(zhàn)》培訓將于9月22日—25日在 上海 舉行,歡迎廣大行業(yè)人才積極報名參加!