1、數(shù)據(jù)資源梳理
從業(yè)務(wù)的角度理清組織的數(shù)據(jù)資源環(huán)境和數(shù)據(jù)資源清單,包含組織機構(gòu)、業(yè)務(wù)事項、信息系統(tǒng),以及以數(shù)據(jù)庫、文件和 API 接口形式存在的數(shù)據(jù)項資源,本步驟的輸出物為分門別類的數(shù)據(jù)資源清單。
2、數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)價值的成功發(fā)掘必須依托于高質(zhì)量的數(shù)據(jù),唯有準(zhǔn)確、完整、一致的數(shù)據(jù)才有使用價值。因此,需要從多維度來分析數(shù)據(jù)的質(zhì)量,例如:非空檢查、規(guī)范性檢查、值域檢查、關(guān)聯(lián)關(guān)系檢查、重復(fù)性檢查等。
3、基礎(chǔ)庫與主題域建設(shè)
基礎(chǔ)數(shù)據(jù)一般指的是主數(shù)據(jù),例如會計科目、產(chǎn)品、物料、客戶、供應(yīng)商等數(shù)據(jù)。主題數(shù)據(jù)一般指的是某個業(yè)務(wù)主題數(shù)據(jù),例如市場監(jiān)督管理局的食品監(jiān)管、質(zhì)量監(jiān)督檢查、企業(yè)綜合監(jiān)管等數(shù)據(jù)。
4、數(shù)據(jù)采集清洗
通過可視化的 ETL 工具將數(shù)據(jù)從來源端經(jīng)過抽取、轉(zhuǎn)換、加載至目的端的過程,目的是將散落和零亂的數(shù)據(jù)集中存儲起來。
5、元數(shù)據(jù)管理
元數(shù)據(jù)管理是對基礎(chǔ)庫和主題庫中的數(shù)據(jù)項屬性管理,同時,將數(shù)據(jù)項的業(yè)務(wù)含義與數(shù)據(jù)項進行了關(guān)聯(lián),便于業(yè)務(wù)人員也能夠理解數(shù)據(jù)庫中的數(shù)據(jù)字段含義。
6、數(shù)據(jù)血緣追蹤
在元數(shù)據(jù)和數(shù)據(jù)資源清單之間建立關(guān)聯(lián)關(guān)系,且業(yè)務(wù)團隊使用的數(shù)據(jù)項由元數(shù)據(jù)組合配置而來,建立數(shù)據(jù)使用場景與數(shù)據(jù)源頭之間的血緣關(guān)系。在數(shù)據(jù)業(yè)務(wù)場景使用過程中發(fā)現(xiàn)錯誤時,數(shù)據(jù)治理團隊可以快速定位數(shù)據(jù)來源,修復(fù)數(shù)據(jù)錯誤。
7、數(shù)據(jù)共享交換
數(shù)據(jù)共享分為庫表、文件和 API 接口三種共享方式。庫表共享比較直接,文件共享方式通過 ETL 工具做一個反向的數(shù)據(jù)交換就可以實現(xiàn)。我們比較T薦的是 API 接口共享方式,在這種方式下,能夠讓中心數(shù)據(jù)倉庫保留數(shù)據(jù)所有權(quán),把數(shù)據(jù)使用權(quán)通過 API 接口的形式進行了轉(zhuǎn)移。
8、數(shù)據(jù)資源目錄
數(shù)據(jù)資源目錄一般應(yīng)用于數(shù)據(jù)共享的場景,例如政府部門之間的數(shù)據(jù)共享。數(shù)據(jù)資源目錄是基于業(yè)務(wù)場景和行業(yè)規(guī)范而創(chuàng)建,同時依托于元數(shù)據(jù)和基礎(chǔ)庫主題實現(xiàn)自動化的數(shù)據(jù)申請和使用。