在數(shù)字化轉(zhuǎn)型的浪潮中,數(shù)據(jù)已成為政府和企業(yè)最寶貴的資產(chǎn)之一。然而,隨著數(shù)據(jù)量的爆炸性增長和數(shù)據(jù)來源的多樣化,如何有效管理和利用這些數(shù)據(jù)成為企業(yè)面臨的重要挑戰(zhàn)。數(shù)據(jù)血緣作為數(shù)據(jù)治理的重要組成部分,正逐漸成為政府和企業(yè)構(gòu)建數(shù)據(jù)生態(tài)的基石。
一、什么是數(shù)據(jù)血緣?
數(shù)據(jù)血緣是在數(shù)據(jù)的加工、流轉(zhuǎn)過程產(chǎn)生的數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。提供一種探查數(shù)據(jù)關(guān)系的手段,用于跟蹤數(shù)據(jù)流經(jīng)路徑。數(shù)據(jù)血緣通常包括以下關(guān)鍵信息:
1.數(shù)據(jù)來源:數(shù)據(jù)最初是從哪里產(chǎn)生的,比如數(shù)據(jù)庫、文件、外部系統(tǒng)或手動輸入等。
2.處理過程:數(shù)據(jù)在流轉(zhuǎn)過程中經(jīng)歷了哪些處理步驟,包括轉(zhuǎn)換、清洗、聚合等操作。
3.流轉(zhuǎn)路徑:數(shù)據(jù)在系統(tǒng)內(nèi)部或系統(tǒng)之間流轉(zhuǎn)的路徑,涉及的各個系統(tǒng)、表、字段和程序。
4.數(shù)據(jù)去向:數(shù)據(jù)最終被用于何處,比如報(bào)告、分析模型、業(yè)務(wù)決策支持等。
二、數(shù)據(jù)血緣的組成
1.數(shù)據(jù)節(jié)點(diǎn)
數(shù)據(jù)血緣中的節(jié)點(diǎn),可以理解為數(shù)據(jù)流轉(zhuǎn)中的一個個實(shí)體,用于承載數(shù)據(jù)功能業(yè)務(wù)。例如數(shù)據(jù)庫、數(shù)據(jù)表、數(shù)據(jù)字段都是數(shù)據(jù)節(jié)點(diǎn)。
按照血緣關(guān)系劃分節(jié)點(diǎn),主要有以下三類:流出節(jié)點(diǎn)->中間節(jié)點(diǎn)->流入節(jié)點(diǎn)
流出節(jié)點(diǎn): 數(shù)據(jù)提供方,血緣關(guān)系的源端節(jié)點(diǎn)。
中間節(jié)點(diǎn): 血緣關(guān)系中類型最多的節(jié)點(diǎn),既承接流入數(shù)據(jù),又對外流出數(shù)據(jù)。
流入節(jié)點(diǎn): 血緣關(guān)系的終端節(jié)點(diǎn),一般為應(yīng)用層,例如可視化報(bào)表、儀表板或業(yè)務(wù)系統(tǒng)。
2.節(jié)點(diǎn)屬性
當(dāng)前節(jié)點(diǎn)的屬性信息,例如表名,所屬數(shù)據(jù)庫,所屬數(shù)據(jù)源等。
3.流轉(zhuǎn)路徑
數(shù)據(jù)流轉(zhuǎn)路徑通過表現(xiàn)數(shù)據(jù)流動方向、數(shù)據(jù)更新量級、數(shù)據(jù)更新頻率三個維度的信息,標(biāo)明了數(shù)據(jù)的流入流出信息:
數(shù)據(jù)流動方向: 通過箭頭的方式表明數(shù)據(jù)流動方向
數(shù)據(jù)更新量級: 數(shù)據(jù)更新的量級越大,血緣線條越粗,說明數(shù)據(jù)的重要性越高。
數(shù)據(jù)更新頻率: 數(shù)據(jù)更新的頻率越高,血緣線條越短,變化越頻繁,重要性越高。
三、數(shù)據(jù)血緣價值和應(yīng)用場景
1.流程定位,追蹤溯源
通過可視化方式,將目標(biāo)表的上下游依賴進(jìn)行展示,一目了然。
2.確定影響范圍
通過當(dāng)前節(jié)點(diǎn)的下游節(jié)點(diǎn)數(shù)量以及類型可以確定其影響范圍,可避免出現(xiàn)上游表的修改導(dǎo)致下游表的報(bào)錯。
3.評估數(shù)據(jù)價值、推動數(shù)據(jù)質(zhì)量
通過對所有表節(jié)點(diǎn)的下游節(jié)點(diǎn)進(jìn)行匯總,排序,作為數(shù)據(jù)評估依據(jù),可重點(diǎn)關(guān)注輸出數(shù)量較多的數(shù)據(jù)節(jié)點(diǎn),并添加數(shù)據(jù)質(zhì)量監(jiān)控。
4.提供數(shù)據(jù)下架依據(jù)
例如以下數(shù)據(jù)節(jié)點(diǎn),無任何下游輸出節(jié)點(diǎn),且并無任何存檔需求,則可以考慮將其下架刪除。
5.歸因分析,快速恢復(fù)
當(dāng)某個任務(wù)出現(xiàn)問題時,通過查看血緣上游的節(jié)點(diǎn),排查出造成問題的根因是什么。同時根據(jù)當(dāng)前任務(wù)節(jié)點(diǎn)的下游節(jié)點(diǎn)進(jìn)行任務(wù)的快速恢復(fù)。
6.梳理調(diào)度依賴
可以將血緣節(jié)點(diǎn)與調(diào)度節(jié)點(diǎn)綁定,通過血緣依賴進(jìn)行ETL調(diào)度。
7.數(shù)據(jù)安全審計(jì)
數(shù)據(jù)本身具有權(quán)限與安全等級,下游數(shù)據(jù)的安全等級不應(yīng)該低于上游的安全等級,否則會有權(quán)限泄露風(fēng)險。
可以基于血緣,通過掃描高安全等級節(jié)點(diǎn)的下游,查看下游節(jié)點(diǎn)是否與上游節(jié)點(diǎn)權(quán)限保持一致,來排除權(quán)限泄露、數(shù)據(jù)泄露等安全合規(guī)風(fēng)險。
四、數(shù)據(jù)血緣如何建設(shè)
1.?定義元數(shù)據(jù)模型?:首先需要確定需要管理的元數(shù)據(jù)類型,如數(shù)據(jù)庫表、字段、ETL過程、數(shù)據(jù)倉庫模型等,并定義元數(shù)據(jù)的屬性,包括名稱、描述、數(shù)據(jù)類型、來源、去向等。
2.?收集元數(shù)據(jù)?:從各種數(shù)據(jù)源(如數(shù)據(jù)庫、數(shù)據(jù)倉庫、ETL工具、數(shù)據(jù)湖等)中提取元數(shù)據(jù),利用元數(shù)據(jù)抽取工具或服務(wù)自動化地收集元數(shù)據(jù)。
3.?建立血緣關(guān)系模型?:確定血緣關(guān)系的類型,如上游/下游關(guān)系、父子關(guān)系、依賴關(guān)系等,設(shè)計(jì)血緣關(guān)系圖模型,以圖形化的方式表示元數(shù)據(jù)之間的關(guān)系。
4.?追蹤數(shù)據(jù)流動?:通過對數(shù)據(jù)清洗、數(shù)據(jù)流向等任務(wù)的分析,提取數(shù)據(jù)流動和流向的血緣數(shù)據(jù),同時支持自動和手動方式,最終實(shí)現(xiàn)應(yīng)用程序血緣的數(shù)據(jù)采集。
5.?可視化分析?:將收集到的元數(shù)據(jù)和血緣關(guān)系以可視化的方式展示,便于理解和分析。
6.?持續(xù)更新和維護(hù)?:對數(shù)據(jù)血緣進(jìn)行持續(xù)的更新和維護(hù),確保數(shù)據(jù)的最新狀態(tài)被準(zhǔn)確記錄。
7.?應(yīng)用分析結(jié)果?:將分析結(jié)果應(yīng)用于實(shí)際的數(shù)據(jù)管理和優(yōu)化中,如新舊表切換、字段口徑探查、指標(biāo)自動化拆解等。
智政數(shù)智平臺,提供了完整的數(shù)據(jù)血緣功能,支持從數(shù)據(jù)調(diào)度任務(wù)以及元數(shù)據(jù)等不同的角度去查看數(shù)據(jù)血緣關(guān)系,滿足不同場景的需求。通過數(shù)據(jù)血緣圖譜,可以對數(shù)據(jù)的流轉(zhuǎn)流向關(guān)系進(jìn)行清晰的查看。從而為數(shù)據(jù)治理、數(shù)據(jù)清洗等提供全面的數(shù)據(jù)關(guān)系服務(wù)。