? ?數(shù)據(jù)孤島是指企業(yè)內(nèi)部數(shù)據(jù)被隔離存儲,無法共享和交流。這會導(dǎo)致決策不準(zhǔn)確、運營效率低下、部門協(xié)作困難等問題。而數(shù)據(jù)打通則是解決這些問題的關(guān)鍵步驟,它可以提升決策準(zhǔn)確性、優(yōu)化運營效率、促進(jìn)部門協(xié)作,甚至發(fā)現(xiàn)潛在商業(yè)機會。通過打破數(shù)據(jù)孤島,企業(yè)能夠擁有全面、準(zhǔn)確、及時的數(shù)據(jù)資產(chǎn),為業(yè)務(wù)發(fā)展提供堅實的基礎(chǔ)。因此,現(xiàn)代企業(yè)都在努力打破數(shù)據(jù)孤島,實現(xiàn)數(shù)據(jù)的價值最大化。
數(shù)據(jù)處理-流
? ?企業(yè)數(shù)據(jù)處理的過程中,每個業(yè)務(wù)人員和數(shù)據(jù)之間需要有一個強大的工具,將數(shù)據(jù)規(guī)范化,處理數(shù)據(jù)模型,最后使用分析工具進(jìn)行可視化的展示。
架構(gòu)及中間件
數(shù)據(jù)傳輸離線數(shù)據(jù)同步
? ?離線數(shù)據(jù)主要采用DataX ETL工具,以輪詢或解析數(shù)據(jù)庫log的形式,將不同數(shù)據(jù)源的全量數(shù)據(jù)或增量數(shù)據(jù)同步到目標(biāo)數(shù)據(jù)庫。
? ?在線數(shù)據(jù)采集
? ?在線數(shù)據(jù)主要通過SDK/API把實時數(shù)據(jù)發(fā)送到采集服務(wù),經(jīng)過特定的處理后轉(zhuǎn)存到kafka集群中,后端可以接入不同的消費端,進(jìn)行實時數(shù)據(jù)的消費處理。
? ?應(yīng)用場景
- 數(shù)據(jù)本地/異地災(zāi)備
- 不停機遷移數(shù)據(jù)
- 數(shù)據(jù)遷移上云
- 數(shù)據(jù)歸檔存儲
- 搭建BI系統(tǒng)
- 數(shù)據(jù)實時分析數(shù)據(jù)倉庫 數(shù)據(jù)倉庫遵循標(biāo)準(zhǔn)的三層架構(gòu),對數(shù)據(jù)分層的定位主要采取維度模型設(shè)計,不會對數(shù)據(jù)進(jìn)行抽象打散處理,更多注重業(yè)務(wù)過程數(shù)據(jù)整合。現(xiàn)有數(shù)倉主要以離線為主
業(yè)務(wù)數(shù)據(jù)層:包含 STG(數(shù)據(jù)緩沖層)與 ODS(操作數(shù)據(jù)層)兩層,這兩層數(shù)據(jù)結(jié)構(gòu)與業(yè)務(wù)數(shù)據(jù)幾乎一致。
STG:也叫數(shù)據(jù)準(zhǔn)備區(qū),定位是緩存來自 DB 抽取、消息、日志解析落地的臨時數(shù)據(jù),結(jié)構(gòu)與業(yè)務(wù)系統(tǒng)保持一致;
負(fù)責(zé)對垃圾數(shù)據(jù)、不規(guī)范數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換;該層只為 ODS 層服務(wù)。ODS:操作數(shù)據(jù)層定位于業(yè)務(wù)明細(xì)數(shù)據(jù)保留區(qū),負(fù)責(zé)保留數(shù)據(jù)接入時點后歷史變更數(shù)據(jù),數(shù)據(jù)原則上全量保留。模型設(shè)計依據(jù)業(yè)務(wù)表數(shù)據(jù)變更特性采取拉鏈、流水表兩種形式。
公共數(shù)據(jù)層:細(xì)分為 DWD(明細(xì)數(shù)據(jù)層)、DWS(匯總數(shù)據(jù)層)、DIM(公共維度層) 三層,主要用于加工存放整合后的明細(xì)業(yè)務(wù)過程數(shù)據(jù),以及經(jīng)過輕度或重度匯總粒度公共維度指標(biāo)數(shù)據(jù)。公共數(shù)據(jù)層作為倉庫核心層,定位于業(yè)務(wù)視角,提煉出對數(shù)據(jù)倉庫具有共性的數(shù)據(jù)訪問、統(tǒng)計需求,從而構(gòu)建面向支持應(yīng)用、提供共享數(shù)據(jù)訪問服務(wù)的公共數(shù)據(jù)。
DWD:這一層是整合后的業(yè)務(wù)過程明細(xì)數(shù)據(jù),負(fù)責(zé)各業(yè)務(wù)場景垂直與水平數(shù)據(jù)整合、常用公共維度冗余加工,以及明細(xì)業(yè)務(wù)標(biāo)簽信息加工。DWS:匯總數(shù)據(jù)層按照主題對共性維度指標(biāo)數(shù)據(jù)進(jìn)行輕度、高度聚合。DIM:對維度進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化定義,實現(xiàn)維度信息共享。應(yīng)用數(shù)據(jù)層:DWA 層,主要用于各產(chǎn)品或各業(yè)務(wù)條線個性化的數(shù)據(jù)加工,例如商業(yè)化產(chǎn)品數(shù)據(jù)、搜索推薦,風(fēng)控等。