美團住宿數(shù)據(jù)治理團隊從事數(shù)據(jù)治理工作多年,從最初的被動、單點治理,發(fā)展到后來的主動、專項治理,再發(fā)展到現(xiàn)在的體系化、自動化治理。一路走來,他們不斷進行積累和沉淀,也在持續(xù)思考與實踐。目前該團隊取得了一些階段性的成果,并得到美團多個業(yè)務線的認可和肯定。過程的經(jīng)驗與教訓,希望能和大家分享,也希望能給從事數(shù)據(jù)治理工作的同學帶來一些新思路。
一、序言
二、背景介紹
三、治理體系化思考
3.1 什么是數(shù)據(jù)治理體系化?
3.2 數(shù)據(jù)治理體系化如何解決目前治理存在的問題?
3.3 業(yè)務數(shù)據(jù)管治體系框架如何建設?
3.4 體系框架如何落地實施?
四、治理體系化實踐
4.1 標準化
4.2 數(shù)字化
4.3 系統(tǒng)化
五、業(yè)務數(shù)據(jù)治理實施流程
六、總結與展望
一、序言
美團住宿數(shù)據(jù)治理團隊通過多年數(shù)倉建設及數(shù)據(jù)治理的經(jīng)驗沉淀,并結合業(yè)務發(fā)展階段對于數(shù)據(jù)治理的訴求,將治理的思路逐步從專項、表象、問題驅動的治理,轉變?yōu)樽詣踊Ⅲw系化的治理,并從標準化、數(shù)字化、系統(tǒng)化三個方向進行了落地與實踐。
二、背景介紹
美團住宿業(yè)務從2014年上線之后發(fā)展多年,歷經(jīng)探索期、進攻期,發(fā)展期,并逐步由發(fā)展期向變革期過渡。業(yè)務從之前的快速擴張階段進入相對穩(wěn)定的發(fā)展階段,運營手段轉變?yōu)榫毣\營,同時對數(shù)據(jù)的成本、效率、安全、價值等方向的要求也越來越高,這些都對數(shù)據(jù)治理提出了新的要求。圖1 住宿業(yè)務發(fā)展階段另一方面,住宿數(shù)據(jù)組所屬的數(shù)據(jù)中心內(nèi)部有住宿、門票度假等多條業(yè)務線,各業(yè)務線業(yè)務模式不同,所處業(yè)務生命周期階段不同,在數(shù)據(jù)治理上的認知及經(jīng)驗積累也不同。如何能將數(shù)據(jù)治理經(jīng)驗及能力高效復用,使數(shù)據(jù)中心各業(yè)務線在數(shù)據(jù)治理的效率和效果上都能穩(wěn)步提升,避免踩坑,這就需要數(shù)據(jù)治理更加標準化、體系化、自動化。此前,我們在數(shù)據(jù)治理上已經(jīng)有了一些積累和沉淀,前一階段主要從單點、被動的治理轉變?yōu)橹鲃?、專項的治理,治理動作有意識、有規(guī)劃,也有一定的針對性,且取得了一定的成果(前一階段的治理經(jīng)驗可參考《美團酒旅數(shù)據(jù)治理實踐》一文),但總的來說仍以問題驅動治理、憑經(jīng)驗治理為主。面對新的數(shù)據(jù)治理責任及要求,過往的方式存在著一些問題,主要包括以下幾個方面。治理認知差異大
- 認知不一致,思路不統(tǒng)一:治理缺乏通用的體系指引,不同的治理人對于數(shù)據(jù)治理的認知深度、問題拆解的方式、治理的思路步驟、采取的方法及其效果追蹤等方面,都存在較大的差異。
- 重復治理、信息不通:治理不徹底、治理經(jīng)驗缺乏沉淀,同樣的治理,不同的人反復實行。
- 范圍交叉、邊界不清、效果難評估:不同的人針對不同的問題成立不同的專項進行治理,問題的底層邏輯有交叉。有的治理沒做什么動作,反而收到了較好的結果,有的治理對于結果說不清。
治理方法不標準
- 流程規(guī)范缺失:對于每個方向、每類問題的治理缺少理論指導,治理的方法、動作、流程、步驟依賴治理人的經(jīng)驗和判斷。
- 問題難度量追蹤:治理的問題缺少衡量標準,更多靠人為來進行判斷,治理效果缺少評估體系。
- 解決方案難落地:解決方案存在于文檔中,需要治理人查找理解,缺少工具支撐,成本較高。
治理效率低、效果差
- 治理線上化程度低:治理依賴的資產(chǎn)信息、治理動作都分散于多個系統(tǒng)中,信息碎片化,執(zhí)行效率低。
- 過程無法標準化,結果無保障:治理過程需要治理人來“人為保障”,存在理解偏差和執(zhí)行偏差。
數(shù)據(jù)管治缺乏體系化
- 缺乏整體頂層治理方案設計:業(yè)務及數(shù)據(jù)中心對于數(shù)據(jù)治理的要求,需要治理更全面、更精細、更有效,需要治理的體系化,需要從宏觀角度進行思考,層層拆解,需要從整體、從頂層來做方案設計。
- 問題越來越復雜,單點難解決:過往更多的是從表象去解決問題,從表面來看衡量指標有改善,實際是“頭痛醫(yī)頭、腳痛醫(yī)腳”,并沒有從根本上解決問題。或者多個問題具有共性,根本問題是一致的。比如查詢資源緊張的根本,可能是分析主題模型建設不足或運營不夠。
- 不同問題的優(yōu)先級無法確定:不同問題的優(yōu)先級缺乏衡量標準和方法,主要靠人為判斷。
- 治理不符合MECE原則:每個治理方向由哪些問題組成,哪些最重要,哪些的ROI最高,哪些問題和治理動作可以合并,同一問題在數(shù)倉不同主題、不同分層的衡量標準和治理方法應該有哪些差異,都需要在體系化治理中進行考慮。
三、治理體系化思考
從上述背景中不難看出,我們面臨著不同業(yè)務生命周期階段對數(shù)據(jù)建設和治理不同的要求及挑戰(zhàn),同時過往更多的以被動治理、問題驅動的專項治理方式方法也比較落后,這直接導致技術團隊很難滿足業(yè)務方對于財務、業(yè)務支持等方面的要求。通過不斷的汲取教訓和總結經(jīng)驗,我們開始意識到數(shù)據(jù)管治是一個非常復雜的綜合性問題,只有構建出一套標準的業(yè)務數(shù)據(jù)管治體系,才能確保數(shù)據(jù)治理在現(xiàn)狀評估、目標制定、流程規(guī)范建設、治理監(jiān)控管理、能力建設、執(zhí)行效率、效果評價等各環(huán)節(jié)有效落地。下面介紹一下我們在治理體系化層面的理解和思考。
3.1 什么是數(shù)據(jù)治理體系化?
針對數(shù)據(jù)管理和治理,我們期望搭建一套集管理體系、方法體系、評價體系、標準體系、工具體系等核心能力的組合,持續(xù)服務于數(shù)據(jù)管治實施。可以類比一般的電商公司,如果需要運轉并服務好顧客,它首先必須搭建起來一套銷售體系、產(chǎn)品體系、供給體系、物流體系、人力體系等等,只有這樣才可以相互配合,實現(xiàn)服務好用戶這一大目標。圖2 數(shù)據(jù)治理體系思考
3.2 數(shù)據(jù)治理體系化如何解決目前治理存在的問題?
- 方式方法上:先做頂層治理框架設計,從團隊整體視角定義和規(guī)劃好治理的范圍、人員、職責、目標、方法、工具等必須部分,再進行落地。更關注整體策略的普適性及有效性,而非深陷某個具體問題解決方案開始治理。
- 技術手段上:以完善的技術研發(fā)規(guī)范為基礎,以元數(shù)據(jù)及指標體系為核心,對業(yè)務數(shù)倉和數(shù)據(jù)應用進行全面評價和監(jiān)控,同時配套治理系統(tǒng)工具,幫助治理同學落地治理策略和解決數(shù)據(jù)開發(fā)同學治理效率低問題。
- 運營策略上:通過對待治理問題進行影響范圍、收益情況進行評估,確定待治理問題的重要度,從管理者視角以及問題責任人視角2個途徑推動不同重要程度的治理問題解決。
3.3 業(yè)務數(shù)據(jù)管治體系框架如何建設?
我們的建設思路是:以團隊數(shù)據(jù)治理目標為核心導向,設計實現(xiàn)目標需要的相關能力組合,并根據(jù)組織要求,實施過程的問題反饋,持續(xù)不斷地迭代完善,最終實現(xiàn)數(shù)據(jù)治理的愿景。體系框架主要包含以下內(nèi)容:
- 管理層:立法,制定相關的組織保障流程規(guī)范、職責設計、獎懲措施,指導和保障數(shù)據(jù)治理順利進行,這是數(shù)據(jù)治理能夠成功啟動運轉的關鍵因素。
- 標準層:設標準,制定各類研發(fā)標準規(guī)范、解決方案標準SOP等數(shù)據(jù)治理過程中需要的各類技術規(guī)范和解決方案,這是所有技術問題正確與否的重要依據(jù),也是治理中事前解決方案必不可少的一部分。完善的標準規(guī)范和良好的落地效果,可很好地降低數(shù)據(jù)故障問題的發(fā)生量。
- 能力層:完善能力,主要是基于元數(shù)據(jù)的問題度量的數(shù)字化能力,以及問題工具化檢測和解決的系統(tǒng)化能力。數(shù)字化和系統(tǒng)化能力是數(shù)據(jù)治理實施的科學性、實施的質(zhì)量及效率的重要保障。
- 執(zhí)行層:設定動作,結合要達成的具體目標,對各治理域問題,按照事前約束、事中監(jiān)控、事后治理的思路進行解決。目標的達成,需要拆分到7大治理域相關的具體問題中去落地。因此,一個治理目標的達成,很依賴治理域對問題描述的全面性及深度。
- 評價層:給出評價,基于指標的問題監(jiān)控,健康度評價體系,專項評估報告,評價治理收益及效果,這是實施治理推進過程監(jiān)控,結果檢驗的重要抓手。
- 愿景:長期治理目標,指導數(shù)據(jù)管治有方向地不斷朝著最終目標前進。
圖3 數(shù)據(jù)治理體系概覽體系框架建設成果:業(yè)務數(shù)據(jù)治理體系框架是針對數(shù)據(jù)治理工作整體做的頂層方案設計,框架定義好了業(yè)務線數(shù)據(jù)治理是什么、怎么做、做什么、用什么工具以及達成什么目標。拉齊各方對業(yè)務數(shù)據(jù)治理的認知,標準化治理路徑方法和組成部分,指導數(shù)據(jù)治理有序、有效地進行。圖4 數(shù)據(jù)治理體系框架
3.4 體系框架如何落地實施?
參照業(yè)務線數(shù)據(jù)標準化管治體系框架各組成部分特點,我們具體通過標準化、數(shù)據(jù)化、系統(tǒng)化3大部分能力建設及運營,來實現(xiàn)數(shù)據(jù)管治體系框架的落地,并應用在數(shù)據(jù)治理問題的解決中,最終拿到可量化的結果。圖5 數(shù)據(jù)治理體系化落地思路
四、治理體系化實踐
4.1 標準化
數(shù)據(jù)治理標準化是企業(yè)進行數(shù)據(jù)資產(chǎn)管理的關鍵突破口和重要手段,一系列政策、法規(guī)、規(guī)劃需要轉化為標準和制度才能有效落地。數(shù)據(jù)治理標準化既有利于建立健全各種數(shù)據(jù)管理工作機制、完善業(yè)務流程,又有利于提升數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)安全合規(guī)使用,釋放數(shù)據(jù)價值。但在數(shù)據(jù)治理標準化建設過程中,我們經(jīng)常會面臨以下三個問題:
- 流程規(guī)范缺失:各個環(huán)節(jié)缺少標準和約束來指導規(guī)范化操作,無法有效杜絕問題的發(fā)生、解決。
- 落地條件差:規(guī)范標準、SOP等不具備落地條件,靠主觀意愿,無法有效落地,效果差。
- 建設方法不合理:規(guī)范建設Case by Case,缺少體系化建設思路導致“一直建、一直缺”。
針對上述三個問題,我們從解決問題的視角出發(fā),劃分數(shù)據(jù)開發(fā)流程,通過事前約束、事中監(jiān)控、事后分析評估的思路,整理補齊缺失的流程規(guī)范,從而實現(xiàn)標準流程規(guī)范在數(shù)據(jù)管治各環(huán)節(jié)全覆蓋,并建設系統(tǒng)化工具來保障標準規(guī)范的落地實施。下文將分別從規(guī)范建設及工具保障兩方面來介紹我們在數(shù)據(jù)治理標準化過程中是如何解決上述問題的。圖6 數(shù)據(jù)治理標準化思路
4.1.1 規(guī)范建設
規(guī)范是數(shù)據(jù)治理建章立制的基礎,針對標準規(guī)范建設不合理及流程規(guī)范缺失的問題,我們用體系化的建設思路從整體架構上對數(shù)據(jù)開發(fā)流程及數(shù)據(jù)治理流程進行劃分,并針對全流程數(shù)據(jù)管治各個環(huán)節(jié)建設相應規(guī)范:
- 數(shù)據(jù)治理管理規(guī)范:明確數(shù)據(jù)治理組織職責以及人員構成,確定數(shù)據(jù)治理實施流程及治理問題運維流程,以保障數(shù)據(jù)治理過程順利進行。
- 數(shù)據(jù)研發(fā)規(guī)范:明確數(shù)據(jù)開發(fā)各個環(huán)節(jié)需要遵守的規(guī)范要求,從問題產(chǎn)生的源頭,通過建設完善的研發(fā)規(guī)范,指導研發(fā)工作按標準進行,一定程度上可減少問題發(fā)生。
- 數(shù)據(jù)標準化治理SOP:明確各個治理問題治理動作,確保治理動作是標準且可實施。
- 數(shù)據(jù)健康度評估規(guī)范:明確治理效果的評價標準,對數(shù)據(jù)體系做到長期,穩(wěn)定及指標化的衡量。
圖7 數(shù)據(jù)治理規(guī)范化建設成果
4.1.2 工具保障
標準規(guī)范可視化-知識中心
在標準規(guī)范的共享方面,以往技術團隊在實際規(guī)范落地過程中可能存在以下問題:
- 規(guī)范找不著:重要規(guī)范文檔散落在各個Wiki空間,導致使用時無法快速查找,效率低下。
- 規(guī)范質(zhì)量差:文檔沒有統(tǒng)一進行維護,無法持續(xù)進行迭代和完善,不能隨著業(yè)務及技術的發(fā)展更新。
- 規(guī)范沒權限:文檔散落在各個成員的私人空間內(nèi)部,未對所有人開通權限,優(yōu)質(zhì)內(nèi)容無法及時共享。
針對上述問題,我們重新收集整理已有規(guī)范文檔并進行分類,補充缺失文檔,優(yōu)化文檔內(nèi)容,并新增知識中心模塊,將知識體系框架產(chǎn)品化,在產(chǎn)品層面維護統(tǒng)一的入口及權限管理,同時嚴格控制發(fā)布流程,解決了標準規(guī)范在實際落地時“找不著”、“質(zhì)量差”、“沒權限”等問題。圖8 知識中心及文檔發(fā)布流程
測試規(guī)范工具化-八卦爐
在數(shù)據(jù)測試規(guī)范落地方面,以往數(shù)據(jù)測試規(guī)范都是通過Wiki維護,無法約束大家實際執(zhí)行過程,導致數(shù)據(jù)質(zhì)量較差,容易出現(xiàn)數(shù)據(jù)故障。為減少數(shù)據(jù)開發(fā)過程中由于測試不規(guī)范而導致數(shù)據(jù)故障的情況,提升數(shù)據(jù)質(zhì)量及業(yè)務滿意度,我們利用數(shù)據(jù)中心與數(shù)據(jù)平臺工具組合作共建的ETL測試工具(美團內(nèi)部工具-八卦爐)來保障測試規(guī)范SOP落地執(zhí)行,要求大家在不影響測試驗數(shù)效率情況下充分測試,實現(xiàn)數(shù)據(jù)治理問題在事前約束,減少事后問題量,保障數(shù)據(jù)質(zhì)量,工具建設如下圖所示:圖9 測試規(guī)范工具化-美團八卦爐架構圖
治理提效保質(zhì)工具-SOP自動化工具
在日常數(shù)據(jù)開發(fā)工作中,數(shù)據(jù)工程師會承擔一部分數(shù)據(jù)治理工作,以往都是通過執(zhí)行數(shù)據(jù)治理SOP中每個步驟對問題進行治理,但經(jīng)常會面臨以下幾個問題:
- 治理效率低:需要根據(jù)SOP中治理經(jīng)驗,去各個平臺分別執(zhí)行相應治理動作,對于一些步驟較為復雜的SOP,需要跳轉多個平臺操作,治理效率較低。
- 治理過程無法約束:治理經(jīng)驗浮于文字,無法約束數(shù)據(jù)工程師的執(zhí)行動作,導致部分問題治理不徹底。
基于上述問題,我們開發(fā)了治理提效工具-SOP自動化工具,匯總多個平臺治理工具,將數(shù)據(jù)治理標準化SOP的各個執(zhí)行步驟通過工具落地,實現(xiàn)在一個工具內(nèi)一站式治理能力,約束工程師的治理動作,確保整個治理過程是標準的,效果是可監(jiān)控的,從而提升了治理效率及治理質(zhì)量。比如無效任務的治理,首先需要調(diào)研問題治理經(jīng)驗并沉淀至SOP文檔,然后將SOP文檔中各個執(zhí)行步驟依次通過自動化的工具進行配置。數(shù)據(jù)工程師在治理時只需要在一個界面內(nèi)即可實現(xiàn)全部的治理動作,下圖是無效任務治理SOP及美團的自動化工具:圖10 無效任務治理SOP及美團的自動化工具
4.1.3 標準化收益及建設經(jīng)驗
通過數(shù)據(jù)治理標準化建設,我們解決了團隊在數(shù)據(jù)治理規(guī)范方面若干問題,取得了明顯效果:
- 實現(xiàn)了數(shù)據(jù)開發(fā)、數(shù)據(jù)治理的標準化,解決了團隊內(nèi)各小組之間在開發(fā)、管理、運維方面流程方法標準不一致的問題。
- 通過測試工具對標準化測試規(guī)范進行落地,在事前阻塞問題發(fā)生,提升數(shù)據(jù)質(zhì)量,減少故障發(fā)生。
- 通過SOP自動化工具,有效保障治理過程的標準化,解決了治理效果差的問題。
同時,我們在實際建設的過程中,也總結了一些標準化的建設經(jīng)驗:
- 標準規(guī)范如何落地,需成為標準流程規(guī)范建設的一部分,最好有交付物。
- 標準規(guī)范的制定,除常規(guī)內(nèi)容外,需要綜合考慮組織目標、組織特點、已有工具、歷史情況、用戶反饋等因素,否則會給人“不接地氣”的感覺。
- 標準規(guī)范的制定要優(yōu)先考慮利用和適配已有工具能力,借助工具落地,而非讓工具適配流程規(guī)范。
4.2 數(shù)字化
以往大家在開展數(shù)據(jù)治理工作時主要依賴經(jīng)驗判斷,缺乏科學可量化的抓手,對治理問題的嚴重程度無法準確感知,同時對治理收益的回收也不能準確評估。因此我們開展了數(shù)字化的工作,將大家數(shù)據(jù)開發(fā)工作用數(shù)據(jù)描述,構建整個數(shù)據(jù)開發(fā)工作的準確視圖。
4.2.1 數(shù)字化架構設計方案
建設思路:通過對數(shù)據(jù)生命周期各環(huán)節(jié)進行類比業(yè)務數(shù)倉建設中抽象和描述業(yè)務對象方式,進行元數(shù)據(jù)對象的抽象和描述,并建設成元數(shù)據(jù)數(shù)倉和治理指標體系,應用在數(shù)據(jù)管治場景??蚣苤饕獢?shù)據(jù)倉庫、指標體系、數(shù)據(jù)資產(chǎn)等級以及基于元數(shù)倉基礎上建立的各個數(shù)據(jù)應用,利用元數(shù)據(jù)驅動數(shù)據(jù)治理及日常團隊管理,避免過多依賴經(jīng)驗解決問題,更好地服務業(yè)務。下邊幾個章節(jié)將分別介紹數(shù)字化框架最核心的數(shù)據(jù)內(nèi)容:元數(shù)據(jù)倉庫、指標體系、數(shù)據(jù)資產(chǎn)等級。圖11 數(shù)字化框架
4.2.2 元數(shù)據(jù)倉庫建設
元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),包含數(shù)據(jù)資產(chǎn)種類、數(shù)據(jù)存儲大小、數(shù)據(jù)流血緣關系、數(shù)據(jù)生產(chǎn)過程等信息,存在信息種類多,分布零散,信息不完整的特點。豐富的元數(shù)據(jù)有助于我們快速了解團隊數(shù)據(jù)資產(chǎn),讓數(shù)據(jù)資產(chǎn)更加精準,透明。為數(shù)據(jù)使用和價值釋放提供支撐。我們的建設思路,采取數(shù)據(jù)業(yè)務化、業(yè)務數(shù)字化、數(shù)字應用化的思路來搭建元數(shù)據(jù)倉庫。
- 數(shù)據(jù)業(yè)務化:即將數(shù)據(jù)工程師日常數(shù)據(jù)開發(fā)工作業(yè)務化描述,抽象多個業(yè)務過程,如需求提出、任務開發(fā)、數(shù)據(jù)表產(chǎn)出、數(shù)據(jù)應用、需求交付。
- 業(yè)務數(shù)字化:用建設業(yè)務數(shù)倉的思路和方法,對數(shù)據(jù)業(yè)務化之后的各個業(yè)務過程及主題,搭建元數(shù)據(jù)數(shù)倉及指標衡量體系,并通過元數(shù)據(jù)場景化應用提升易用性及豐富度。
- 數(shù)字應用化:在元數(shù)據(jù)倉庫基礎上開發(fā)數(shù)據(jù)產(chǎn)品,驅動數(shù)據(jù)管治實施。
圖12 數(shù)據(jù)業(yè)務化思路通過數(shù)據(jù)業(yè)務化思路,我們抽象業(yè)務域、管理域、技術域等3大主題域來描述元數(shù)倉對象,并對每個主題域進行細分,劃分多個主題:
- 業(yè)務元數(shù)據(jù):基于具體業(yè)務邏輯元數(shù)據(jù),常見業(yè)務元數(shù)據(jù)包括業(yè)務定義、業(yè)務術語、業(yè)務規(guī)則、業(yè)務指標等。
- 技術元數(shù)據(jù):描述了與數(shù)據(jù)倉庫開發(fā)、管理和維護相關數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)倉庫模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問權限等,主要為開發(fā)和管理數(shù)據(jù)倉庫的工程師使用。
- 管理元數(shù)據(jù):描述管理領域相關概念、關系和規(guī)則的數(shù)據(jù),主要包括管理流程、人員組織、角色職責等信息。
圖13 元數(shù)據(jù)倉庫主題信息建設在元數(shù)倉分層上,我們采用最常見的四層架構分層方式,分別是貼源層、明細層、匯總層、應用層和維度信息。區(qū)別于業(yè)務數(shù)倉分層設計方式,從明細層就按維度建模思路組織數(shù)據(jù),避免過度設計,只需要做好主題劃分和解耦。在匯總層從分析習慣出發(fā)耦合數(shù)據(jù),提升易用性。應用層按需創(chuàng)建所需接口支撐應用。圖14 元數(shù)據(jù)倉庫分層目前,我們已完成元數(shù)據(jù)倉庫技術域、管理域、業(yè)務域部分內(nèi)容的建設,并已支撐指標體系及上層多個數(shù)據(jù)應用,未來仍將根據(jù)大家在實際工作中核心關注的內(nèi)容對元數(shù)倉進一步補充和完善。圖15 元數(shù)據(jù)倉庫建設成果
4.2.2 指標體系建設
一個問題的衡量需要從多方面進行考慮,只用一個指標無法充分說明問題,這就需要一組有邏輯且相互關聯(lián)的數(shù)據(jù)指標來描述問題。在數(shù)據(jù)開發(fā)過程中,需要制定多個指標來監(jiān)控衡量數(shù)據(jù)開發(fā)團隊在質(zhì)量、安全、效率、成本等方面存在的問題。此前,住宿數(shù)據(jù)團隊沒有一套成熟穩(wěn)定的指標體系,無法長期準確衡量團隊的業(yè)務支持能力、技術能力。2020年,我們在元數(shù)據(jù)倉庫基礎上搭建了數(shù)據(jù)治理指標體系,全面衡量了業(yè)務數(shù)倉建設過程中各類問題,通過指標體系監(jiān)測工作中的優(yōu)點與不足,提升了團隊的工作能力,進而提高了對業(yè)務的支持能力。建設方案指標體系的建設目標是監(jiān)控團隊工作狀態(tài)和變化趨勢,需要能夠覆蓋到工作中的各個方面。因此,在指標體系的建設上,我們通過不同視角對指標體系進行分類,做到不重不漏全覆蓋,讓指標適用于不同使用場景:
- 生命周期視角:從數(shù)據(jù)本身出發(fā),衡量數(shù)據(jù)從生產(chǎn)到銷毀的各個過程,包括定義、接入、處理、存儲、使用、銷毀等等。
- 團隊管理目標視角:根據(jù)團隊管理核心要達成的目標分類,包括質(zhì)量、效率、成本、安全、易用性、價值等等。
- 問題對象視角:根據(jù)治理問題核心關注的對象分類,包括安全、資源、服務、架構、效率、價值、質(zhì)量等等。
圖16 指標體系多視角建設思路建設成果目前我們已建設技術、需求及故障三大類指標共計112個,全面覆蓋數(shù)據(jù)開發(fā)中的各個環(huán)節(jié):
- 技術類指標:覆蓋成本、質(zhì)量、安全、價值及易用性5個方面共57個指標。
- 需求類指標:覆蓋新增、響應、開發(fā)、上線及驗收等7個方面共36個指標。
- 故障類指標:覆蓋故障發(fā)現(xiàn)、原因定位及處理環(huán)節(jié)共19個指標。
圖17 指標體系建設成果元數(shù)據(jù)及指標體系應用:
- 團隊管理:幫助團隊管理者快速了解團隊情況,提升管理效率。
- 數(shù)據(jù)治理:利用元數(shù)據(jù)及指標體系驅動數(shù)據(jù)治理,為數(shù)據(jù)治理提供可量化的抓手。
- 項目評估:幫助項目成員準確評估項目的問題、進展及收益。
建設思考在指標建設過程中,我們沉淀了以下幾點經(jīng)驗:
- 指標體系既要解決管理者對日常工作無抓手的問題,也要成為具體問題處理人員的治理抓手,兼顧管理者和開發(fā)者。
- 指標體系是展示偏整體層面的內(nèi)容,還需通過指標解決實際問題,形成指標體系和數(shù)據(jù)治理工具閉環(huán),實現(xiàn)發(fā)現(xiàn)問題、治理問題、衡量結果持續(xù)循環(huán)。
- 優(yōu)先確定團隊總體發(fā)展目標,從目標拆分設定指標,指標盡量覆蓋不同業(yè)務線不同發(fā)展階段。
- 業(yè)務需要明確自己所處階段,針對不同階段,制定考核目標,衡量閥值,既統(tǒng)一了衡量標準,又中和了大家考核標準。
- 指標需注意分層建設,避免“胡子眉毛一把抓”,便于適配目前的組織結構,也便于劃分責任與定位。
- 基礎指標體系建設完成后,可作為平時管理和工作的抓手,作為項目發(fā)起的依據(jù),作為項目結果評估的手段。
4.2.3 資產(chǎn)等級建設
隨著業(yè)務快速發(fā)展,團隊負責的數(shù)據(jù)資產(chǎn)規(guī)模也日益擴大。截止當前,團隊共負責離線Hive表3000+,ETL生產(chǎn)任務2000+,人均負責ETL生產(chǎn)任務100+。在面對規(guī)模日益擴大的數(shù)據(jù)資產(chǎn),團隊管理者及數(shù)據(jù)工程師通常會遇到以下問題:
- 只能評經(jīng)驗判斷哪些是核心資產(chǎn),遇到問題無法評估解決的優(yōu)先級。
- 核心鏈路的保障,比如SLA及DQC的配置范圍缺少科學的評估手段。
- 管理者對團隊核心資產(chǎn)缺乏準確的判斷,無法準確有效的做出管理動作。
為豐富元數(shù)據(jù)之間的關系和內(nèi)容,挖掘識別更有價值的數(shù)據(jù)信息,以元數(shù)據(jù)能力驅動數(shù)據(jù)研發(fā)及運維日常工作,在元數(shù)據(jù)倉庫的基礎上我們做了衍生能力即資產(chǎn)等級的建設。資產(chǎn)等級可以對數(shù)據(jù)的重要性進行科學有效地評估,也可幫助完善數(shù)據(jù)質(zhì)量分級監(jiān)控方案,從而實現(xiàn)對重點任務的重點保障。下圖是數(shù)據(jù)資產(chǎn)等級通用計算流程,我們首先根據(jù)資產(chǎn)類型確認各個影響因子及影響權重值,劃分影響因子重要性等級,其次根據(jù)各個影響因子數(shù)值范圍劃分得分區(qū)間,最后匯總計算得到最終資產(chǎn)等級得分及資產(chǎn)等級結果,并抽樣驗證結果的準確性。圖18 資產(chǎn)等級計算流程
資產(chǎn)等級建設(數(shù)據(jù)表)
下圖是針對數(shù)據(jù)表資產(chǎn)等級建設的方法和流程圖:圖19 數(shù)據(jù)表資產(chǎn)等級劃分1)確定影響因子及權重評估影響因子的確定是資產(chǎn)等級計算中最為關鍵一環(huán),合理評估影響因子對最終資產(chǎn)等級結果的準確性至關重要。根據(jù)實際數(shù)據(jù)開發(fā)中經(jīng)驗可知,影響數(shù)據(jù)表重要程度主要有以下幾個關鍵因素:
- 下游類型:決定下游資產(chǎn)重要程度,下游資產(chǎn)類型一般有ETL任務和數(shù)據(jù)產(chǎn)品兩類,ETL任務及數(shù)據(jù)產(chǎn)品又根據(jù)重要度分為普通型及VIP型。
- 下游數(shù)量:決定是否是關鍵節(jié)點,對下游生產(chǎn)的影響范圍,下游數(shù)量越多表明影響范圍越大。
- 使用熱度:決定是否有用,影響查詢用戶的范圍,熱度越高表明影響的用戶范圍越廣。
- 鏈路深度及分層:決定問題的修復時間,鏈路越深,問題修復的時間可能就越長。
確定好影響因子之后,我們需要判斷每個影響因子所占的權重值。我們采用層次分析法來計算權重值(層次分析法主要應用在不確定情況下及具有多數(shù)個評估準則的決策問題上,具體計算步驟,大家可查閱相關的資料),其優(yōu)點是把研究對象作為一個系統(tǒng),按照分解、比較判斷、綜合的思維方式進行決策,而且計算過程簡潔實用。2)計算資產(chǎn)等級得分根據(jù)實際情況對每個影響因子劃分得分區(qū)間,并結合每個影響因子權重值,可以計算得到資產(chǎn)等級最終得分。總得分為各影響因子得分與對應權重乘積加和。3)資產(chǎn)等級映射我們將資產(chǎn)等級最終得分劃分區(qū)間至L1 ~ L5,L5為最高資產(chǎn)等級,L1為最低資產(chǎn)等級。圖20 資產(chǎn)等級劃分
資產(chǎn)等級應用場景(數(shù)據(jù)表)
目前,資產(chǎn)等級已運用到日常管治實施,為數(shù)據(jù)分級管治提供了有力的抓手:圖21 資產(chǎn)等級應用場景
4.3 系統(tǒng)化
4.3.1 數(shù)據(jù)百品-管治中心
除了標準化和數(shù)字化之外,我們數(shù)據(jù)治理體系落地仍面臨諸多問題:
- 數(shù)據(jù)資產(chǎn)無法統(tǒng)計和描述,管理者及數(shù)據(jù)工程師不知道有什么,缺乏資產(chǎn)的可視化。
- 管理者缺少抓手發(fā)現(xiàn)團隊的問題,且問題難以追蹤。
- 治理線上化程度低,需要跳轉多個工具,治理效率低,治理過程無法標準化,導致結果無法保障。
針對上述問題,我們搭建了數(shù)據(jù)百品-管治中心治理平臺(美團內(nèi)部產(chǎn)品),實現(xiàn)了集資產(chǎn)管理、問題分析監(jiān)控、自動化治理、過程追蹤、結果評價的一站式、全覆蓋數(shù)據(jù)治理平臺,能有效提升治理質(zhì)量和效率,為數(shù)據(jù)質(zhì)量提升做好強有力的支撐。通過“管+治”相結合的理念,分別從管理者及研發(fā)人員的視角對數(shù)據(jù)、人效等問題實現(xiàn)全面監(jiān)控,并實現(xiàn)了資產(chǎn)全景、管理中心、治理中心三大模塊:圖22 管治中心建設思路
資產(chǎn)全景
資產(chǎn)全景從管理者+數(shù)據(jù)RD視角出發(fā),介紹了當前數(shù)據(jù)現(xiàn)狀即有什么的問題,幫助業(yè)務線管理者及數(shù)據(jù)RD實現(xiàn)數(shù)據(jù)資產(chǎn)可視化,為管理者提供技術管理的抓手,為數(shù)據(jù)RD提升數(shù)據(jù)探查和數(shù)據(jù)使用效率。包含資產(chǎn)大盤、資產(chǎn)目錄、個人資產(chǎn)三個子模塊:
- 資產(chǎn)大盤:從業(yè)務線管理者視角出發(fā),展示了業(yè)務線內(nèi)各類資產(chǎn)概覽,幫助管理者一站式快速了解組內(nèi)數(shù)據(jù)資產(chǎn),無需跳轉多個平臺。
- 資產(chǎn)目錄:展示團隊數(shù)據(jù)各資產(chǎn)類型及明細,為數(shù)據(jù)RD數(shù)據(jù)使用提供信息支撐,提升RD數(shù)據(jù)探查效率。
- 個人資產(chǎn):從歸屬人視角,展示數(shù)據(jù)RD個人及小組名下數(shù)據(jù)資產(chǎn)數(shù)量和資產(chǎn)類型及數(shù)據(jù)明細,詳細描述個人資產(chǎn)信息。
圖23 資產(chǎn)全景建設思路
管理中心
數(shù)據(jù)團隊管理者在日常團隊管理中時經(jīng)常會面臨兩個問題:
- 管理手段多依賴經(jīng)驗判斷,當團隊需求承接增加、團隊人數(shù)增加時會帶來管理難度的提升,管理者缺少抓手快速看到團隊的整體情況。
- 管理動作天級別。管理者發(fā)現(xiàn)團隊某核心指標異常(例如:故障數(shù)),需要找對應的責任人詢問,無法從系統(tǒng)上快速進行異常追蹤,原因獲取。
管理中心主要從管理者視角出發(fā),解決了怎么管的問題,通過管理者關注的核心指標,為管理者提供監(jiān)測團隊狀態(tài)、判斷團隊問題、輔助管理決策的能力,讓管理者從“依賴經(jīng)驗管理”轉變?yōu)椤皵?shù)據(jù)驅動管理”。包含管理者大盤、運維管理、需求管理、團隊管理四大模塊:
- 管理者大盤:向管理者提供團隊核心指標總覽、問題趨勢分析、異常明細追蹤、異常原因標記等功能,方便管理者快速了解團隊情況,及時做出管理動作。
- 需求管理:提供詳細的人效分析大盤以及需求管理功能,服務于人效管理及提效。
- 故障管理:提供詳細的故障分析大盤以及故障復盤管理能力,提升故障管理效率。
- 團隊運營:團隊周月報,值班,滿意度問卷等團隊運營需要的能力,提升運營效率。
圖24 管理中心建設思路
治理中心
日常數(shù)據(jù)治理過程中,問題責任人解決問題主要有以下痛點:
- 不了解分配給自己的待治理問題背景、目標和重要程度。治理工作成為盲目去完成分配的任務,即使完成了治理動作,可能依然無法保證是否真正達到治理目標,尤其是面對同時需要處理多類治理問題時,效果差。
- 數(shù)據(jù)治理解決問題時通常要使用各類工具互相輔助才能解決,問題多了之后,治理問題變成了重復使用不同的工具,嚴重影響治理效率和效果。
治理中心從問題責任人視角出發(fā),解決了怎么治的問題,為一線治理工程師提供從問題評估分析,到治理,到進度監(jiān)控的一站式治理能力。將治理工作精細化、常態(tài)化運營,提升了數(shù)倉治理質(zhì)量和效率。包含治理概覽、分析評估、問題治理、進度監(jiān)控四大模塊。
- 治理概覽:治理中心首頁,介紹了團隊數(shù)據(jù)治理體系框架及標準化治理成果,讓使用者在認知上與治理中心的治理理念一致,并提供數(shù)據(jù)治理優(yōu)秀解決方案。
- 分析評估:對七大類治理問題進行量化評估,提供治理優(yōu)先級及問題排名,讓用戶了解應該先做什么。
- 問題治理:提供豐富治理指標,全面衡量治理問題,問題分配及時通知,并利用SOP自動化工具,實現(xiàn)對解決問題過程的標準化,保障治理效果,提高治理效率。
- 進度監(jiān)控:提供問題治理進度看板及問題分配進度監(jiān)控,便于管理者宏觀把控問題治理進度,合理規(guī)劃分配節(jié)奏。
圖25 治理中心建設思路
4.3.2 SOP自動化工具
在日常數(shù)據(jù)治理過程中,每個團隊都會沉淀若干SOP規(guī)范文檔來指導大家進行問題治理,減少問題發(fā)生。但是在SOP的落地上,依然存在很多問題:
- SOP一般以Wiki形式存在,實際執(zhí)行過程無法跟蹤約束。
- SOP動作的執(zhí)行需要跳轉多個平臺系統(tǒng),執(zhí)行效率低下。
建設方案
基于上述問題,我們開發(fā)了SOP自動化配置工具。SOP自動化工具是一款SOP配置工具,適用于問題治理類SOP,將治理動作通過工具進行配置以提高治理效率,進而保證過程質(zhì)量和結果質(zhì)量。目標是解決SOP規(guī)范文檔在落地過程中遇到的執(zhí)行效率低、過程無法跟蹤監(jiān)控的問題,實現(xiàn)一站式解決問題的能力。SOP自動化工具主要包含基礎組建層、配置層及應用層,以下是產(chǎn)品架構圖及產(chǎn)品界面:
- 基礎組建層:SOP最小粒度模塊,包括展示類組件(富文本、表格、IFrame),邏輯控制類組件(單選、多選),用戶可根據(jù)SOP內(nèi)容選擇多個基礎組件組合。
- 配置層:配置SOP中使用參數(shù)信息及執(zhí)行步驟。
- 應用層:SOP最終效果展示,通過URL接口對外提供服務,比如治理中心可調(diào)用SOP工具接口實現(xiàn)一站式治理能力。
圖26 SOP自動化工具架構圖27 SOP自動化工具產(chǎn)品SOP實際操作步驟如下:用戶在創(chuàng)建SOP后可選擇性配置需要展示的數(shù)據(jù)信息,然后按照SOP執(zhí)行步驟依次拖動各個基礎組件,并填寫執(zhí)行操作完成SOP的配置工作,在效果預覽完成后即可發(fā)布上線并生成外嵌URL。自動化工具主要通過外嵌的形式對外提供服務。圖28 SOP工具化操作步驟
應用場景
通過SOP自動化工具,數(shù)據(jù)治理已實現(xiàn)了問題解決過程線上化、步驟標準化,很好地保障了治理效果,提升了治理效率。下圖是無效存儲指標在使用SOP自動化工具前后的流程對比,通過對比,我們可以看到之前工程師需要人工確認若干信息,并跳轉多個平臺操作,現(xiàn)在只需要在一個界面完成所有動作,極大地減輕了研發(fā)人員的工作量。圖29 無效存儲流程優(yōu)化對比目前,我們團隊已完成7大治理域內(nèi)30多個指標的治理SOP建設,并均已通過自動化工具落地。后續(xù),我們?nèi)詫⑻剿髌渌麑m椫卫韮?nèi)容,并利用SOP自動化工具輔助開展數(shù)據(jù)治理的工作。
4.3.3 經(jīng)驗總結
通過數(shù)據(jù)治理系統(tǒng)化的建設,我們總結了以下幾點:
- 系統(tǒng)化是將解決問題的方法從線下到線上,從散點動作到連貫動作的一種有效解決方案。
- 沒有完美的系統(tǒng),也不必追求完美,考慮投入產(chǎn)出比,快速解決主要矛盾,應用到具體問題解決中。
- 產(chǎn)品定位設計,產(chǎn)品長遠規(guī)劃的能力設計尤為重要,否則容易出現(xiàn)“做著做著不知道做什么,不知道往什么方向發(fā)展”的情況。
五、業(yè)務數(shù)據(jù)治理實施流程
數(shù)據(jù)治理實施流程,是我們依據(jù)業(yè)務數(shù)據(jù)治理標準化框架在實施解決具體數(shù)據(jù)問題時,總結抽象出來的一套適用于大多數(shù)治理場景解決問題的通用標準流程。標準流程的好處在于更加規(guī)范化數(shù)據(jù)治理工程師的操作流程,來保證實施的質(zhì)量。流程一共包含5個步驟:
- STEP 1:發(fā)現(xiàn)問題和制定目標,發(fā)現(xiàn)問題要從業(yè)務數(shù)據(jù)開發(fā)團隊的視角出發(fā),圍繞服務好業(yè)務、遵守數(shù)據(jù)研發(fā)規(guī)范、收集好用戶反饋,盡可能全地發(fā)現(xiàn)和收集相關需要解決的問題。同時,制定的目標要具備可實現(xiàn)性。
- STEP 2:針對問題進行拆解,設計可衡量的指標,并通過元數(shù)據(jù)的采集建設進行實現(xiàn),用做對目標的進一步量化,并作為實施過程監(jiān)控及治理抓手。
- STEP 3:對衡量出來的具體問題,制定相關的解決SOP,并且檢查相應的研發(fā)標準規(guī)范是否完善,通過問題發(fā)生的事前、事中、事后幾個階段,建設或完善相應的工具化解決問題的能力。
- STEP 4:推廣運營,以拿結果為核心目標,針對不同角色運用不同策略,重點關注問題解決過程是否會與用戶利益發(fā)生沖突,控制好節(jié)奏,根據(jù)問題的重要程度有規(guī)劃地進行解決。
- STEP 5:總結沉淀方法論,迭代認知,持續(xù)探索問題的最優(yōu)解,優(yōu)化治理方案和能力。
圖30 業(yè)務數(shù)據(jù)治理實施流程
六、總結與展望
經(jīng)過在數(shù)據(jù)治理體系化建設上的持續(xù)思考與實踐,我們的體系化框架基本建立,在數(shù)據(jù)治理的標準化、數(shù)字化和系統(tǒng)化三個方向上取得了較大的進展,并且在業(yè)務應用上取得了一定的成績。更重要的是,我們在數(shù)據(jù)成本、安全、效率等多個領域都幫助業(yè)務解決了實際的問題,尤其是在成本方面,預計每年可以幫助業(yè)務可節(jié)省數(shù)百萬的成本,獲得了業(yè)務方的肯定。但對比“理想終態(tài)”,我們的工作仍任重道遠。數(shù)據(jù)治理體系化框架這個龐大“身軀”中的各個血脈、骨骼、臟腑還需要持續(xù)充盈,在流程規(guī)范、元數(shù)據(jù)數(shù)倉、指標體系、資產(chǎn)分級等的建設過程中,還有很多需要靠專家經(jīng)驗、人為判斷、人工操作串聯(lián)的場景存在。下一步,我們將在智能化(如智能化元數(shù)據(jù)服務、智能化數(shù)據(jù)標準建設等)、自動化(基于治理框架的治理應用場景的線上化建設等)等方面發(fā)力。
七、作者簡介
王磊、有為、尉斌等,均來自美團數(shù)據(jù)科學與平臺部。