數據驅動是通過先進的IT技術和人工智能對企業(yè)的數據資產進行有效和充分的利用,其目的是從數據中獲得有價值的“洞見”,以指導人們作出更加科學的決策和更加有效的行動。
企業(yè)數字化轉型離不開數據驅動,而數據驅動的基礎是建立在高質量數據之上的。沒有高質量數據,就不可能產生有價值的洞見。
數據驅動的企業(yè)看著似乎很厲害的樣子,實際上他們一直也在為數據質量問題而苦苦掙扎。數據的不完整、不準確、不一致,數據安全、數據隱私等問題似乎是無窮盡的,成為了企業(yè)數字化轉型的一個難以逾越的障礙。
1
從DIKW金字塔模型到數據供應鏈
要實現數據驅動,重要的是創(chuàng)建一個“數據供應鏈”,保證數據在從生產、采集、存儲、加工、處理,到分析、應用的全過程中的數據質量,并且確保每個過程都是為業(yè)務目標而服務的。
供應鏈的概念的是從生產制造行業(yè)發(fā)展衍生出來的,它將企業(yè)的生產活動進行了前伸和后延。艾倫·哈理森(Harrison)將供應鏈定義為:“供應鏈是執(zhí)行采購原材料,將它們轉換為中間產品和成品,并且將成品銷售到用戶的功能網鏈。”日本豐田公司的精益協作方式中就將供應商的活動視為生產活動的有機組成部分而加以控制和協調。
數字化世界,數據既是產品也是原料,DIKW金字塔模型足以說明這個觀點。在DIKW模型中,數據是用來描述事實和現象的原始的資料,是無組織的事實。將原始的、無序的、雜亂的數據進行收集和整理,并從中提取有用的信息,讓數據變得更加有意義;再將信息加工、萃取成可被傳播、沉淀、復用的知識,從而獲得更大的價值;而智慧是DIKW層次結構的最高層,是將知識應用于行動后產生的結果,回答的是諸如“為什么要做”和“什么是最好的”之類的問題。
DIKW模型,反映了數據被加工、提煉的一個過程,這個過程本質上來說也是從數據需求到數據供給的過程。通過這個過程,原始的數據進入企業(yè),經過各種處理、轉換,成為可供人們使用的有價值的東西,我們將這個過程稱之為數據供應鏈。
如上圖所示,數據供應鏈與生產供應鏈十分相似,“原料數據”從系統(tǒng)的一端輸入,然后在下一步中進行分析和轉換。最后,它作為一組有意義、有價值的“數據產品”提供出來,用于企業(yè)業(yè)務流程的改進和指導企業(yè)管理決策。進入數據供應鏈的數據來自各種來源,如企業(yè)的各類信息系統(tǒng)ERP、CRM、移動應用程序等;企業(yè)外部的網站、社交網絡、電商平臺等;以及來自設備物聯數據,各類傳感器產生的時序數據等。這個過程,也是實施數據治理,提升數據質量,實現數據標準化的過程。
2
供給側:重點關注的數據質量維度
數據質量問題貫穿整個“數據供應鏈”。我們經常聽到:“垃圾進,垃圾出”,這句話是指高質量數據分析結果,取決于高質量的數據輸入,輸入的數據質量低下,數據分析結果也叫沒有什么價值。以及筆者經常提的“數據治理要從源頭抓起”,也是說的這個意思。重點都在強調數據供給側保障數據質量的重要性。數據供給側更多的是站在數據生產者或數據管理者的角度看數據質量的,重點關注以下的5個數據質量維度。
1
數據完整性
數據完整性體現在三個方面:
元數據的完整性
例如:唯一性約束完整性、參照完整性等;
數據條目完整性
例如:數據記錄丟失或不可用會影響數據的完整性;
數據屬性完整性
例如:數據屬性空值情況等。
2
數據準確性
數據的準確性也叫數據可靠性,狹義上的數據準確性是用于分析、識別和度量哪些是不準確的或無效的數據的。
3
數據一致性
數據一致性主要體現在兩個方面:
多源數據的數據模型不一致
例如:命名不一致、數據結構不一致、約束規(guī)則不一致。
數據實體不一致
例如:數據編碼不一致、命名及含義不一致、分類層次不一致、生命周期不一致……。相同的數據有多個副本的情況下的數據不一致、數據內容沖突等問題。
4
數據唯一性
數據唯一性是用于識別和度量重復數據、冗余數據。重復數據是導致業(yè)務無法協同、流程無法追溯的重要因素,也是數據治理需要解決的最基本的數據質量問題。
5
數據有效性
數據有效性用于度量數據是否符合既定的條件,不符合條件的視為無效數據。例如:在統(tǒng)計當前在職的職工人數時,數據集中的已離職人員應當被剔除出去。
低下的數據質量是實現數據賦能、數據驅動的頭號敵人,只有提高供給側的數據質量,才能保證輸出的數據服務或數據應用是有價值的。當然,供給是由需求驅動的,以上5個數據治理維度同樣也適用于需求側,這5個維度也是廣義上的數據準確性。
3
需求側:超越準確性的數據質量維度
從數據供給側(生產和管理的角度)來看,數據質量主要關注準確性。其目標是盡可能地將數據與現實世界的實體相匹配。通過實施數據清理、修復數據、轉換等一系列數據管理工作旨在提高數據準確性。
如果我們將視角切換至“數據供應鏈”的需求側,也就是站在數據消費者、業(yè)務人員(下文統(tǒng)稱:數據用戶)的角度看,人們對數據質量的需求將超越準確性,并在此基礎之上增加三個維度,
可訪問性
對數據用戶來講,最核心的需求是當他們需要用數據的時候,這些數據是可以被訪問的。他們想知道企業(yè)有哪些數據?存放在哪里?以及如何訪問到這些數據?我們看到很多數據平臺提供的統(tǒng)一數據資源目錄功能就是解決這個問題的。
及時性
數據的價值在于能夠被使用,如果不能及時使用,可訪問的數據就沒有價值。及時性定義了數據在需要時是否可用,過期的數據帶來的結果可能是誤導或誤判,保證數據的及時性在一定程度上是保證業(yè)務創(chuàng)新性和前瞻性的基礎。與實時性相比,及時性強調在需要時間內準時送達,它可以是實時的,也可以是定時的,但一定是準時的,發(fā)生在你需要的時候。
相關性
當數據的可訪問性和及時性得到滿足,用戶很大程度都會將關注度放到相關性上來。數據的相關性是指數據之間,或數據與用戶之間的某種關聯關系,例如:函數關系、相關系數、主外鍵關系、索引關系等。我們在數據治理過程中經常說的相關性問題,就是指數據間或數據與用戶間的關聯關系缺失或錯誤,這可能會導致用戶將大量的精力放在了不相關的數據上,或者引發(fā)出的數據準確性問題。
及時的、準確的、可信且可訪問的數據是業(yè)務和管理的基礎,是數據驅動的靈魂,需要站在完整個“數據供應鏈”的全局視角來制定考量數據質量的策略,這一過程需要數據生產者、管理者、使用者共同參與其中。數據生產者和使用者必須定義出需要什么樣的數據,什么數據對業(yè)務是重要的,而數據的管理者必須專注于提供業(yè)務所需的重要數據。
4
提升企業(yè)數據質量的8點建議
1
業(yè)務需求和影響評估
數據質量改進的驅動因素永遠來自業(yè)務目標,不能脫離業(yè)務需求談數據質量。制定數據質量改進方案的基礎,首先是清晰定義業(yè)務需求,然后是根據業(yè)務需求對企業(yè)業(yè)務的長期影響來定義數據質量問題的優(yōu)先級。衡量業(yè)務影響、定義問題優(yōu)先級有助于明確治理目標并跟進數據質量改進的進度。
2
全面盤點和正確描述
全面的數據盤不僅可以幫助您回答:有哪些數據,數據在哪里,以及如何訪問數據等問題。同時,也能夠幫助您正確理解數據,例如:數據描述了什么,數據對業(yè)務的價值在哪里,以及如何獲得最大價值。當您需要確定數據是否“準確”或是否滿足業(yè)務所需的時候,全面的數據盤點和對數據的正確描述,是您理解數據和提升數據質量的有效方法。
3
數據質量從源頭抓起
“從源頭解決數據質量問題”是筆者一直秉承的觀點。但很多時候,我們依然看到一些數據治理項目將治理重點放在了數據副本上,例如通過修復副本中的錯誤或建立各種映射表,以支持下一步的數據分析。其實,這是一種“治標不治本”的做法,原始數據集仍然存在質量問題,影響其后續(xù)使用。從源頭解決數據質量問題是提高數據質量、防止不良數據傳播的最佳方法。
正如Gartner專家說:一個數據的生命周期有兩個有趣的時刻,創(chuàng)建時刻和使用時刻。如果您可以在創(chuàng)建數據時最大限度地減少錯誤并始終從源頭解決質量問題,那么就可以確保使用時的數據質量。
4
能選擇的時候別輸入
形成可供選擇的值域,是一個有效避免人為因素錯誤、提升數據質量的操作性技巧。當用戶以不同的形式輸入數據的時候,難免發(fā)生一些“人為”的錯誤,例如:輸入的數據多一個空格,大小寫,簡繁體,特殊符合不規(guī)范使用等常見數據質量問題。解決這個問題的有效方法是為這些數據定義好標準數據值域/值集(或稱數據字典),以避免用戶的輸入錯誤。
5
建立數據驅動的文化
事實上,數據驅動也能夠反作用于數據質量。在企業(yè)中,建立數據驅動的文化和行為規(guī)范,更好地使用數據,能夠反向促進數據質量的提升。數據驅動文化是“數據質量、人人有責”的文化,在企業(yè)范圍內對數據需求定義、數據質量目標達成共識,以便持續(xù)推進數據質量問題的改進和優(yōu)化。
6
DataOps——數據運營
DataOps是將DevOps的理念延伸到了數據領域,提供了一種更加自動化的數據運營方式,以提高數據分析的質量和敏捷性。DevOps是建立在3個原則之上:持續(xù)集成、持續(xù)交付和持續(xù)部署,對應到DataOps就是利用自動化數據管理工具,實現數據的數據的發(fā)現、集成和準備自動化,并支持數據質量的持續(xù)測量,在整個企業(yè)范圍內持續(xù)交付準確、可信的數據。
7
數據質量,防大于治
數據質量管理不僅僅在于糾正當前的數據質量問題,還在于防止未來的發(fā)生類似數據質量問題。評估和解決企業(yè)數據質量問題的根本原因是預防問題發(fā)生的關鍵。例如:是否正確定義了業(yè)務需求以及對應的數據質量指標?業(yè)務流程是手動的還是自動化的?數據質量的利益相關者能否直接參與數據質量問題的解決?企業(yè)的數據驅動文化是否牢固到位?
8
數據質量成效評估
定期對企業(yè)的數據質量改進情況進行成效評估,有利于提升數據治理的成熟度,并為下一階段的數據質量改進提供參考依據。與相關部門、相關人員就數據質量問題、產生的原因、采取的措施、改進的結果進行交流,讓更多的人將積極參與到數據質量改進中來,進一步鞏固企業(yè)的數據文化。
總結
數據驅動是依靠數據來賦能決策和運營,高質量數據無疑是實現數據驅動的保證。高質量數據意味著高質量的洞察力、值得信賴的分析報告,可優(yōu)化的業(yè)務流程,更加良好的客戶體驗和更好的投資回報率。