注:SAP Classification為SAP產品中的一個分類系統,它支持以有序的結構將特定對象(例如,文章和站點)組合在一起。它的基本功能是為各種不同類型對象的所有屬性特征提供存儲庫。然后將相似特征的對象分組到類中(“分類”對象),以便系統可以更容易地在事務中找到它們。
那數據標簽到底是什么?它與數據分類體系相比,是“真的香”,還是“弱爆了”?
01. 概念的澄清
無論是在數據中臺,還是傳統產品設計中,繞不開的幾個概念:分類、屬性、標簽。
1、什么是分類
分類,就是指按照種類、等級、性質或特征的歸類。也就是把相同屬性或特征的“對象”歸集在一起,形成不同的類別,方便人們通過類別來對“對象”進行的查詢、識別、管理和使用。“對象”可以是人、產品、物料或其他實體,例如:人可以分為男人、女人,也可以分為老年人、中年人、青少年。
2、什么是屬性
屬性是事物所具有的性質或特征,重點強調的是事物本身,例如:人的性別、身高、胖瘦、年齡、性格等都是人的屬性。可以將某個事物的屬性抽象出來作為事物的分類,如我們上邊舉的例子,男人、女人是按照性別屬性對人的分類;老年人、中年人、青少年是按照年齡屬性對人的分類。事物可以按照屬性來分類,分類也是事物的屬性之一。
3、什么是標簽
標簽,原意是標明物品的品名、重量、體積、用途等信息的簡要標牌,例如:商品標簽、圖書標簽、車檢標簽、文件標簽、服裝吊牌等。從這個概念衍生到網絡標簽,是人工或系統自動或用戶自發的,通過相關性很強的關鍵字對事物或內容進行描述,幫助人們分類內容,以便于檢索和分享。例如:我們也可以給“人”這個對象打上男人或女人,老人或青年的標簽。可見,標簽也有維度或分類,而屬性也是一種標簽。
02. 分類VS標簽,到底有啥區別?
前邊的例子中,男人、女人,老人、青年,這既可以是對人的分類,也可以是人的標簽。分類和標簽有時候沒有明確的分界線,分類可以作為一個標簽,標簽也可以抽象出分類。那么,分類和標簽到底有什么不同?
關于這個問題,知乎上網友的一個回答挺有意思的:
分類由于只能隸屬于一個,所以往往帶有武斷和不恰當的色彩,它是一個“is a”的問題,屬于本質論的范疇,而對事物的“本質”的認定,嚴格來說,這事只有上帝才能做,換句話說,誰做都不合適。標簽則不同,它是一個“has a”的問題,說某個東西有某種屬性,要求就沒那么嚴格了。
筆者理解:分類是一種嚴謹的數據組織方式,一般按照一個或多個維度自上而下、從整體到明細的窮舉,遵循“相互獨立,完全窮舉”的原則。而標簽是一種靈活的數據組織方式,放棄大而全的框架,基于業務場景自下而上地倒推標簽需求。
除此之外,分類和標簽還存在如下不同點:
1、分類一般是面向團隊或組織的,注重標準化;而標簽可以面向組織,也可以是面向個人,注重的是個性化。
2、分類具有排他性,分類之間是獨立的、不能交叉;而標簽允許交叉,標簽之間可以相互關聯、相互依賴。
3、分類體系需要事先規劃,在標準化的框架下進行使用;而標簽可以靜態的,也可以是動態的,允許隨時添加。
4、分類注重結構化,具有層級控制,是一個樹狀結構;而標簽的結構是松散、靈活、開放的,整體看是一個網狀結構。
03. 分類VS標簽,哪個“香”?
在數字化應用中,分類和標簽其實根本無法分出個伯仲。標簽體系也需要一定的分類,而基于某個維度的分類也可以作為一種標簽,只是他們支持的應用場景或有不同。
分類一直存在,它源于人的認知,可以追溯到人類的起源。
在幾百萬年前的原始部落,人們將打回來的獵物、采集回來的種子進行分類存放,以便存儲和管理。分類的作用自然不必多說,它可以讓我們條理清晰,層次清晰,一目了然的識別和管理事物。
即使在當今由互聯網、計算機構成的數字化世界中,分類體系也一直是我們組織數據、處理數據、查詢數據、管理數據的一個重要的手段。
在傳統企業的信息化建設中,使用更多的是分類,例如:ERP中的物料分類、人員分類、客商分類等。一套科學、嚴謹的分類體系是企業的“人、財、物、進、銷、存”等業務流程有效管理的基礎,在企業管理中發揮著重要的作用。一家企業的“物料分類”科不科學、規不規范,在很大程度上能夠反映這家企業的管理的規范性情況和精細化程度。上文我們提到的SAP Classification就是這樣一個可以根據事物屬性特征進行多維分類體系的系統。不僅SAP,像Oracle、用友、金蝶等ERP大廠,同樣也有類似的多維數據分類體系。
標簽(網絡標簽)是隨著互聯網發展產生的,最早用在博客、文章的內容分類中,方便用戶管理和聚合內容。隨著大數據的發展,標簽體系的作用也越來越大,被互聯網企業廣泛使用,通過特征集合并關聯打標簽的對象,對分析對象生成畫像,挖掘對象的價值。例如:各大互聯網APP(淘寶、今日頭條、抖音等)都有一個基于標簽體系的推薦引擎模塊,通過用戶靜態屬性和行為屬性給用戶打標簽,形成360度用戶畫像,然后根據用戶的偏好將信息或產品推送給用戶。
因此,分類VS標簽,根本無法區別那個更“強”或哪個更“弱”,根據不同的應用場景選擇不同的體系就好了。
在企業的數字化建設中,需要分類和標簽結合使用,才能最大化發揮數據效能、挖掘數據價值。
04. 數據中臺為什么需要標簽體系
上文中我們說過,傳統企業的信息化使用更多的是分類體系,而標簽體系是互聯網企業的“致勝法寶”。
隨著數字化時代的到來,掀起了傳統企業數字化轉型的浪潮。從技術側來看,轉型就是擁抱互聯網,戰略性的使用數據和IT。在這場數字化的變革中,數據中臺被認為是賦能企業數字化轉型,實現降本增效的新引擎。
數據中臺的概念:數據中臺是數據+技術+產品+組織的有機組合,是快、準、全、統、通的智能大數據體系。與數據倉庫等傳統數據工具相比,數據中臺是一種新的理念,以“技術+業務”為雙驅動,是企業開展新型運營的一個中樞系統。
因此,如果你將數據中臺定位成一個存數據、管數據的技術平臺,那或許有“分類體系”就可以了。如果你的數據中臺定位的是企業數字化轉型的運營中樞系統,要實現對前端業務的支持和賦能,那“標簽體系”就是數據中臺一個標配。原因前邊介紹過,分類是自上而下的規劃,側重標準化,標簽是自下而上的倒推,注重業務場景。
“數字轉型,場景為王”,在“技術+業務”雙驅模式的數據中臺中,標簽體系、數據萃取將助力企業運營轉型升級。
05. 數據中臺生產數據標簽的四個步驟
在經歷過“追捧”和“質疑”等種種考驗后,數據中臺在基于業務驅動的標簽體系助力下,正在用事實驗證其價值。
下面我們簡單介紹下數據中臺如何通過加工和生產數據標簽,從而助力企業實現數字化轉型的,這個過程大致可分為四個步驟:
第一,需要從業務視角對企業數據進行梳理,并將各業務域、各渠道、各類型的數據進行采集和匯聚。
第二,通過對數據進行分類處理,從中提煉出可復用的行為元素(業務線、實體對象、實體屬性、動作等),通過沉淀行為元素,可以更好地規范來源數據。這里業務線是在不同業務運營線,例如:某造紙公司有生活紙運營線,文化紙運營線、工業紙運營線、特種紙運營線等。實體對象是指操作和被操作的各商業主體,例如:用戶、產品等。實體屬性是指實體對象的屬性特征信息,例如:用戶的年齡、性別、喜好等。動作就是主體發出的操作,例如:詢價、購買、瀏覽等。
第三,根據對象的行為元素給對象打上相應的“標簽”,以支持信息查詢、信息推送等應用。與傳統博客、CMS(文章管理系統)的手動給內容打標簽不同,數據中臺是根據對象的行為規則自動給對象打標簽,并且可以設置行為數據的時間衰減算法,為不同標簽分配不同的權重,形成全面的“用戶畫像”,做到“比用戶自己還了解他自己”。
第四,各相關應用直接調用數據中臺的標簽體系、畫像服務,支持企業的精準營銷、個性推薦、渠道優化、產品創新等應用場景。
其中,執行第二、第三個步驟的前提就是要做好標簽類目體系的規劃。也就是說,標簽體系也是具有一定的分類結構的。例如:用戶標簽可以按照標簽的控制深度劃分為基本屬性標簽、行為屬性標簽、商業屬性標簽等;也可以按照數據中臺的數據分層結構,分為事實標簽、模型標簽、預測標簽等。
寫在最后的話
分類體系和標簽體系雖各有各的適用場景和側重,但它們都是企業數據中臺理念落地的關鍵要素,幫助企業沉淀數據資產化,優化數據服務,助力企業落地數字化轉型。分類體系能夠幫助企業科學、有效的組織數據,規劃標簽類目;標簽體系能夠萃取和精煉數據服務,并對數據分類進行反向優化。在企業數據的管理和應用中,它們相互配合、互為支撐,不僅能夠讓企業有數可查,有數可用,而且能夠讓企業的數據用的更好。
免責聲明:本網站所發布的文章為本網站原創,或者是在網絡搜索到的優秀文章進行的編輯整理,文章版權歸原作者所有,僅供讀者朋友們學習、參考。對于分享的非原創文章,有些因為無法找到真正來源,如果標錯來源或者對于文章中所使用的圖片、鏈接等所包含但不限于軟件、資料等,如有侵權,請直接致電聯系,說明具體的文章,后臺會盡快刪除。給您帶來的不便,深表歉意。