华东檀梦工艺品有限责任公司

您的位置:首頁 >資訊 > 消費 > 正文

一文讀懂數據中臺前世今生 破解“數據驅動業務”密碼

來源:壹點網 時間:2021-08-24 20:25:35

“袋鼠云經過長年的摸索和積累,確定了獨有的數據中臺產品化方向和技術架構,打磨出的“數棧DTinsight”產品顯著異于其他廠商,某種意義上講,我們認為它很好地詮釋了云原生數據中臺,是新一代的數字化基礎設施。”—— 袋鼠云數棧事業部總經理閔佳

圖片1.png

袋鼠云數棧事業部總經理閔佳

今年中國信息通信研究院發布了《中國數字經濟發展白皮書》,報告指出2020年中國數字經濟規模達到39.2萬億元,占GDP比重為38.6%,同比名義增長9.7%。能夠看出國內數字經濟的發展勢頭十分迅猛,企業自身的數字化建設和轉型迫在眉睫,其中對數據的治理、管理、應用是企業運營關注的首要焦點。

8月中旬,當我們在采訪閔佳先生的過程中提及:“數據中臺”概念正處于大熱炒作期或將面臨紅海競爭,袋鼠云的數據中臺產品應當如何破局時,閔佳的回答得十分從容,顯得胸有成竹。

“數據中臺還處于一個龐大的增量市場中,我們的產品與解決方案還顯著區別于其他廠商的,陷入紅海競爭的概率并不大。”閔佳說到。

企業數字化轉型道路上,面臨的障礙與難關“在過去服務客戶與服務項目的過程中,我們總結了關于企業推進數字化建設的痛點,”閔佳認為,數據中臺如何將自身業務產生的數據資產化是一項重要任務,數據資產的質量也決定了其應用效果,而數據資產化有賴于高效的數據質量管理工作。

“想要將數據轉化為資產,首先需要經過一套完整的數據清晰流程,包括建立數據管理標準、數據接入渠道、數據質量核查評估體系等。”閔佳向我們列舉了在企業發展過程中,隨著各種信息系統的上線所逐步產生的數據采集方式,覆蓋了從業務數據,行為數據,系統日志數據,IOT數據等,數據類型涵蓋結構化數據,半結構化數據到非結構化數據等來源不一、形式不一、標準不一的復雜數據類型。“如此多的原始數據蘊含的信息量和價值是龐大的,但是用人力去做計算、清理工作量和成本是龐大的,而且幾乎無法完成,這就是為什么許多企業懂得數據資產的重要,卻遲遲不能建立數據資產庫的原因,它本身就是一件知易行難的事情。”

企業在試圖挖掘數據價值,實現數據業務化的過程中,常常面臨各種痛點和難點:

第一是數據孤島嚴重的問題。囪式的應用開發模式,導致數據分散在不同的業務系統中,數據割裂嚴重,無法有效整合打通,很難做統一的分析與統計,難以發揮全域數據的價值;

第二是重復開發。缺少數據沉淀、數據共享機制,當有新的數據需求時,重復開發導致人力資源、計算資源浪費嚴重;

第三是數據管理困難。數據沒有統一的標準和定義,分散在不同的存儲上,沒有統一的數據入口,元數據維護、在線化管理困難;

第四是技術門檻高。數據采集、離線處理、實時處理、數據挖掘等需要用到不同的技術和組件,并且技術更新快,組件版本升級頻繁,熟練掌握這些技術,需要花費大量的精力;

最后是需求響應慢。為了滿足不同業務方的數據需求,需要從多個業務系統中進行數據采集,再做復雜的轉換加工,缺乏工具和臺方面的支撐,疲于應付臨時提數分析需求,無暇顧及臺級建設和數據治理,惡循環。

從單機數據庫到數據中臺:四代數倉技術的變革歷程“顯而易見,企業數字化轉型中遭遇的一系列痛點在呼喚催生數據中臺,但數據中臺的概念產生和實際落地并非一步到位,而是經歷漫長了的發展過程。”閔佳向我們展示了關于四代數倉發展的一個簡要歷史資料——為了解決數據孤島的問題,實現數據分析,數據支撐業務決策,賦能業務的需求,二十世紀九十年代,數據倉庫之父Bill Inmon提出數據倉庫的概念,在之后的30年時間里,數據倉庫技術經過了四代的發展和變革。

圖片2.png

第一代:SMP架構

share-storage共享存儲架構,采用EMC/IBM高端存儲,優點是使用簡單方便,和OLTP的數據庫技術棧一致,缺點是存儲昂貴,磁盤數據讀寫效率低,并且只能擴展到十幾個節點,比較典型的是Orale、Oracle RAC、DB2等產品。

第二代:MPP架構

為了解決節點擴展問題,出現了share-nothing的MPP架構,內存、存儲都是自控制的,不存在共享。每個節點都是一個單獨的數據庫,采用本地計算的模式,節點之間的數據交互通過節點互聯網絡實現。通過將數據分布到多個節點上來實現海量數據的存儲,通過并行查詢處理來提高查詢能,這種架構以TeraData, HP Vertica,EMC GreenPlum等產品為代表。缺點是,新的節點加入的時候,數據需要重新分布,每次計算的時候,如果數據不在本節點,需要通過網絡把數據移動過來,當節點較多的時候,移動數據耗費大量的IO和網絡資源,這樣就導致當集群規模到100個節點規模的時候,就很難繼續橫向擴展。

第三代:分布式架構

隨著數據量的增長,為了解決更大規模的節點擴展問題,Google在2006年發表了三篇設計論文,也就是著名的三駕馬車: GFS、MapReduce、BigTable。依據此理論,產生了HDFS、MapReduce、 HBase等優秀的分布式組件,Hadoop生態圈開始蓬勃發展,直至今日,Hadoop在各行各業廣泛應用,為了支持不同的場景,不斷地有新的組件加入到Hadoop體系,例如Kudu 、Presto、Spark、Flink等。同時為了解決各種大數據組件繁瑣的安裝、管理、服務等問題,也產生了一些專門做Hadoop發行版的商業化公司,例如Cloudera、MapR、華為等。

第四代:新一代數倉架構-數據中臺

Hadoop的橫空出世,雖然解決了海量數據量下的節點擴展,和各種計算場景的支持問題,但Hadoop生態圈,技術組件繁多,版本更新頻繁,相當于一個重型武器,因此大數據相關人才需要花費大量的時間才能掌握此技術,并且開發效率低,管理復雜,而且后續組件和任務運維都要投入非常大的資源。為了解決這些問題,最幾年,數據中臺的理念開始在各行各業普及和落地,數據中臺最核心的價值是沉淀公共數據能力和產品技術能力,強調數據和技術能力的復用,數倉架構也從以前主要解決存儲和計算問題,轉到數據管理和數據應用,屏蔽底層技術的復雜、多樣,形成一站式、智能化的數倉產品,通過這些產品高效的支持數據應用的快速創新。

“數據中臺不再是一個產品,更多的是一種強調資源整合、集中配置、能力沉淀、分步執行的運作機制,是一系列數據組件或模塊的集合,指向企業的業務場景。”閔佳總結道。

數據中臺賦能企業數字化轉型,成為降本增效新引擎第四代數倉架構,也就是數據中臺的誕生為企業提供了全新的數據采集、存儲、計算、數據管理、數據共享,通過數據處理和沉淀形成對于前臺業務提供復用價值的數據資產,打通數據間、業務間的隔閡。“實際上數據中臺早已逐漸脫離純粹的技術層面概念,而是成為企業在管理層面的臺和工具。”這是閔佳和袋鼠云對數據中臺的一個全新理解。

我們了解到,數據中臺的核心在于業務及數據的一體化,它提供的是一種方法和通路,因此不受限于企業規模、業務種類、復雜程度等因素,能夠被廣泛應用到各行各業中,如商業領域的金融、零售、電商、快消、地產、公共事務領域的教育、軍工、政務等一系列場景,實現多領域及行業的“中臺化”。對此閔佳表示贊同,并且通過簡單的舉例,向我們展示了數據中臺對企業的具體賦能和作用:“我們認為數據中臺幫助企業降本增效的效果是明顯的,拿外賣店家或品牌門店來講,在過去一家多門店,多SKU的企業希望掌握,應用自身在各個環節、端點、業務線上產生的數據,需要巨大的人力、物力和時間成本,易受數據源混亂,數據難治理等問題的影響,最終會放大決策結果的不可控;但是在引入數據中臺后,數據中臺通過商家接入的外賣臺、小程序、APP客戶端或線下門店等數據源采集治理數據,形成從訂單、物料、會員到門店的一系列整合數據,指導商家在渠道整合、物料留存、用戶資產和運營效益方面的管理,同時這些數據資產能夠為商家進一步的業務優化提供決策依據,如新品開發、供應鏈管理、營銷手段的調整等等。”

袋鼠云“數棧DTinsight”這樣定義數據中臺

“我們也做過市場調研,目前市面上的數據中臺服務商非常多,有從做前臺、后臺產品轉入做中臺的,也有云供應商拓展業務涉足數據中臺領域的。如果作為一個對數據中臺沒有了解的客戶,僅看各家廠商對自家產品的描述會很容易產生選擇困難癥,無所適從,但是在我們實際與客戶接觸洽談過后,多數客戶反饋能夠記住我們的產品特,這本質上是由于我們對數據中臺有著顯著差異于其他廠商的定義。”閔佳在談及數棧DTinsight時,向我們詳細展示了許多來自客戶或合作伙伴的反饋意見。

從閔佳對數棧DTinsight的介紹中,我們主要從兩個方面進行了總結:依據數據中臺滿足企業治理、管理、應用數據需求的賦能標準,袋鼠云從產品化方向和技術架構兩個維度對數棧DTinsight進行了獨特的設計與定義。

圖片3.png

在產品化方向上,袋鼠云在整合企業業務數據、運維數據和設備數據的基礎上,設計了企業數據“臺化”、“資產化”和“服務化”的三個核心步驟:

一.臺化:Hadoop相關技術組件使用復雜、技術門檻高、版本更新迭代快,完成整條數據處理鏈路,涉及到數據采集、數據加工處理、任務發布管理、任務調度、任務運維等多個環節。從計算場景上,又分批處理、流式處理、數據挖掘等。因此在開發臺層產品上,需要屏蔽存儲和計算引擎層的技術復雜度,支持多種不同的計算任務類型,同時通過一站式、一體化的臺,把整個數據鏈路全部集成和打通,從而降低技術的門檻,提高開發、運維管理的效率。

二.資產化:開發臺經過ETL處理后,產生了大量的可以被業務直接使用的有價值的數據,但是數據質量如何保障?數據資產如何高效管理起來?這成為企業面臨的大問題,因此需要建設資產臺,校驗數據質量,保障數據產出的正確和有效,同時可以在線的、可視化的對數據進行管理,完善元數據信息,制定數據標準,對數據進行分級分類,安全管理,并分析數據熱度,數據血緣關系,提供統一的數據訪問入口。

三.服務化:沉淀有效的數據資產,最終需要給業務應用提供數據服務,產生數據價值,因此在數據服務的時候,需要統一的數據服務的出口,保障數據在安全,可控的范圍內使用,并進行實時在線的訪問監管。

在技術架構維度,數棧DTinsight主要包含六類設計:

一.云原生:云原生主要涉及到計算的彈伸縮和計算存儲分離。大數據計算任務大部分都是在凌晨開始運行,傳統的基于Yarn的資源調度模式,面臨晚上計算資源不足,白天又浪費嚴重,因此需要基于云原生的架構,容器化編排,統一計算調度,根據任務量情況,自動彈伸縮,提高資源的利用率。

大數據場景對計算資源的要求要高于存儲資源,計算資源和存儲資源需求不均衡,大部分情況下先碰到計算資源不足,在計算和存儲資源耦合的情況下,為了擴展計算能力,存儲資源也一起擴展了,帶來了大量的存儲浪費,因此計算和存儲分離后,可以根據需求,單獨擴充計算資源,降低成本。

二.信創:信息技術應用創新發展是目前的國家戰略,也是當今形勢下國家經濟發展的新動能,我國明確了“數字中國”建設戰略,搶占數字經濟產業鏈制高點的目標。在信創數據中臺產品上,主要體現核心技術自主可控,以及開源開放等兩方面。核心技術自主可控是大趨勢,因此基于開源框架,具備源碼二次開發和優化能力,并沉淀技術能力、自主知識產權,同時產品也需要擁抱信創生態體系,包含對國產數據庫、操作系統、服務器等多個領域全面國產化適配。

三.湖倉一體:數據倉庫屬于強schema,事先建模,主要存儲的是以關系型數據庫組織起來的結構化數據。數據通過轉換、清洗后,再導入到目標表中。優勢在數據管理方便,弱點在于靈活。

數據湖屬于弱schema,事后建模,主要存儲任何類型的數據,包括像圖片、文檔這樣的非結構化數據,存儲成本也更為廉價,讀取的時候再進行schema解析。優勢在于靈活,快速得到結果,存儲成本低,弱點在于缺少數據管理能力,以及對數據質量的保障。而企業對數據的需求中,這兩種場景都存在,因此為了管理方便,通過湖倉一體的架構,打通多種不同的數據存儲,并構建統一的元數據管理,實現數據湖和數倉的一體化。

四.批流一體:大數據處理主要分批處理和流式處理,傳統一般采用Lambda架構,批處理和流處理分別采用不同的技術架構,然后在數據服務層合并成統一的數據視圖,此種方式需要維護兩套分布式系統,和兩套不同的ETL代碼,增加了大量的開發和維護成本。為了提高開發,運維的效率,因此需要統一的技術框架,通過一套計算引擎、一套代碼實現批處理、流式處理等多種計算場景,大幅度提高開發效率。

五.多引擎兼容:在企業發展過程中,隨著數據倉庫技術的演進,會存在多種計算引擎共存的情況,例如有Oracle、GreenPlum、Hadoop等多套大數據環境,每套環境中都有大量的業務數據,和任務在運行,因此需要一套統一的臺來對接多套不同的集群,提供統一的開發體驗。

六.跨云能力:隨著這幾年大量企業開始接受公有云模式,業務和數據逐步遷移到阿里云,騰訊云,華為云等云臺上,甚至部分企業已經購買了云廠商的EMR產品服務,因此需要數據中臺臺具備跨云部署,以及對跨云EMR的兼容能力,在復用云上服務器,計算集群的同時,提供統一的數據管控的入口。

袋鼠云結合數據中臺的理論,通過以上的產品方向和技術架構,研發出的數棧DTinsight作為新一代的數據倉庫產品,能夠最大程度幫助企業降低成本,提高大數據基礎設施的投入產出比。

數據中臺發展走向何方?

“未來,數據中臺將成為企業核心數字化戰略之一,它體現了數據結合業務、數據間打通的新的企業管理思路,通過打造具備集企業研發、營銷、財務、技術、業務、算法等賦能于一體的管理臺推動企業數字化的轉型。同時,數據中臺產品還在獨立部署、行業云和公有云方面存在著較大的規模商業化機會和發展空間。”閔佳對袋鼠云和數據中臺未來的發展空間保持著樂觀的態度。

同時,閔佳還分別介紹了這幾類場景的服務核心與價值:

獨立部署場景常常被應用于涉密行業、金融、軍工等對數據隱私,數據安全的要求非常高的行業領域,在相當長的時間里,這些行業的核心業務還會是在私有環境為主,和外部環境是網絡隔離狀態,因此對于這類客戶,產品主要還是以獨立部署形態存在,即一套環境,客戶內部獨享使用的模式,這樣能最大限度保障數據安全,和降低數據泄露的風險。

行業云的特點主要體現在專業和服務精細化方面,在一些大型集團,以及行業非常強的領域,會統一建設行業云臺,為行業客戶提供軟硬件基礎服務,例如金融云,移動云,各地的政務云等,在這些行業云臺上,提供數據中臺產品,可以進一步的提高已有客戶的粘,發揮行業臺的價值。

公有云的核心屬是共享資源服務,適用于數據在云上的企業,做到開箱即用,使用便捷,彈伸縮,成本低廉是這些企業共同的訴求,因此對于這類客戶,未來有機會產生國內版的Snowflake,通過技術手段充分利用幾大云廠商的基礎設施的優勢,實現彈伸縮、計算存儲分離、跨云支持、按量付費等,為客戶提供極致的數據中臺SaaS服務。

在采訪結束前,閔佳對數據中臺做出了總結敘述并再次強調了袋鼠云對數據中臺的理解與定義:“數據中臺作為銜接“前臺”與“后臺”的技術架構,強調的是數據及技術對前臺業務的復用價值,通過數據治理方式,形成有價值的數據資產,并充分利用數據資產形成服務。同時“袋鼠云正是通過自身獨有的“臺化”、“資產化”和“服務化”的核心步驟和更為綜合豐富的技術架構,重新設計定義了這個推進業務數據化、數據業務化,構建數據廣泛采集、合理共享、高效利用機制的閉環,滿足企業客戶以數據驅動業務,以數據創業業務,以數據管理業務的需求,助力企業的數字化轉型,并起到降本提效的作用。”

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

相關閱讀