SERVICE
大數(shù)據(jù)服務(wù)
一、定義
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間變化的、但信息本身相對(duì)穩(wěn)定的數(shù)據(jù)集合,用于對(duì)管理決策過(guò)程的支持。
二、數(shù)據(jù)倉(cāng)庫(kù)的四個(gè)特點(diǎn)
面向主題:數(shù)據(jù)倉(cāng)庫(kù)都是基于某個(gè)明確主題,僅需要與該主題相關(guān)的數(shù)據(jù),其他的無(wú)關(guān)細(xì)節(jié)數(shù)據(jù)將被排除掉
集成的:從不同的數(shù)據(jù)源采集數(shù)據(jù)到同一個(gè)數(shù)據(jù)源,此過(guò)程會(huì)有一些ETL操作
隨時(shí)間變化:關(guān)鍵數(shù)據(jù)隱式或顯式的基于時(shí)間變化
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是不可更新的:數(shù)據(jù)裝入以后一般只進(jìn)行查詢操作,沒(méi)有傳統(tǒng)數(shù)據(jù)庫(kù)的增刪改操作。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)反映的是一段相當(dāng)長(zhǎng)的時(shí)間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時(shí)點(diǎn)的數(shù)據(jù)庫(kù)快照的集合,以及基于這些快照進(jìn)行統(tǒng)計(jì)、綜合和重組的導(dǎo)出數(shù)據(jù),而不是聯(lián)機(jī)處理的數(shù)據(jù)。
三、數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別
數(shù)據(jù)庫(kù):是一種邏輯概念,用來(lái)存放數(shù)據(jù)的倉(cāng)庫(kù)。通過(guò)數(shù)據(jù)庫(kù)軟件來(lái)實(shí)現(xiàn)。數(shù)據(jù)庫(kù)由很多表組成,表是二維的,一張表里可以有很多字段。字段一字排開(kāi),對(duì)應(yīng)的數(shù)據(jù)就一行一行寫入表中。數(shù)據(jù)庫(kù)的表,在于能夠用二維表現(xiàn)多維關(guān)系。目前市面上流行的數(shù)據(jù)庫(kù)都是二維數(shù)據(jù)庫(kù)。如:Oracle、DB2、MySQL、Sybase、MS SQL Server等。
業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)是為了完成交易而設(shè)計(jì)的,不是為了而查詢和分析的便利設(shè)計(jì)的。
業(yè)務(wù)數(shù)據(jù)庫(kù)大多是讀寫優(yōu)化的,即又要讀(查看商品信息),也要寫(產(chǎn)生訂單,完成支付)。
數(shù)據(jù)倉(cāng)庫(kù):是數(shù)據(jù)庫(kù)概念的升級(jí)。從邏輯上理解,數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)沒(méi)有區(qū)別,都是通過(guò)數(shù)據(jù)庫(kù)軟件實(shí)現(xiàn)的存放數(shù)據(jù)的地方,只不過(guò)從數(shù)據(jù)量來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)要比數(shù)據(jù)庫(kù)更龐大得多。數(shù)據(jù)倉(cāng)庫(kù)主要用于數(shù)據(jù)挖掘和數(shù)據(jù)分析,輔助領(lǐng)導(dǎo)做決策。
數(shù)據(jù)倉(cāng)庫(kù)的表結(jié)構(gòu)是依照分析需求,分析維度,分析指標(biāo)進(jìn)行設(shè)計(jì)的。
總結(jié)
數(shù)據(jù)庫(kù) 比較流行的有:MySQL, Oracle, SqlServer等
數(shù)據(jù)倉(cāng)庫(kù) 比較流行的有:AWS Redshift, Greenplum, Hive等。
四、數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用
1.數(shù)據(jù)分析、數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)、風(fēng)險(xiǎn)控制、無(wú)人駕駛。
2.數(shù)據(jù)化運(yùn)營(yíng)、精準(zhǔn)運(yùn)營(yíng)。
3.廣告精準(zhǔn)、智能投放。
五、數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)圖
ODS層:
為臨時(shí)存儲(chǔ)層,是接口數(shù)據(jù)的臨時(shí)存儲(chǔ)區(qū)域,為后一步的數(shù)據(jù)處理做準(zhǔn)備。一般來(lái)說(shuō)ODS層的數(shù)據(jù)和源系統(tǒng)的數(shù)據(jù)是同構(gòu)的,主要目的是簡(jiǎn)化后續(xù)數(shù)據(jù)加工處理的工作。從數(shù)據(jù)粒度上來(lái)說(shuō)ODS層的數(shù)據(jù)粒度是最細(xì)的。ODS層的表通常包括兩類,一個(gè)用于存儲(chǔ)當(dāng)前需要加載的數(shù)據(jù),一個(gè)用于存儲(chǔ)處理完后的歷史數(shù)據(jù)。歷史數(shù)據(jù)一般保存3-6個(gè)月后需要清除,以節(jié)省空間。但不同的項(xiàng)目要區(qū)別對(duì)待,如果源系統(tǒng)的數(shù)據(jù)量不大,可以保留更長(zhǎng)的時(shí)間,甚至全量保存;
PDW層:
為數(shù)據(jù)倉(cāng)庫(kù)層,PDW層的數(shù)據(jù)應(yīng)該是一致的、準(zhǔn)確的、干凈的數(shù)據(jù),即對(duì)源系統(tǒng)數(shù)據(jù)進(jìn)行了清洗(去除了雜質(zhì))后的數(shù)據(jù)。這一層的數(shù)據(jù)一般是遵循數(shù)據(jù)庫(kù)第三范式的,其數(shù)據(jù)粒度通常和ODS的粒度相同。在PDW層會(huì)保存BI系統(tǒng)中所有的歷史數(shù)據(jù),例如保存10年的數(shù)據(jù)。
DM層:
為數(shù)據(jù)集市層,這層數(shù)據(jù)是面向主題來(lái)組織數(shù)據(jù)的,通常是星形或雪花結(jié)構(gòu)的數(shù)據(jù)。從數(shù)據(jù)粒度來(lái)說(shuō),這層的數(shù)據(jù)是輕度匯總級(jí)的數(shù)據(jù),已經(jīng)不存在明細(xì)數(shù)據(jù)了。從數(shù)據(jù)的時(shí)間跨度來(lái)說(shuō),通常是PDW層的一部分,主要的目的是為了滿足用戶分析的需求,而從分析的角度來(lái)說(shuō),用戶通常只需要分析近幾年(如近三年的數(shù)據(jù))的即可。從數(shù)據(jù)的廣度來(lái)說(shuō),仍然覆蓋了所有業(yè)務(wù)數(shù)據(jù)。
APP層:
為應(yīng)用層,這層數(shù)據(jù)是完全為了滿足具體的分析需求而構(gòu)建的數(shù)據(jù),也是星形或雪花結(jié)構(gòu)的數(shù)據(jù)。從數(shù)據(jù)粒度來(lái)說(shuō)是高度匯總的數(shù)據(jù)。從數(shù)據(jù)的廣度來(lái)說(shuō),則并不一定會(huì)覆蓋所有業(yè)務(wù)數(shù)據(jù),而是DM層數(shù)據(jù)的一個(gè)真子集,從某種意義上來(lái)說(shuō)是DM層數(shù)據(jù)的一個(gè)重復(fù)。從極端情況來(lái)說(shuō),可以為每一張報(bào)表在APP層構(gòu)建一個(gè)模型來(lái)支持,達(dá)到以空間換時(shí)間的目的數(shù)據(jù)倉(cāng)庫(kù)的標(biāo)準(zhǔn)分層只是一個(gè)建議性質(zhì)的標(biāo)準(zhǔn),實(shí)際實(shí)施時(shí)需要根據(jù)實(shí)際情況確定數(shù)據(jù)倉(cāng)庫(kù)的分層,不同類型的數(shù)據(jù)也可能采取不同的分層方法。
六、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是為了有效的把操作型數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問(wèn)的各種技術(shù)和模塊的總稱。所做的一切都是為了讓用戶更快更方便查詢所需要的信息,提供決策支持。
從功能結(jié)構(gòu)劃分,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)至少應(yīng)該包含數(shù)據(jù)獲?。―ata Acquisition)、數(shù)據(jù)存儲(chǔ)(Data Storage)、數(shù)據(jù)訪問(wèn)(Data Access)三個(gè)關(guān)鍵部分。
在國(guó)內(nèi)最優(yōu)秀的互聯(lián)網(wǎng)公司里(如阿里、騰訊),很多數(shù)據(jù)引擎是架構(gòu)在數(shù)據(jù)倉(cāng)庫(kù)之上的(如數(shù)據(jù)分析引擎、數(shù)據(jù)挖掘引擎、推薦引擎、可視化引擎等等)。
七、數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)模型的基本概念
主題(Subject)
主題就是指我們所要分析的具體方面。例如:某年某月某地區(qū)某機(jī)型某款A(yù)pp的安裝情況。主題有兩個(gè)元素:一是各個(gè)分析角度(維度),如時(shí)間位置;二是要分析的具體量度,該量度一般通過(guò)數(shù)值體現(xiàn),如App安裝量。
維(Dimension)
維是用于從不同角度描述事物特征的,一般維都會(huì)有多層(Level:級(jí)別),每個(gè)Level都會(huì)包含一些共有的或特有的屬性(Attribute)。
以時(shí)間維為例,時(shí)間維一般會(huì)包含年、季、月、日這幾個(gè)Level,每個(gè)Level一般都會(huì)有ID、NAME、DESCRIPTION這幾個(gè)公共屬性,這幾個(gè)公共屬性不僅適用于時(shí)間維,也同樣表現(xiàn)在其它各種不同類型的維。
分層(Hierarchy)
OLAP需要基于有層級(jí)的自上而下的鉆取,或者自下而上地聚合。所以我們一般會(huì)在維的基礎(chǔ)上再次進(jìn)行分層,維、分層、層級(jí)的關(guān)系如下圖:
每一級(jí)之間可能是附屬關(guān)系(如市屬于省、省屬于國(guó)家),也可能是順序關(guān)系(如天周年)。
量度
量度就是我們要分析的具體的技術(shù)指標(biāo),諸如年銷售額之類。它們一般為數(shù)值型數(shù)據(jù)。我們或者將該數(shù)據(jù)匯總,或者將該數(shù)據(jù)取次數(shù)、獨(dú)立次數(shù)或取最大最小值等,這樣的數(shù)據(jù)稱為量度。
粒度
數(shù)據(jù)的細(xì)分層度,例如按天分按小時(shí)分。
事實(shí)表和維表
事實(shí)表是用來(lái)記錄分析的內(nèi)容的全量信息的,包含了每個(gè)事件的具體要素,以及具體發(fā)生的事情。事實(shí)表中存儲(chǔ)數(shù)字型ID以及度量信息。
維表則是對(duì)事實(shí)表中事件的要素的描述信息,就是你觀察該事務(wù)的角度,是從哪個(gè)角度去觀察這個(gè)內(nèi)容的。
事實(shí)表和維表通過(guò)ID相關(guān)聯(lián),如圖所示:
企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)集市
企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù):突出大而全,不論是細(xì)致數(shù)據(jù)和聚合數(shù)據(jù)它全都有,設(shè)計(jì)時(shí)使用事實(shí)星座模式.
數(shù)據(jù)集市:可以看做是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,它是針對(duì)某一方面的數(shù)據(jù)設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù),例如為公司的支付業(yè)務(wù)設(shè)計(jì)一個(gè)單獨(dú)的數(shù)據(jù)集市。由于數(shù)據(jù)集市沒(méi)有進(jìn)行企業(yè)級(jí)的設(shè)計(jì)和規(guī)劃,所以長(zhǎng)期來(lái)看,它本身的集成將會(huì)極其復(fù)雜。其數(shù)據(jù)來(lái)源有兩種,一種是直接從原生數(shù)據(jù)源得到,另一種是從企業(yè)數(shù)據(jù)倉(cāng)庫(kù)得到。
公司投資建設(shè)云計(jì)算中心和大數(shù)據(jù)平臺(tái),獲得國(guó)家工業(yè)與信息化部的經(jīng)營(yíng)許可。同時(shí)還擁有云南領(lǐng)先的公有云平臺(tái),為用戶提供彈性可伸縮的計(jì)算服務(wù)。公司組建了一支參加過(guò)國(guó)家級(jí)和省級(jí)通信網(wǎng)、大型互聯(lián)網(wǎng)、云計(jì)算大數(shù)據(jù)平臺(tái)建設(shè)和覆蓋多個(gè)技術(shù)領(lǐng)域軟件開(kāi)發(fā)人才的核心團(tuán)隊(duì)。完善的客戶服務(wù)體系和售后服務(wù)流程,能為用戶提供一站式的互聯(lián)網(wǎng)數(shù)據(jù)中心服務(wù)。我司可提供區(qū)塊鏈系統(tǒng)定制開(kāi)發(fā)、區(qū)塊鏈交易開(kāi)發(fā)、區(qū)塊鏈錢包開(kāi)發(fā)、去中心化應(yīng)用開(kāi)發(fā)、可視化大數(shù)據(jù)平臺(tái)、公私聯(lián)鏈、項(xiàng)目孵化、量化交易、NFT開(kāi)發(fā)、元宇宙等,點(diǎn)擊網(wǎng)頁(yè)右方“在線咨詢”或者“提交留言”,歡迎您前來(lái)咨詢。