煙草企業(yè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中的數(shù)據(jù)質(zhì)量評(píng)估
1 背景
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)被越來越多的煙草行業(yè)企業(yè)所采用,在企業(yè)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí)面臨的一個(gè)突出問題就是數(shù)據(jù)來源的廣泛性以及保證數(shù)據(jù)質(zhì)量的重要性,數(shù)據(jù)質(zhì)量問題成為關(guān)系到數(shù)據(jù)倉(cāng)庫(kù)建設(shè)成敗和數(shù)據(jù)能否有效應(yīng)用的重要關(guān)鍵問題。由于
煙草行業(yè)信息化建設(shè)起步比較早,各企業(yè)在多年來信息化建設(shè)中積累了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)由于歷史原因,數(shù)據(jù)質(zhì)量的狀況差異很大,因此在使用這些數(shù)據(jù)建立數(shù)據(jù)倉(cāng)庫(kù)時(shí),低質(zhì)量的數(shù)據(jù)不僅會(huì)帶來數(shù)據(jù)倉(cāng)庫(kù)自身維護(hù)的高昂費(fèi)用,而且更重要的是會(huì)導(dǎo)致制定糟糕的決策。即使在設(shè)計(jì)和建設(shè)數(shù)據(jù)倉(cāng)庫(kù)時(shí)做到非常好的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)設(shè)施,但如果倉(cāng)庫(kù)中的數(shù)據(jù)不符合支持決策的質(zhì)量特征的要求,那么建設(shè)數(shù)據(jù)倉(cāng)庫(kù)所付出的努力就會(huì)付諸東流。
從數(shù)據(jù)質(zhì)量管理的發(fā)展歷程來看,對(duì)于數(shù)據(jù)質(zhì)量的控制從單純的對(duì)倉(cāng)庫(kù)中已有數(shù)據(jù)的監(jiān)控發(fā)展到對(duì)倉(cāng)庫(kù)數(shù)據(jù)形成過程的全面質(zhì)量管理。因此,以數(shù)據(jù)倉(cāng)庫(kù)的長(zhǎng)期建設(shè)來看,好的數(shù)據(jù)質(zhì)量管理的方法不是臨時(shí)解決問題,而是建立適宜的數(shù)據(jù)質(zhì)量評(píng)價(jià)體系,來管理數(shù)據(jù)的正確性、有效性、安全性、完備性。
……(新文秘網(wǎng)http://120pk.cn省略728字,正式會(huì)員可完整閱讀)……
錯(cuò)誤的分析來看,從源頭上控制數(shù)據(jù)的質(zhì)量是解決數(shù)據(jù)質(zhì)量問題的最根本的方法;跀(shù)據(jù)源本身的正確性和質(zhì)量對(duì)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)質(zhì)量的重要性,數(shù)據(jù)源分析成為數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃與分析階段的一項(xiàng)重要內(nèi)容,具有十分重要的意義。數(shù)據(jù)源分析的主要任務(wù)是完成各源系統(tǒng)的數(shù)據(jù)現(xiàn)狀描述、評(píng)估,評(píng)價(jià)數(shù)據(jù)質(zhì)量以及存在的問題和不足,為數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施做準(zhǔn)備。
4 數(shù)據(jù)質(zhì)量的度量
一般來說,數(shù)據(jù)質(zhì)量是由數(shù)據(jù)質(zhì)量元素來描述的。數(shù)據(jù)質(zhì)量元素分為兩類:數(shù)據(jù)質(zhì)量的定量元素和數(shù)據(jù)質(zhì)量的非定量元素。數(shù)據(jù)質(zhì)量定量元素用于描述數(shù)據(jù)集滿足預(yù)先設(shè)定的質(zhì)量標(biāo)準(zhǔn)要求及指標(biāo)的程度,并提供定量的質(zhì)量信息。數(shù)據(jù)質(zhì)量非定量元
圖1 數(shù)據(jù)流圖
素提供綜述性的、非定量的質(zhì)量信息。本文重點(diǎn)探討數(shù)據(jù)質(zhì)量的定量元素分析。
對(duì)一個(gè)信息系統(tǒng)而言,數(shù)據(jù)質(zhì)量定量元素主要考慮以下指標(biāo):
● 正確性(Correctness)
● 完整性(Completeness)
● 一致性(Consistency)
● 及時(shí)性(Timeliness)
● 相關(guān)性(Relatability)
● 唯一性(Uniqueness)
● 有效性(Validity)
● 可理解性(Understandable)
根據(jù)上述指標(biāo),可以針對(duì)不同的信息系統(tǒng)進(jìn)行定量的數(shù)據(jù)質(zhì)量評(píng)估,在評(píng)估過程中,用戶可以根據(jù)應(yīng)用的需求選擇其中一部分來執(zhí)行。
5 數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)及檢測(cè)方法
根據(jù)以上論述的數(shù)據(jù)質(zhì)量的度量,在進(jìn)行具體系統(tǒng)數(shù)據(jù)質(zhì)量評(píng)估時(shí)主要考慮以下指標(biāo):
● 完整性檢測(cè)(Completeness):完整性即實(shí)體的每個(gè)屬性都有明確的值,不存在“空”或“未知”的屬性。完整性檢測(cè)就是計(jì)算表中不存在缺失字段的數(shù)據(jù)的百分比。
檢測(cè)方法:(1) 用戶選擇需要進(jìn)行完整性檢測(cè)的字段, 即該字段不能為空。缺省情況下是該表的所有主碼。(2) 對(duì)設(shè)定的的每個(gè)字段,建立規(guī)則,給出其非空值的比例。
● 唯一性檢測(cè)(Uniqueness):唯一性即一個(gè)表中的一組屬性的值是唯一的。唯一性檢測(cè)是計(jì)算滿足唯一性約束數(shù)據(jù)的百分比。
檢測(cè)方法:(1) 用戶設(shè)定需要進(jìn)行唯一性檢測(cè)的字段, 缺省情況下是主碼。(2) 對(duì)選擇的每個(gè)字段,給出其唯一性的符合比例。
● 有效性檢測(cè)(Validity):有效性即實(shí)體屬性的值要在用戶定義的有效范圍之內(nèi)。有效性檢測(cè)是計(jì)算滿足域和數(shù)據(jù)有效范圍定義的數(shù)據(jù)的百分比。檢測(cè)方法:(1) 用戶選擇需要進(jìn)行有效性檢測(cè)的字段。(2) 針對(duì)每個(gè)字段,用戶設(shè)定有效性規(guī)則,有效性規(guī)則分為數(shù)值有效性和自定義有效性兩類。數(shù)值有效性將數(shù)據(jù)分為連續(xù)型和離散型。對(duì)于連續(xù)型數(shù)據(jù),用戶可設(shè)定該字段的最大值和最小值,以限制該字段的有效范圍。對(duì)于離散型數(shù)據(jù),用戶可設(shè)置該字段的所有有效取值。例如,在性別一欄中,只能填F、M 或U,其他均為無效。在自定義有效性中,用戶可以_設(shè)定有效性規(guī)則。(3)針對(duì)該字段,檢測(cè)給出的有效性規(guī)則,給出滿足程度。
● 相關(guān)性檢測(cè)(Relatability):參照完整性是指一
個(gè)子表(從表)中的一個(gè)字段必須在另一個(gè)父表(主
表)中存在。相關(guān)性就是計(jì)算滿足參照完整性數(shù)據(jù)
的百分比。對(duì)于數(shù)據(jù)庫(kù)中的某些實(shí)體,它們的存在
可能要依賴于其他的實(shí)體,但在數(shù)據(jù)庫(kù)中并沒有定
義這些實(shí)體的參照完整性,而靠應(yīng)用程序或其它手
段來檢查,但這并不能完全保證實(shí)體的參照完整性,
所以要在數(shù)據(jù)質(zhì)量評(píng)估時(shí)進(jìn)行檢查。
檢測(cè)方法:(1) 用戶設(shè)定需要檢測(cè)參照完整性
的主表字段。(2) 用戶設(shè)定相應(yīng)的從表和從表字段,
而且只能在具有匹配值的相似字段間建立參照完整
性檢驗(yàn)。(3)逐一考察每個(gè)字段的參照完整性,給
出其參照完整性的符合程度。
(4) 一致性檢測(cè)(Consistency):同一個(gè)實(shí)體的
一些屬性可能在多個(gè)表(可能在不同的系 ……(未完,全文共5821字,當(dāng)前僅顯示2044字,請(qǐng)閱讀下面提示信息。
收藏《煙草企業(yè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中的數(shù)據(jù)質(zhì)量評(píng)估》)