HUAQIAO UNIVERSITY
本 科 畢 業(yè) 論 文
題目:基于SQL SERVER 2005 及VS 2005的數據倉庫設計
學院:數 學 科 學 學 院
專業(yè):信 息 與 計 算 科 學 專 業(yè)
目 錄
摘 要 - 2 -
ABSTRACT - 3 -
第一章 數據倉庫概述 - 4 -
1.1 數據倉庫技術與應用 - 4 -
1.2 本文的主要研究內容 - 5 -
第二章 數據倉庫相關理論簡介 - 6 -
2.1 數據倉庫的定義和特征 - 7 -
2.1.1 數據倉庫的定義 - 7 -
2.1.2 數據倉庫的主要特性 - 7 -
2.2 數據倉庫系統(tǒng)的組成 - 9 -
2.2.1 信息源 - 9 -
2.2.2 數據預處理系統(tǒng) - 9 -
2.2.3 數據倉庫分析工具 - 9 -
2.2.4 查詢報表系統(tǒng) - 9 -
2.3 數據倉庫的數據組織結構 - 9 -
2.4 數據預處理技術(ETL) - 11 -
2.5 數據倉庫的開發(fā)方法 - 11 -
2.5.1 開發(fā)數據倉庫的方法論 - 11 -
2.5.2 數據倉庫的開發(fā)策略 - 13 -
2.5.3 數據倉庫設計的方法 - 13 -
第三章 數據倉庫的實際設計過程 - 16 -
3.1 系統(tǒng)背景 - 16 -
3.2 國僑辦文宣司贈送教材信息管理系統(tǒng) - 17 -
3.2.1 概念模型設計 - 17 -
3.2.2 邏輯模型的設計 - 19 -
3.2.3 物理模型設計 - 23 -
3.2.4 數據倉庫開發(fā)工具簡介 - 24 -
3.2.5 利用SQL SERVER 2005 和 VISUAL STUDIO 2005 進行數據倉庫的構建 - 24 -
3.2.6 數據倉庫的ETL過程。 - 27 -
3.3 國僑辦文宣司合作辦營管理信息系統(tǒng) - 36 -
3.3.1 需求分析及系統(tǒng)邊界劃分 - 36 -
3.3.2 確定主題域 - 36 -
3.3.3 各主題的關系模式 - 37 -
3.3.4 各主題的事實表及維表: - 37 -
3.4 國僑辦文宣司華教中心人員工資管理信息系統(tǒng) - 39 -
3.4.1.需求分析及系統(tǒng)邊界劃分 - 39 -
3.4.2.確定主題 - 39 -
3.4.3 各主題關系模式 - 40 -
3.4.4 各主題事實表及維表 - 40 -
3.5 國僑辦文宣司夏令營管理信息系統(tǒng) - 42 -
3.5.1 需求分析及系統(tǒng)邊界劃分 - 42 -
3.5.2 主題的確定 - 43 -
3.5.3 各主題關系模式 - 43 -
3.5.4 各主題事實表及維表 - 44 -
結 束 語 - 48 -
參 考 文 獻 - 49 -
……(新文秘網http://120pk.cn省略1984字,正式會員可完整閱讀)……
第一章 數據倉庫概述
1.1 數據倉庫技術與應用
數據倉庫是以關系數據庫、并行處理與分布式處理技術,以及聯機分析處理等技術的發(fā)展為基礎,為解決當前企業(yè)和組織中雖然擁有大量數據但信息貧乏(難以利用)的現狀而提出的,是一種對不同系統(tǒng)數據實現集成和共享的綜合性解決方案。
從普通數據庫與數據倉庫的關系來看,人們把普通數據庫技術稱為傳統(tǒng)的數據庫技術。傳統(tǒng)的數據庫往往是以單一的數據資源(即以數據庫為中心)進行事務處理、批處理、決策分析等各種數據處理工作。數據處理模式主要劃分為兩大類:操作型處理和分析型處理(或者信息型處理)。操作型處理也叫事務處理,是指對數據庫聯機的日常操作,它通常是對一個或一組記錄的查詢和修改,主要是為企業(yè)的特定應用服務的,基本上滿足了響應時間、數據的安全性和完整性的需要;分析型處理則用于管理人員的決策分析,往往是大規(guī)模、批量的計算作用,經常要訪問大量的歷史數據、也就是說,傳統(tǒng)的數據庫系統(tǒng)能夠完成企業(yè)的日常事務處理工作,但很難達到實現數據分析處理的要求,也無法滿足數據處理多樣化的要求。隨著用戶需求的發(fā)展,操作性處理和分析型處理的分離就成為必然。
近年來,隨著信息化的發(fā)展和技術的進步,信息已成為人類社會不可或缺的重要資源。社會的信息化使得信息量的急劇增長。面對數據量的急劇增長和應對要求的不斷提升,數據庫技術的應用和發(fā)展也有了更高的作用和價值。數據庫技術一直力圖使自己能勝任當前的發(fā)展變化,完成從事務處理、批處理到分析處理的各種類型的信息處理任務。雖然業(yè)務擴充了,但還是要在統(tǒng)一數據格式、統(tǒng)一數據模型下來實現業(yè)務操作的數據處理。對于決策分析,在業(yè)務操作層面上進行分析判斷還存在著很大的局限性。于是,人們嘗試對來自操作型處理數據庫中的數據進行再加工,形成一個綜合的、面向分析的環(huán)境,以更好地支持決策分析,這就形成了數據倉庫(Data Warehousing,簡稱DW)的數據倉庫系統(tǒng)包括數據倉庫技術、聯機分析處理技術(On_Line Analytical Processing,簡稱OLAP)、數據挖掘技術。[2]
數據倉庫彌補了原有數據庫的不足,將原來的以單一數據庫為中心的數據環(huán)境發(fā)展為一種新的體系環(huán)境。它具有一種新的數據處理結構體系,能夠將不同環(huán)境、不同系統(tǒng)的數據統(tǒng)一起來,以形成綜合的中央數據倉庫。
1.2 本文的主要研究內容
第一章緒論部分提出了
論文選題的背景和研究的內容;第二章對數據倉庫系統(tǒng)基本理論進行了研究,澄清了各相關概念之間的界限和聯系,為數據倉庫的進一步研究提供理論上的支持; 分析了數據倉庫系統(tǒng)關鍵技術的原理。第三章基于SQL Server2005構建數據倉庫;對國務院僑辦文宣司的相關信息管理模塊的需求做了分析,并根據需求分析對國務院僑辦文宣司的相關信息管理模塊需要的信息,建立相應的維度、多維數據集等做了相應的介紹。主要針對國僑辦文宣司的贈送教材信息管理系統(tǒng)做了比較系統(tǒng)的數據倉庫設計,其他的三個模塊只是做了一個簡單的模型設計。第四章結束語:對論文所做工作的
總結及后續(xù)工作的展望。
第二章 數據倉庫相關理論簡介
2.1 數據倉庫的定義和特征
2.1.1 數據倉庫的定義
數據倉庫的英文是“Data Warehouse”,“Warehouse”一詞的含義為:“貨倉、棧房”,二者合起來的含義則是“存儲數據的倉庫”,在我國一般譯為數據倉庫。目前數據倉庫的定義是不統(tǒng)一的。公認的數據倉庫之父W.Hinmon將其定義為:“數據倉庫是支持管理決策過程的、面向主題的、集成的、隨時間而變的、持久的數據集合�!� [3]
本文提出的數據倉庫的定義如下:數據倉庫是將來自不同信息源的數據(操作型數據)經預處理之后,按面向主題的方式,以不同的粒度組織在一起,并進行階段性更新,為復雜的數據分析和決策過程提供信息依據的數據集合。這個定義更全面和清晰地概括了數據倉庫的基本特征,指出了數據倉庫建立的基礎、作用和目的。
2.1.2 數據倉庫的主要特性[5]
2.1.2.1.組織數據的方式是面向主題的
主題是一個抽象的概念,是在較高層次上將信息系統(tǒng)中的數據綜合、歸類并進行分析利用的抽象。在邏輯意義上,它對應企業(yè)中某一宏觀分析領域的分析對象。一般按分析的要求(即決策者或者管理者所關心的)來進行主題的抽取。面向主題的數據組織方式是根據分析要求將數據組織成一個完備的分析領域,即主題域。這樣組織的數據更有利于分析時的提取。如某個超市的銷售系統(tǒng)的業(yè)務,如果按主題劃分為:顧客主題、供應商主題、商品主題。
2.1.2.2.數據倉庫中的數據是集成的
數據倉庫中的集成有兩方面的含義:一是指把不同來源和格式的數據轉換為統(tǒng)一的形式,以便于管理。數據倉庫的數據來自于不同方面,如原有的數據庫系統(tǒng)、聯機的數據庫、數據庫以外的非結構化的數據和信息等,這些數據在進入數據倉庫前要進行提取、凈化、轉化、合成、裝載等預處理后才可裝入數據倉庫。這在SQL Server 2005中實際上是通過SSIS來完成的,但在數據庫設計階段也需要把數據的集成方案設計出來,而具體的操作則主要體現在對SSIS的操作上。二是指在數據倉庫中要將細節(jié)數據按要求合并為綜合數據以適應快速進行大量數據分析的需要,這一過程是具體數據向綜合數據合并的過程,也稱之為集成。
2.1.2.3 穩(wěn)定的
業(yè)務系統(tǒng)一般只需要當前數據,在數據庫中一般也存儲短期數據,因此在數據庫系統(tǒng)中數據是不穩(wěn)定的,它記錄的是系統(tǒng)中每一個變化的瞬態(tài)。但對于決策分析而言,歷史數據是相當重要的,許多分析方法必須以大量的歷史數據為依托。沒有歷史數據的詳細分析是難以把握企業(yè)的發(fā)展趨勢的,因此,數據倉庫對數據在空間和時間的廣度上都有了更高的要求。在數據倉庫中,數據一旦被寫入就不再變化了。數據倉庫可以看成是一個虛擬的只讀數據庫系統(tǒng)。在數據集成性中已經說明了數據倉庫在數據存儲方面是分批進行的,定期執(zhí)行提取過程為數據倉庫增加記錄,但是這些記錄一旦加入,就不再從系統(tǒng)中刪除。正是由于數據倉庫的這個顯著特點,使得數據倉庫不需要在并發(fā)讀寫控制上投入過多的精力,因為所有的用戶只是以只讀的方式訪問數據倉庫。
2.1.2.4.數據倉庫中的數據是有粒度區(qū)別的
粒度是對數據倉庫中數據的綜合程度高低的一個度量。粒度越大,綜合程度越高;粒度越小,細節(jié)程度越高。數據倉庫要能支持不同綜合程度的查詢,進行大量數據分析的需要,這一過程是具體數據向綜合數據合并的過程,也稱之為集成。
2.1.2.5.數據倉庫中的數據是階段性更新的
數據倉庫中存貯的數據既有當前數據,也有歷史數據,既有細節(jié)數據,也有綜合數據,為了滿足分析的要求,這些數據具有相對的穩(wěn)定性,一般不進行即時的修改。但它們又都是與時間有關的,要按數據生存周期的長短(一般為5.10年)刪去舊的內容,據實際數據庫中數據的變化增加新的內容,綜合數據也要根據新加的內容進行重新組合。所以說,數據倉庫中的數據具有相對的穩(wěn)定性,是階段性更新的。
數據倉庫所具有的這些特點都是為了更好地完成分析的任務,也可以說,數據倉庫建立的目的決定了它本身的特征。
2.2 數據倉庫系統(tǒng)的組成[11]
2.2.1 信息源
信息源包括存貯與決策分析有關數據或信息的數據庫和其它物理構件,其中包含的數據可分為三類:駐留在不同平臺的操作數據:操作系統(tǒng)的外部數據,即相關的非結構化數據;行業(yè)外部數據,指來源于社會其它方面的相關數據和信息,包括HTML文檔、網絡信息、行業(yè)狀況、國家政策形式變化等。這些原始的數據和信息在進入數據倉庫之前要經過一系列處理,才能真正成為數據倉庫的組成部分。
2.2.2 數據預處理系統(tǒng)
可見為了支持分析處理,數據倉庫涵蓋了大量的類型各異的數據和信息,為將它們統(tǒng)一管理,必須有功能強大的數據轉換工具,要完成的主要任務有:數據的提取(E*traction )、凈化(Cleaning )、轉化(Transformation )、合成( Integration)和裝載(Loading ) 。
2.2.3 數據倉庫分析工具
數據倉庫分析工具是整個系統(tǒng)發(fā)揮作用的關鍵,它們可分為兩類,驗證型和發(fā)現型工具。驗證型工具主要指OLAP工具,發(fā)現型工具主要指數據挖掘工具。在實際應用中,要根據不同的需求和系統(tǒng)的整體建設來選擇不同的工具。在進行查詢分析、數據報表及對事物進行多方面考察時,用分析型工具。數據挖掘工具主要用于研究和發(fā)現潛在的事物之間的聯系。
2.2.4 查詢報表系統(tǒng)
數據倉庫系統(tǒng)中的查詢和報表系統(tǒng)是實現用戶和分析系統(tǒng)交流的應用程序,當前這種工具正向直觀化和智能化方向發(fā)展。
2.3 數據倉庫的數據組織結構
2.3.1.粒度
數據倉庫中的數據分為四個級別:早期細節(jié)級、當前細節(jié)級、輕度綜合級、高度綜合級。
各業(yè)務系統(tǒng)的源數據經過ETL處理整合后,成為當前細節(jié)級數據,當前細
節(jié)級數據根據業(yè)務需求需要進行進一步的綜合,從而變成輕度綜合級乃至高度綜合級數據�;诖鎯臻g及訪問效率的考慮,早期的當前細節(jié)級數據需要備份到設備上從而變成早期細節(jié)級數據。
數據的不同綜合程度對應的是粒度這個概念。粒度是指數據倉庫的數據單元保存數據的細化或綜合級別。細化程度越高,粒度級就越��;相反,細化程度越低,粒度級就越大。粒度是數據倉庫設計過程中所需要考慮的一個重要問題,它不但影響著存放在數據倉庫中的數據量的大小,同時影響數據倉庫所能回答的查詢類型。而這兩個方面是相互矛盾的,存儲的數據量大,所能回答的查詢類型就多,但查詢效率比較低;存儲數據量小,所能回答的查詢類型就少,但查詢效率較高。因此在確定數據粒度是就需要在這兩者之間進行權衡。數據倉庫的結構如圖2.2所示:
圖2.2 數據倉庫結構
2.3.2 元數據
整個數據倉庫系統(tǒng)的結構由元數據(Meta Data )來組織。元數據是關于數據的數據,它對數據倉庫中的數據進行解釋和管理。元數據好比是圖書館的卡片分類系統(tǒng),它的建立使數據的組織和查詢非常方便。元數據主要有三類:
一類是為完成數據從操作型環(huán)境向數據倉庫環(huán)境轉換而建立的,包含所有源數據項名、數據屬性及其轉換過程的記錄。
第二類是指導數據由細節(jié)級 ……(未完,全文共30975字,當前僅顯示5571字,請閱讀下面提示信息。
收藏《畢業(yè)論文:基于SQL SERVER 2005及VS 2005的數據倉庫設計》)