您的位置:新文秘網(wǎng)>>畢業(yè)相關(guān)/畢業(yè)論文/文教論文/>>正文

畢業(yè)論文:基于SQL SERVER 2005及VS 2005的數(shù)據(jù)倉庫設(shè)計

發(fā)表時間:2013/5/7 11:26:39


HUAQIAO UNIVERSITY
本 科 畢 業(yè) 論 文
題目:基于SQL SERVER 2005 及VS 2005的數(shù)據(jù)倉庫設(shè)計

學(xué)院:數(shù) 學(xué) 科 學(xué) 學(xué) 院
專業(yè):信 息 與 計 算 科 學(xué) 專 業(yè)


目 錄
摘 要 - 2 -
ABSTRACT - 3 -
第一章 數(shù)據(jù)倉庫概述 - 4 -
1.1 數(shù)據(jù)倉庫技術(shù)與應(yīng)用 - 4 -
1.2 本文的主要研究內(nèi)容 - 5 -
第二章 數(shù)據(jù)倉庫相關(guān)理論簡介 - 6 -
2.1 數(shù)據(jù)倉庫的定義和特征 - 7 -
2.1.1 數(shù)據(jù)倉庫的定義 - 7 -
2.1.2 數(shù)據(jù)倉庫的主要特性 - 7 -
2.2 數(shù)據(jù)倉庫系統(tǒng)的組成 - 9 -
2.2.1 信息源 - 9 -
2.2.2 數(shù)據(jù)預(yù)處理系統(tǒng) - 9 -
2.2.3 數(shù)據(jù)倉庫分析工具 - 9 -
2.2.4 查詢報表系統(tǒng) - 9 -
2.3 數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu) - 9 -
2.4 數(shù)據(jù)預(yù)處理技術(shù)(ETL) - 11 -
2.5 數(shù)據(jù)倉庫的開發(fā)方法 - 11 -
2.5.1 開發(fā)數(shù)據(jù)倉庫的方法論 - 11 -
2.5.2 數(shù)據(jù)倉庫的開發(fā)策略 - 13 -
2.5.3 數(shù)據(jù)倉庫設(shè)計的方法 - 13 -
第三章 數(shù)據(jù)倉庫的實際設(shè)計過程 - 16 -
3.1 系統(tǒng)背景 - 16 -
3.2 國僑辦文宣司贈送教材信息管理系統(tǒng) - 17 -
3.2.1 概念模型設(shè)計 - 17 -
3.2.2 邏輯模型的設(shè)計 - 19 -
3.2.3 物理模型設(shè)計 - 23 -
3.2.4 數(shù)據(jù)倉庫開發(fā)工具簡介 - 24 -
3.2.5 利用SQL SERVER 2005 和 VISUAL STUDIO 2005 進(jìn)行數(shù)據(jù)倉庫的構(gòu)建 - 24 -
3.2.6 數(shù)據(jù)倉庫的ETL過程。 - 27 -
3.3 國僑辦文宣司合作辦營管理信息系統(tǒng) - 36 -
3.3.1 需求分析及系統(tǒng)邊界劃分 - 36 -
3.3.2 確定主題域 - 36 -
3.3.3 各主題的關(guān)系模式 - 37 -
3.3.4 各主題的事實表及維表: - 37 -
3.4 國僑辦文宣司華教中心人員工資管理信息系統(tǒng) - 39 -
3.4.1.需求分析及系統(tǒng)邊界劃分 - 39 -
3.4.2.確定主題 - 39 -
3.4.3 各主題關(guān)系模式 - 40 -
3.4.4 各主題事實表及維表 - 40 -
3.5 國僑辦文宣司夏令營管理信息系統(tǒng) - 42 -
3.5.1 需求分析及系統(tǒng)邊界劃分 - 42 -
3.5.2 主題的確定 - 43 -
3.5.3 各主題關(guān)系模式 - 43 -
3.5.4 各主題事實表及維表 - 44 -
結(jié) 束 語 - 48 -
參 考 文 獻(xiàn) - 49 -


……(新文秘網(wǎng)http://120pk.cn省略1984字,正式會員可完整閱讀)…… 




第一章 數(shù)據(jù)倉庫概述
1.1 數(shù)據(jù)倉庫技術(shù)與應(yīng)用
數(shù)據(jù)倉庫是以關(guān)系數(shù)據(jù)庫、并行處理與分布式處理技術(shù),以及聯(lián)機(jī)分析處理等技術(shù)的發(fā)展為基礎(chǔ),為解決當(dāng)前企業(yè)和組織中雖然擁有大量數(shù)據(jù)但信息貧乏(難以利用)的現(xiàn)狀而提出的,是一種對不同系統(tǒng)數(shù)據(jù)實現(xiàn)集成和共享的綜合性解決方案。
從普通數(shù)據(jù)庫與數(shù)據(jù)倉庫的關(guān)系來看,人們把普通數(shù)據(jù)庫技術(shù)稱為傳統(tǒng)的數(shù)據(jù)庫技術(shù)。傳統(tǒng)的數(shù)據(jù)庫往往是以單一的數(shù)據(jù)資源(即以數(shù)據(jù)庫為中心)進(jìn)行事務(wù)處理、批處理、決策分析等各種數(shù)據(jù)處理工作。數(shù)據(jù)處理模式主要劃分為兩大類:操作型處理和分析型處理(或者信息型處理)。操作型處理也叫事務(wù)處理,是指對數(shù)據(jù)庫聯(lián)機(jī)的日常操作,它通常是對一個或一組記錄的查詢和修改,主要是為企業(yè)的特定應(yīng)用服務(wù)的,基本上滿足了響應(yīng)時間、數(shù)據(jù)的安全性和完整性的需要;分析型處理則用于管理人員的決策分析,往往是大規(guī)模、批量的計算作用,經(jīng)常要訪問大量的歷史數(shù)據(jù)、也就是說,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)能夠完成企業(yè)的日常事務(wù)處理工作,但很難達(dá)到實現(xiàn)數(shù)據(jù)分析處理的要求,也無法滿足數(shù)據(jù)處理多樣化的要求。隨著用戶需求的發(fā)展,操作性處理和分析型處理的分離就成為必然。
近年來,隨著信息化的發(fā)展和技術(shù)的進(jìn)步,信息已成為人類社會不可或缺的重要資源。社會的信息化使得信息量的急劇增長。面對數(shù)據(jù)量的急劇增長和應(yīng)對要求的不斷提升,數(shù)據(jù)庫技術(shù)的應(yīng)用和發(fā)展也有了更高的作用和價值。數(shù)據(jù)庫技術(shù)一直力圖使自己能勝任當(dāng)前的發(fā)展變化,完成從事務(wù)處理、批處理到分析處理的各種類型的信息處理任務(wù)。雖然業(yè)務(wù)擴(kuò)充了,但還是要在統(tǒng)一數(shù)據(jù)格式、統(tǒng)一數(shù)據(jù)模型下來實現(xiàn)業(yè)務(wù)操作的數(shù)據(jù)處理。對于決策分析,在業(yè)務(wù)操作層面上進(jìn)行分析判斷還存在著很大的局限性。于是,人們嘗試對來自操作型處理數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行再加工,形成一個綜合的、面向分析的環(huán)境,以更好地支持決策分析,這就形成了數(shù)據(jù)倉庫(Data Warehousing,簡稱DW)的數(shù)據(jù)倉庫系統(tǒng)包括數(shù)據(jù)倉庫技術(shù)、聯(lián)機(jī)分析處理技術(shù)(On_Line Analytical Processing,簡稱OLAP)、數(shù)據(jù)挖掘技術(shù)。[2]
數(shù)據(jù)倉庫彌補(bǔ)了原有數(shù)據(jù)庫的不足,將原來的以單一數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境發(fā)展為一種新的體系環(huán)境。它具有一種新的數(shù)據(jù)處理結(jié)構(gòu)體系,能夠?qū)⒉煌h(huán)境、不同系統(tǒng)的數(shù)據(jù)統(tǒng)一起來,以形成綜合的中央數(shù)據(jù)倉庫。
1.2 本文的主要研究內(nèi)容
第一章緒論部分提出了論文選題的背景和研究的內(nèi)容;第二章對數(shù)據(jù)倉庫系統(tǒng)基本理論進(jìn)行了研究,澄清了各相關(guān)概念之間的界限和聯(lián)系,為數(shù)據(jù)倉庫的進(jìn)一步研究提供理論上的支持; 分析了數(shù)據(jù)倉庫系統(tǒng)關(guān)鍵技術(shù)的原理。第三章基于SQL Server2005構(gòu)建數(shù)據(jù)倉庫;對國務(wù)院僑辦文宣司的相關(guān)信息管理模塊的需求做了分析,并根據(jù)需求分析對國務(wù)院僑辦文宣司的相關(guān)信息管理模塊需要的信息,建立相應(yīng)的維度、多維數(shù)據(jù)集等做了相應(yīng)的介紹。主要針對國僑辦文宣司的贈送教材信息管理系統(tǒng)做了比較系統(tǒng)的數(shù)據(jù)倉庫設(shè)計,其他的三個模塊只是做了一個簡單的模型設(shè)計。第四章結(jié)束語:對論文所做工作的總結(jié)及后續(xù)工作的展望。

















第二章 數(shù)據(jù)倉庫相關(guān)理論簡介

2.1 數(shù)據(jù)倉庫的定義和特征
2.1.1 數(shù)據(jù)倉庫的定義
數(shù)據(jù)倉庫的英文是“Data Warehouse”,“Warehouse”一詞的含義為:“貨倉、棧房”,二者合起來的含義則是“存儲數(shù)據(jù)的倉庫”,在我國一般譯為數(shù)據(jù)倉庫。目前數(shù)據(jù)倉庫的定義是不統(tǒng)一的。公認(rèn)的數(shù)據(jù)倉庫之父W.Hinmon將其定義為:“數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、隨時間而變的、持久的數(shù)據(jù)集合! [3]
本文提出的數(shù)據(jù)倉庫的定義如下:數(shù)據(jù)倉庫是將來自不同信息源的數(shù)據(jù)(操作型數(shù)據(jù))經(jīng)預(yù)處理之后,按面向主題的方式,以不同的粒度組織在一起,并進(jìn)行階段性更新,為復(fù)雜的數(shù)據(jù)分析和決策過程提供信息依據(jù)的數(shù)據(jù)集合。這個定義更全面和清晰地概括了數(shù)據(jù)倉庫的基本特征,指出了數(shù)據(jù)倉庫建立的基礎(chǔ)、作用和目的。
2.1.2 數(shù)據(jù)倉庫的主要特性[5]
2.1.2.1.組織數(shù)據(jù)的方式是面向主題的
主題是一個抽象的概念,是在較高層次上將信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。在邏輯意義上,它對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域的分析對象。一般按分析的要求(即決策者或者管理者所關(guān)心的)來進(jìn)行主題的抽取。面向主題的數(shù)據(jù)組織方式是根據(jù)分析要求將數(shù)據(jù)組織成一個完備的分析領(lǐng)域,即主題域。這樣組織的數(shù)據(jù)更有利于分析時的提取。如某個超市的銷售系統(tǒng)的業(yè)務(wù),如果按主題劃分為:顧客主題、供應(yīng)商主題、商品主題。
2.1.2.2.數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的
數(shù)據(jù)倉庫中的集成有兩方面的含義:一是指把不同來源和格式的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的形式,以便于管理。數(shù)據(jù)倉庫的數(shù)據(jù)來自于不同方面,如原有的數(shù)據(jù)庫系統(tǒng)、聯(lián)機(jī)的數(shù)據(jù)庫、數(shù)據(jù)庫以外的非結(jié)構(gòu)化的數(shù)據(jù)和信息等,這些數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫前要進(jìn)行提取、凈化、轉(zhuǎn)化、合成、裝載等預(yù)處理后才可裝入數(shù)據(jù)倉庫。這在SQL Server 2005中實際上是通過SSIS來完成的,但在數(shù)據(jù)庫設(shè)計階段也需要把數(shù)據(jù)的集成方案設(shè)計出來,而具體的操作則主要體現(xiàn)在對SSIS的操作上。二是指在數(shù)據(jù)倉庫中要將細(xì)節(jié)數(shù)據(jù)按要求合并為綜合數(shù)據(jù)以適應(yīng)快速進(jìn)行大量數(shù)據(jù)分析的需要,這一過程是具體數(shù)據(jù)向綜合數(shù)據(jù)合并的過程,也稱之為集成。
2.1.2.3 穩(wěn)定的
業(yè)務(wù)系統(tǒng)一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫中一般也存儲短期數(shù)據(jù),因此在數(shù)據(jù)庫系統(tǒng)中數(shù)據(jù)是不穩(wěn)定的,它記錄的是系統(tǒng)中每一個變化的瞬態(tài)。但對于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。沒有歷史數(shù)據(jù)的詳細(xì)分析是難以把握企業(yè)的發(fā)展趨勢的,因此,數(shù)據(jù)倉庫對數(shù)據(jù)在空間和時間的廣度上都有了更高的要求。在數(shù)據(jù)倉庫中,數(shù)據(jù)一旦被寫入就不再變化了。數(shù)據(jù)倉庫可以看成是一個虛擬的只讀數(shù)據(jù)庫系統(tǒng)。在數(shù)據(jù)集成性中已經(jīng)說明了數(shù)據(jù)倉庫在數(shù)據(jù)存儲方面是分批進(jìn)行的,定期執(zhí)行提取過程為數(shù)據(jù)倉庫增加記錄,但是這些記錄一旦加入,就不再從系統(tǒng)中刪除。正是由于數(shù)據(jù)倉庫的這個顯著特點,使得數(shù)據(jù)倉庫不需要在并發(fā)讀寫控制上投入過多的精力,因為所有的用戶只是以只讀的方式訪問數(shù)據(jù)倉庫。
2.1.2.4.數(shù)據(jù)倉庫中的數(shù)據(jù)是有粒度區(qū)別的
粒度是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個度量。粒度越大,綜合程度越高;粒度越小,細(xì)節(jié)程度越高。數(shù)據(jù)倉庫要能支持不同綜合程度的查詢,進(jìn)行大量數(shù)據(jù)分析的需要,這一過程是具體數(shù)據(jù)向綜合數(shù)據(jù)合并的過程,也稱之為集成。
2.1.2.5.數(shù)據(jù)倉庫中的數(shù)據(jù)是階段性更新的
數(shù)據(jù)倉庫中存貯的數(shù)據(jù)既有當(dāng)前數(shù)據(jù),也有歷史數(shù)據(jù),既有細(xì)節(jié)數(shù)據(jù),也有綜合數(shù)據(jù),為了滿足分析的要求,這些數(shù)據(jù)具有相對的穩(wěn)定性,一般不進(jìn)行即時的修改。但它們又都是與時間有關(guān)的,要按數(shù)據(jù)生存周期的長短(一般為5.10年)刪去舊的內(nèi)容,據(jù)實際數(shù)據(jù)庫中數(shù)據(jù)的變化增加新的內(nèi)容,綜合數(shù)據(jù)也要根據(jù)新加的內(nèi)容進(jìn)行重新組合。所以說,數(shù)據(jù)倉庫中的數(shù)據(jù)具有相對的穩(wěn)定性,是階段性更新的。
數(shù)據(jù)倉庫所具有的這些特點都是為了更好地完成分析的任務(wù),也可以說,數(shù)據(jù)倉庫建立的目的決定了它本身的特征。
2.2 數(shù)據(jù)倉庫系統(tǒng)的組成[11]
2.2.1 信息源
信息源包括存貯與決策分析有關(guān)數(shù)據(jù)或信息的數(shù)據(jù)庫和其它物理構(gòu)件,其中包含的數(shù)據(jù)可分為三類:駐留在不同平臺的操作數(shù)據(jù):操作系統(tǒng)的外部數(shù)據(jù),即相關(guān)的非結(jié)構(gòu)化數(shù)據(jù);行業(yè)外部數(shù)據(jù),指來源于社會其它方面的相關(guān)數(shù)據(jù)和信息,包括HTML文檔、網(wǎng)絡(luò)信息、行業(yè)狀況、國家政策形式變化等。這些原始的數(shù)據(jù)和信息在進(jìn)入數(shù)據(jù)倉庫之前要經(jīng)過一系列處理,才能真正成為數(shù)據(jù)倉庫的組成部分。
2.2.2 數(shù)據(jù)預(yù)處理系統(tǒng)
可見為了支持分析處理,數(shù)據(jù)倉庫涵蓋了大量的類型各異的數(shù)據(jù)和信息,為將它們統(tǒng)一管理,必須有功能強(qiáng)大的數(shù)據(jù)轉(zhuǎn)換工具,要完成的主要任務(wù)有:數(shù)據(jù)的提取(E*traction )、凈化(Cleaning )、轉(zhuǎn)化(Transformation )、合成( Integration)和裝載(Loading ) 。
2.2.3 數(shù)據(jù)倉庫分析工具
數(shù)據(jù)倉庫分析工具是整個系統(tǒng)發(fā)揮作用的關(guān)鍵,它們可分為兩類,驗證型和發(fā)現(xiàn)型工具。驗證型工具主要指OLAP工具,發(fā)現(xiàn)型工具主要指數(shù)據(jù)挖掘工具。在實際應(yīng)用中,要根據(jù)不同的需求和系統(tǒng)的整體建設(shè)來選擇不同的工具。在進(jìn)行查詢分析、數(shù)據(jù)報表及對事物進(jìn)行多方面考察時,用分析型工具。數(shù)據(jù)挖掘工具主要用于研究和發(fā)現(xiàn)潛在的事物之間的聯(lián)系。
2.2.4 查詢報表系統(tǒng)
數(shù)據(jù)倉庫系統(tǒng)中的查詢和報表系統(tǒng)是實現(xiàn)用戶和分析系統(tǒng)交流的應(yīng)用程序,當(dāng)前這種工具正向直觀化和智能化方向發(fā)展。
2.3 數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)
2.3.1.粒度
數(shù)據(jù)倉庫中的數(shù)據(jù)分為四個級別:早期細(xì)節(jié)級、當(dāng)前細(xì)節(jié)級、輕度綜合級、高度綜合級。
各業(yè)務(wù)系統(tǒng)的源數(shù)據(jù)經(jīng)過ETL處理整合后,成為當(dāng)前細(xì)節(jié)級數(shù)據(jù),當(dāng)前細(xì)
節(jié)級數(shù)據(jù)根據(jù)業(yè)務(wù)需求需要進(jìn)行進(jìn)一步的綜合,從而變成輕度綜合級乃至高度綜合級數(shù)據(jù);诖鎯臻g及訪問效率的考慮,早期的當(dāng)前細(xì)節(jié)級數(shù)據(jù)需要備份到設(shè)備上從而變成早期細(xì)節(jié)級數(shù)據(jù)。
數(shù)據(jù)的不同綜合程度對應(yīng)的是粒度這個概念。粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單元保存數(shù)據(jù)的細(xì)化或綜合級別。細(xì)化程度越高,粒度級就越;相反,細(xì)化程度越低,粒度級就越大。粒度是數(shù)據(jù)倉庫設(shè)計過程中所需要考慮的一個重要問題,它不但影響著存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答的查詢類型。而這兩個方面是相互矛盾的,存儲的數(shù)據(jù)量大,所能回答的查詢類型就多,但查詢效率比較低;存儲數(shù)據(jù)量小,所能回答的查詢類型就少,但查詢效率較高。因此在確定數(shù)據(jù)粒度是就需要在這兩者之間進(jìn)行權(quán)衡。數(shù)據(jù)倉庫的結(jié)構(gòu)如圖2.2所示:

圖2.2 數(shù)據(jù)倉庫結(jié)構(gòu)
2.3.2 元數(shù)據(jù)
整個數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)由元數(shù)據(jù)(Meta Data )來組織。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),它對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行解釋和管理。元數(shù)據(jù)好比是圖書館的卡片分類系統(tǒng),它的建立使數(shù)據(jù)的組織和查詢非常方便。元數(shù)據(jù)主要有三類:
一類是為完成數(shù)據(jù)從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的,包含所有源數(shù)據(jù)項名、數(shù)據(jù)屬性及其轉(zhuǎn)換過程的記錄。
第二類是指導(dǎo)數(shù)據(jù)由細(xì)節(jié)級 ……(未完,全文共30975字,當(dāng)前僅顯示5571字,請閱讀下面提示信息。收藏《畢業(yè)論文:基于SQL SERVER 2005及VS 2005的數(shù)據(jù)倉庫設(shè)計》
文章搜索
相關(guān)文章