您的位置：新文秘網(wǎng)>>畢業(yè)論文/文教論文/科技/文化/宣傳講話(huà)/>>正文

論文：數(shù)據(jù)挖掘技術(shù)在圖書(shū)館工作中的應(yīng)用

發(fā)表時(shí)間:2014/2/11 21:28:28

論文：數(shù)據(jù)挖掘技術(shù)在圖書(shū)館工作中的應(yīng)用

摘要：
　　數(shù)據(jù)挖掘是一門(mén)新興的數(shù)據(jù)分析技術(shù)。本文介紹數(shù)據(jù)挖掘在數(shù)字圖書(shū)館實(shí)現(xiàn)的流程和方法，并對(duì)其在圖書(shū)館應(yīng)用作出科學(xué)分析。使現(xiàn)代圖書(shū)館服務(wù)領(lǐng)域得以擴(kuò)寬，從傳統(tǒng)查詢(xún)服務(wù)擴(kuò)展到基于WEB信息空間或自動(dòng)化管理系統(tǒng)的知識(shí)服務(wù)。
關(guān)鍵詞：數(shù)據(jù)挖掘數(shù)字圖書(shū)館
Key word: Data mining Digital Library
　　　
引言
　　隨著IT技術(shù)的的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用，人們積累的數(shù)據(jù)越來(lái)越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息，人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析，以便更好地利用這些數(shù)據(jù)。作為信息集中的載體，圖書(shū)館在數(shù)字化進(jìn)程中也面臨著同樣的問(wèn)題。怎樣幫助讀者從茫茫的信息海洋中獲取有用的知識(shí)？數(shù)字圖書(shū)館白皮書(shū)指出: 數(shù)字圖書(shū)館系統(tǒng)的建設(shè)必須使用高新技術(shù)做支持。[1] 目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢(xún)、統(tǒng)計(jì)等
……（新文秘網(wǎng)http://120pk.cn省略659字，正式會(huì)員可完整閱讀）……　
，檢查數(shù)據(jù)的完整性及數(shù)據(jù)
的一致性，消除噪聲或不一致數(shù)據(jù)。
（4）數(shù)據(jù)挖掘算法：使用智能方法提供挖掘的知識(shí)。這些知識(shí)可以用一種特定的方式
表示或使用一些常用的表示方式。
　�。�5）知識(shí)評(píng)估：根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過(guò)程中的某些處理階段進(jìn)行優(yōu)化，直到滿(mǎn)足要求。
　�。�6）知識(shí)發(fā)現(xiàn)：使用可視化和知識(shí)表示技術(shù)，向用戶(hù)提供挖掘的知識(shí)。
2．?dāng)?shù)據(jù)挖掘主要的功能：
　　目前數(shù)據(jù)挖掘技術(shù)很多，從功能上主要有關(guān)聯(lián)分析、序列模式分析、分類(lèi)分析、聚類(lèi)模式分析等方法[4]。
基于關(guān)聯(lián)的分析：關(guān)聯(lián)是指兩個(gè)或者多個(gè)變量的取值之間存在某種規(guī)律性,例如一個(gè)
模式的出現(xiàn)意味著另一個(gè)模式的出現(xiàn)。它是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的可被發(fā)現(xiàn)的知識(shí)，目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系，包括簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)等。通常關(guān)聯(lián)規(guī)則需要找出的是支持度和置信度分別大于或等于用戶(hù)指定的最小支持度和置信度。在圖書(shū)館應(yīng)用中可用來(lái)分析讀者的興趣。
　　關(guān)聯(lián)分析包含兩種客觀度量。一種客觀度量是規(guī)則的支持度S%(support),即滿(mǎn)足規(guī)則的樣本百分比，表示同時(shí)包含*和Y的事務(wù)概率。另一種客觀度量是置信度C%（confidence），表示既包含*的事務(wù)也包含Y的概率。用公式表示為：Support(*Y)=P(*Y)，Confidence(*Y)=P(*/Y) 。
　　2）基于序列的分析。重點(diǎn)在于分析數(shù)據(jù)間的前后或因果關(guān)系。如時(shí)間序列模式是根據(jù)數(shù)據(jù)隨時(shí)間的變化趨勢(shì)預(yù)測(cè)將來(lái)的值，要考慮到時(shí)間的特殊性質(zhì)，比如一些周期性的時(shí)間定義，不同的日期，如節(jié)假日可能造成的影響，時(shí)間前后的相關(guān)性（過(guò)去事情對(duì)將來(lái)的影響力等）。在圖書(shū)館中可以用來(lái)預(yù)測(cè)讀者下一階段最可能借的書(shū)。以同一讀者為標(biāo)準(zhǔn)，在兩個(gè)Item間保持時(shí)間順序關(guān)系，則可以得出一個(gè)簡(jiǎn)單的序列規(guī)則。表示讀者在借了A書(shū)后，接下來(lái)必定也會(huì)借B書(shū)，其支持度為*%，置信度為y%。分析結(jié)果可指導(dǎo)管理人員排架工作，方便讀者查找。
　　3）分類(lèi)分析。分類(lèi)是數(shù)據(jù)挖掘的一種非常重要的方法，是按照分析對(duì)象的屬性、特征，建立不同的組類(lèi)來(lái)描述事物。分類(lèi)分析的輸入集是一組記錄集合和幾種標(biāo)記，標(biāo)記是指一組具有不同特征的類(lèi)別。首先為每一個(gè)記錄賦予一個(gè)標(biāo)記，然后檢查這些標(biāo)定的記錄，描述出這些記錄的特征。例如對(duì)讀者行為進(jìn)行分析，提取讀者一段時(shí)間內(nèi)的借閱量，按借書(shū)頻率來(lái)劃分讀者的級(jí)別，將讀者分為：一般、初級(jí)、中級(jí)、高級(jí)四類(lèi)。用分類(lèi)分析方法檢查這些記錄，然后給出讀者級(jí)別描述：“高級(jí)讀者是指那些年借閱量在*冊(cè)以上，年齡在y歲之間�！蓖ㄟ^(guò)分析結(jié)果了解讀者借閱習(xí)慣, 確定書(shū)目的復(fù)本數(shù)量，使館藏資源得到充分利用。
　　4）聚類(lèi)分析。數(shù)據(jù)庫(kù)中的記錄可被劃分為一系列有意義的子集，這個(gè)過(guò)程被稱(chēng)為聚類(lèi)。它與分類(lèi)和預(yù)測(cè)不同，聚類(lèi)分析只是分析數(shù)據(jù)對(duì)象，而不考慮已知的類(lèi)標(biāo)記。聚類(lèi)前并不知道將要?jiǎng)澐值慕M的數(shù)量和類(lèi)型，也不知道根據(jù)哪一個(gè)數(shù)據(jù)項(xiàng)來(lái)定義組。把數(shù)據(jù)劃分到不同的組中，組之間的差別盡可能大，組內(nèi)的差別盡可能小。將觀察到的內(nèi)容組織成類(lèi)分層結(jié)構(gòu)，把類(lèi)似的事件組織在一起。由此可以導(dǎo)出規(guī)則。它與分類(lèi)分析法是互逆的過(guò)程。對(duì)于類(lèi)型、數(shù)值及文本數(shù)據(jù)都可以處理。在圖書(shū)館應(yīng)用中可以對(duì)讀者數(shù)據(jù)進(jìn)行聚類(lèi)，方便分類(lèi)編制，以識(shí)別讀者的同類(lèi)子群。
　　一般要使得到的分析結(jié)果更科學(xué)更真實(shí)，可綜合使用幾種挖掘技術(shù)。
　　　3.數(shù)據(jù)挖掘在圖書(shū)館中的應(yīng)用。
目前，數(shù)據(jù)挖掘技術(shù)廣泛在銀行、電信、保險(xiǎn)、交通、 ……（未完，全文共5274字，當(dāng)前僅顯示1852字，請(qǐng)閱讀下面提示信息。收藏《論文：數(shù)據(jù)挖掘技術(shù)在圖書(shū)館工作中的應(yīng)用》）

復(fù)制以上全部?jī)?nèi)容　下載word文檔(.doc)并保存在桌面

上一篇：論文：圖書(shū)館的核心能力及其基礎(chǔ)
下一篇：從圖書(shū)館的基礎(chǔ)工作看ILAS

文章搜索

相關(guān)文章

<ruby id="xi0yu"><address id="xi0yu"></address></ruby>

<delect id="xi0yu"><s id="xi0yu"></s></delect>

<span id="xi0yu"><pre id="xi0yu"><kbd id="xi0yu"></kbd></pre></span>

<delect id="xi0yu"></delect>

<menu id="xi0yu"></menu>