論文:數(shù)據(jù)挖掘技術(shù)在圖書(shū)館工作中的應(yīng)用
摘要:
數(shù)據(jù)挖掘是一門(mén)新興的數(shù)據(jù)分析技術(shù)。本文介紹數(shù)據(jù)挖掘在數(shù)字圖書(shū)館實(shí)現(xiàn)的流程和方法,并對(duì)其在圖書(shū)館應(yīng)用作出科學(xué)分析。使現(xiàn)代圖書(shū)館服務(wù)領(lǐng)域得以擴(kuò)寬,從傳統(tǒng)查詢(xún)服務(wù)擴(kuò)展到基于WEB信息空間或自動(dòng)化管理系統(tǒng)的知識(shí)服務(wù)。
關(guān)鍵詞:數(shù)據(jù)挖掘 數(shù)字圖書(shū)館
Key word: Data mining Digital Library
引言
隨著IT技術(shù)的的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來(lái)越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。作為信息集中的載體,圖書(shū)館在數(shù)字化進(jìn)程中也面臨著同樣的問(wèn)題。怎樣幫助讀者從茫茫的信息海洋中獲取有用的知識(shí)?數(shù)字圖書(shū)館白皮書(shū)指出: 數(shù)字圖書(shū)館系統(tǒng)的建設(shè)必須使用高新技術(shù)做支持。[1] 目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢(xún)、統(tǒng)計(jì)等
……(新文秘網(wǎng)http://120pk.cn省略659字,正式會(huì)員可完整閱讀)……
,檢查數(shù)據(jù)的完整性及數(shù)據(jù)
的一致性,消除噪聲或不一致數(shù)據(jù)。
(4)數(shù)據(jù)挖掘算法:使用智能方法提供挖掘的知識(shí)。這些知識(shí)可以用一種特定的方式
表示或使用一些常用的表示方式。
。5)知識(shí)評(píng)估:根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過(guò)程中的某些處理階段進(jìn)行優(yōu)化,直到滿(mǎn)足要求。
。6)知識(shí)發(fā)現(xiàn):使用可視化和知識(shí)表示技術(shù),向用戶(hù)提供挖掘的知識(shí)。
2.?dāng)?shù)據(jù)挖掘主要的功能:
目前數(shù)據(jù)挖掘技術(shù)很多,從功能上主要有關(guān)聯(lián)分析、序列模式分析、分類(lèi)分析、聚類(lèi)模式分析等方法[4]。
基于關(guān)聯(lián)的分析:關(guān)聯(lián)是指兩個(gè)或者多個(gè)變量的取值之間存在某種規(guī)律性,例如一個(gè)
模式的出現(xiàn)意味著另一個(gè)模式的出現(xiàn)。它是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的可被發(fā)現(xiàn)的知識(shí),目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,包括簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)等。通常關(guān)聯(lián)規(guī)則需要找出的是支持度和置信度分別大于或等于用戶(hù)指定的最小支持度和置信度。在圖書(shū)館應(yīng)用中可用來(lái)分析讀者的興趣。
關(guān)聯(lián)分析包含兩種客觀度量。一種客觀度量是規(guī)則的支持度S%(support),即滿(mǎn)足規(guī)則的樣本百分比,表示同時(shí)包含*和Y的事務(wù)概率。另一種客觀度量是置信度C%(confidence),表示既包含*的事務(wù)也包含Y的概率。用公式表示為:Support(*Y)=P(*Y),Confidence(*Y)=P(*/Y) 。
2)基于序列的分析。重點(diǎn)在于分析數(shù)據(jù)間的前后或因果關(guān)系。如時(shí)間序列模式是根據(jù)數(shù)據(jù)隨時(shí)間的變化趨勢(shì)預(yù)測(cè)將來(lái)的值,要考慮到時(shí)間的特殊性質(zhì),比如一些周期性的時(shí)間定義,不同的日期,如節(jié)假日可能造成的影響,時(shí)間前后的相關(guān)性(過(guò)去事情對(duì)將來(lái)的影響力等)。在圖書(shū)館中可以用來(lái)預(yù)測(cè)讀者下一階段最可能借的書(shū)。以同一讀者為標(biāo)準(zhǔn),在兩個(gè)Item間保持時(shí)間順序關(guān)系,則可以得出一個(gè)簡(jiǎn)單的序列規(guī)則。表示讀者在借了A書(shū)后,接下來(lái)必定也會(huì)借B書(shū),其支持度為*%,置信度為y%。分析結(jié)果可指導(dǎo)管理人員排架工作,方便讀者查找。
3)分類(lèi)分析。分類(lèi)是數(shù)據(jù)挖掘的一種非常重要的方法,是按照分析對(duì)象的屬性、特征,建立不同的組類(lèi)來(lái)描述事物。分類(lèi)分析的輸入集是一組記錄集合和幾種標(biāo)記,標(biāo)記是指一組具有不同特征的類(lèi)別。首先為每一個(gè)記錄賦予一個(gè)標(biāo)記,然后檢查這些標(biāo)定的記錄,描述出這些記錄的特征。例如對(duì)讀者行為進(jìn)行分析,提取讀者一段時(shí)間內(nèi)的借閱量,按借書(shū)頻率來(lái)劃分讀者的級(jí)別,將讀者分為:一般、初級(jí)、中級(jí)、高級(jí)四類(lèi)。用分類(lèi)分析方法檢查這些記錄,然后給出讀者級(jí)別描述:“高級(jí)讀者是指那些年借閱量在*冊(cè)以上,年齡在y歲之間!蓖ㄟ^(guò)分析結(jié)果了解讀者借閱習(xí)慣, 確定書(shū)目的復(fù)本數(shù)量,使館藏資源得到充分利用。
4)聚類(lèi)分析。數(shù)據(jù)庫(kù)中的記錄可被劃分為一系列有意義的子集,這個(gè)過(guò)程被稱(chēng)為聚類(lèi)。它與分類(lèi)和預(yù)測(cè)不同,聚類(lèi)分析只是分析數(shù)據(jù)對(duì)象,而不考慮已知的類(lèi)標(biāo)記。聚類(lèi)前并不知道將要?jiǎng)澐值慕M的數(shù)量和類(lèi)型,也不知道根據(jù)哪一個(gè)數(shù)據(jù)項(xiàng)來(lái)定義組。把數(shù)據(jù)劃分到不同的組中,組之間的差別盡可能大,組內(nèi)的差別盡可能小。將觀察到的內(nèi)容組織成類(lèi)分層結(jié)構(gòu),把類(lèi)似的事件組織在一起。由此可以導(dǎo)出規(guī)則。它與分類(lèi)分析法是互逆的過(guò)程。對(duì)于類(lèi)型、數(shù)值及文本數(shù)據(jù)都可以處理。在圖書(shū)館應(yīng)用中可以對(duì)讀者數(shù)據(jù)進(jìn)行聚類(lèi),方便分類(lèi)編制,以識(shí)別讀者的同類(lèi)子群。
一般要使得到的分析結(jié)果更科學(xué)更真實(shí),可綜合使用幾種挖掘技術(shù)。
3.數(shù)據(jù)挖掘在圖書(shū)館中的應(yīng)用。
目前,數(shù)據(jù)挖掘技術(shù)廣泛在
銀行、電信、保險(xiǎn)、交通、 ……(未完,全文共5274字,當(dāng)前僅顯示1852字,請(qǐng)閱讀下面提示信息。
收藏《論文:數(shù)據(jù)挖掘技術(shù)在圖書(shū)館工作中的應(yīng)用》)