目錄/提綱:……
目錄一、論文研究的目的及意義3
二、國內(nèi)外研究歷史以及現(xiàn)狀4
三、研究內(nèi)容及擬采用的解決方案5
四、畢業(yè)設計進度安排7
五、參考資料7
一、對提供的數(shù)據(jù)文件進行預處理,提取出需要的文本
三、對得到的詞進行詞頻計算,然后取出前25%作為候選關鍵字
四、然后建立鄰接矩陣
六、鄰接矩陣最后建立后,再利用上述節(jié)點刪除方法確認關鍵字
……
畢業(yè)論文開題報告
關鍵字提取
專 業(yè):計算機科學與技術
班 級:計算機B班
2012年02月
目錄
一、
論文研究的目的及意義 3
二、 國內(nèi)外研究歷史以及現(xiàn)狀 4
三、 研究內(nèi)容及擬采用的解決方案 5
四、 畢業(yè)設計進度安排 7
五、 參考資料 7
一. 論文研究的目的與意義
隨著信息技術的普遍應用,人類獲得數(shù)據(jù)的能力不斷增強;據(jù)有關統(tǒng)計,在全世界的業(yè)務管理、政府管理、科學與工程管理和其他應用領域存在大量數(shù)據(jù),并且其數(shù)量和規(guī)模不斷地增加和擴大。然而,如何利用這些海量數(shù)據(jù),如何從數(shù)據(jù)中提取有用的信息,是經(jīng)營管理者面臨的一個共同難題。為解決這個難題,有關人員提出一系列技術和方法,這些技術和方法就是數(shù)據(jù)庫知識發(fā)現(xiàn),又稱為數(shù)據(jù)挖掘技術,目的就是智能化和自動化地發(fā)現(xiàn)隱藏的信息和知識,發(fā)現(xiàn)先前未知的模式,能從歷史數(shù)據(jù)中預測未來發(fā)展趨勢。它是一個交叉學科領域,受多個學科影響,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學、機器學習、可視化和信息科學。
數(shù)據(jù)挖掘的研究對象主要是針對結構化
……(新文秘網(wǎng)http://120pk.cn省略722字,正式會員可完整閱讀)……
字提取策略
該類算法將關鍵字提取視為分類問題,通過將文檔中出現(xiàn)的詞語劃分到關鍵字類或非關鍵字類,從關鍵字類中選擇若干個詞語作為關鍵字。該類算法由Peter.D.Turney首次提出,采用C4.5決策樹作為分類器,稍后IanH.Witten等人采用Naïve Bayes作為分類器。該類算法都是基于已有關鍵字的訓練集,選取適當?shù)膶傩员硎鑫臋n中的詞語,由分類算法構造分類模型,在利用分類模型提取關鍵字,該類算法提取效果取決于所選訓練集、分類算法和描述屬性。
2. 不需要訓練集的關鍵字提取策略
2.1基于統(tǒng)計的算法
該類算法,如頻率統(tǒng)計(TF,term frequency),統(tǒng)計文檔中每個詞語出現(xiàn)的頻率(停用詞除外),選取頻率超過一定閾值的詞語為關鍵字。該類算法簡單快速,能夠提取高頻詞語,卻易忽略對文檔具有重要意義但出現(xiàn)頻率不高的詞語,因此提議結果具有片面性。
2.2基于詞共現(xiàn)圖的算法
該類算法,如KeyGraph,建立在詞頻統(tǒng)計基礎上,將詞語及其語義關系映射到詞共現(xiàn)圖,n個頂點的詞共現(xiàn)圖只能包含n-1條邊。利用該圖計算每個頂點的Key值;Key值的大小代表頂點的重要性,選取若干個重要頂點,即為該文檔的關鍵字,該類算法旨在找出出現(xiàn)頻率不高但對中心內(nèi)容貢獻大的詞語,但算法需要設定的參數(shù)過多,如頂點數(shù)、邊數(shù)等,因而常造成邊界上的取舍問題,影響算法的確定性和精度。
2.3基于SWN(small world network)的算法
該類算法,如Keyworld,建立在詞頻統(tǒng)計基礎上,將詞語及其語義關系映射到文檔結構圖(若邊代表文檔中詞語之間的共現(xiàn)關系,則可稱為文檔共現(xiàn)圖),又稱為詞語網(wǎng)絡,通過研究發(fā)現(xiàn)該結構圖具有小世界特征,該類算法認為文檔關鍵字是對該文檔結構圖的小世界特征起關鍵作用的詞語,小世界特征的標準時網(wǎng)絡平均路徑長度。
2.4基于詞語網(wǎng)絡的算法
這類算法,如基于BC指標的詞語網(wǎng)絡關鍵字提取算法,建立在詞頻統(tǒng)計基礎上,將詞語映射為頂點,將其語義關系映射為邊,包含n個頂點的無向詞語網(wǎng)絡,其邊數(shù)的取值范圍為[0,n(n+1)/2].利用節(jié)點重要性的度量指標量化節(jié)點重要程度,如中介性指標(BC,betweeness centrality),提取若干個重要的頂點,即為文檔關鍵字。
三. 研究內(nèi)容及擬采用的解決方案
隨著復雜網(wǎng)絡的不斷發(fā)展,規(guī)模越來越大,如何從網(wǎng)絡中選出能反映網(wǎng)絡主要特征的頂點,如何確保網(wǎng)絡a全,如何識別這些重大安全隱患的頂點,成為社會網(wǎng)絡分析領域和系統(tǒng)科學研究領域的一個熱點問題。
為此提出許多度量網(wǎng)絡的頂點重要性的方法,這些方法可歸納為兩類:第一類,網(wǎng)絡分析方法,該類方法利用某種指標度量頂點的重要程度,已經(jīng)提出的度量指標有核心性和聲望,其中以研究網(wǎng)絡頂點的核心度為主;另一類,節(jié)點刪除的研究方法,將頂點的重要性等價為該頂點被刪除后對網(wǎng)絡的破壞程度,實際上考慮的是定點刪除前后圖連通狀況的改變。
我主要采取的是節(jié)點刪除研究方法,下面主要介紹節(jié)點刪除指標:
該方法在已有節(jié)點刪除方法的基礎上,為更好的度量出不同頂點在網(wǎng)絡結構和位置上的差異,加入對連通分支大小和形狀的考慮?紤]網(wǎng)絡中頂點被刪除后網(wǎng)絡的整體連通狀況必然造成兩方面的破壞:一方面,被刪除頂點不能再與剩余頂點相連通;另一方面,剩余的部分之間因被節(jié)點刪除而喪失連通性;前者被稱為直接損失,后者稱為間接損失,直接損失和間接損失之和稱為總損失,總損失表示頂點刪除后對整個網(wǎng)絡連通狀況的破壞程度。為考慮連通分支的大小和形狀,用頂點刪除后所有不連通頂點對距離(最短路徑)的倒數(shù)和量化該指標,這種做法的隱含假設是:破壞近距離的、相對直接的聯(lián)系導致的破壞性大于破壞遠距離的,相對間接的聯(lián)系所造成的破壞 ……(未完,全文共4016字,當前僅顯示2029字,請閱讀下面提示信息。
收藏《學位論文開題報告:關鍵字提取》)