大學(xué)本科畢業(yè)論文(設(shè)計)開題報告
學(xué)院:計算機(jī)科學(xué)與技術(shù)學(xué)院 專業(yè)班級:2008級計算機(jī)科學(xué)與技術(shù)1班
課題名稱 基于百度百科的中文文本分類
1、 本課題的研究目的和意義:
網(wǎng)絡(luò)上存在海量的中文文本資源,其稀疏性與不規(guī)范性令以詞組統(tǒng)計方式來進(jìn)行訓(xùn)練和分類的傳統(tǒng)分類方法效果不佳.為克服這些難題我們提出了基于百度百科的中文文本分類。
百度百科是一個豐富的與社會熱點、網(wǎng)絡(luò)流行緊密相關(guān)的動態(tài)中文知識庫,基于百度百科本文提出一種網(wǎng)絡(luò)文本分類方法,通過百科知識關(guān)系將文本從外延詞條集合映射到能體現(xiàn)其內(nèi)涵的語義主題空間中,再通過對文本語義主題的統(tǒng)計規(guī)律性來計算相似度,進(jìn)而完成文本分類. 有效地避開窮舉詞條的統(tǒng)計方式,解決現(xiàn)有文本分類算法需要大量訓(xùn)練數(shù)據(jù)和無法應(yīng)對網(wǎng)絡(luò)詞匯和新生詞匯的這兩大難題。
2、 文獻(xiàn)綜述(國內(nèi)外研究情況及其發(fā)展):
到目前為止,文本自動分類在國外大致經(jīng)歷了三個發(fā)展階段:第一階段(1958-1964)主要進(jìn)行自動分類的可行性研究。第二階段(1965-1974)進(jìn)行自動分類的試驗研究。第三階段(1975-至今)進(jìn)行實用化階段,并在郵件分類、電子會議、信息過濾等方面取得較為廣泛的應(yīng)用。
我國文本分類的研究工作始于20世紀(jì)80年代,大體經(jīng)歷了可行性探討、輔助分類系統(tǒng)、自動分類系統(tǒng)三個階段
……(新文秘網(wǎng)http://120pk.cn省略915字,正式會員可完整閱讀)……
文本分類;郭玉琴等改進(jìn)了傳統(tǒng)關(guān)聯(lián)文本方法,提出一種基于模糊分類規(guī)則樹的文本分類方法。
這些方法對表達(dá)規(guī)范的文本都能取得較好的效果。但是如前所述中文網(wǎng)絡(luò)上存在大量稀疏與不規(guī)范文本,這些文本組織靈活,表達(dá)隨意.上述的這些方法說大多是在對詞組的識別統(tǒng)計的基礎(chǔ)上來完成訓(xùn)練與分類,因而在面對表述不規(guī)范的網(wǎng)絡(luò)文本數(shù)據(jù)時,其效果就不甚理想。
3、 本課題的主要研究內(nèi)容(提綱)和成果形式:
1、 主題抽取
對于一段網(wǎng)絡(luò)文本,可以找出一段網(wǎng)絡(luò)文本所有的候選詞條ts,把所有候選詞條的開放分類全部作為這段文本的語義主題侯選項,對每一個侯選語義主題都進(jìn)行統(tǒng)計記。
我們可以把所有的候選語義主題看作是一張有向圖的頂點。對于頂點e來說Te是它的權(quán)重。頂點e1與頂點e2之間是否有通路以及頂點之間的距離,由m步主題關(guān)系決定。如果e1到e2在m步主題關(guān)系矩陣中有對應(yīng)的值q,則兩個頂點這間有通路,相關(guān)度為q。我們把這種圖稱之為文本T的主題語義圖ADTopicG(T)。
對于無向圖ADTopicG(T)來說,按圖的連通性原理,可以將其切分成若干連通區(qū)域Reg1Reg2…Regn,同一個區(qū)域的兩個頂點有通路,不同區(qū)域的頂點之間則無通路。我們認(rèn)為同一個區(qū)域內(nèi)的所有頂點在語義上有相關(guān)性,不同的區(qū)域之間語義上相關(guān)性差,或者沒有相關(guān)性。因而本文把一個連通區(qū)域作為一個整體來對文本T做語義抽取,將該區(qū)域內(nèi)頻率最高的前幾個頂點作為該區(qū)域的主題,因為這些頂點可以看成是該區(qū)域內(nèi)的語義匯聚中心點。
對于ADTopicG(T)中的任意一個連通區(qū)域,把其當(dāng)作一個整體統(tǒng)計它在整個圖中的權(quán)重,某個區(qū)域的權(quán)重越大說明它對文本的語義貢獻(xiàn)越大。
2、 分類
為進(jìn)行有效的語義主題發(fā)現(xiàn),本文按以下步驟來實現(xiàn):
首先,令E={e1,e2…en }為網(wǎng)絡(luò)文本的語義主題空間,其中,ei表示第i 個主題,即第i個開放類;
第二步,找出一段網(wǎng)絡(luò)文本所有的候選詞條ts,把所有候選詞條的開放分類全部作為這段文本的語義主題侯選項;
第三步,對于一個侯選語義主題e而言,用其在短文本T中的統(tǒng)計量來表示e成為T的語義主題可能性,記為p(e|T);
第四步,按本文分類思想的觀點,含義表達(dá)相似的網(wǎng)絡(luò)短文本,其語義主題具有相似的統(tǒng)計性。所以,本文找出同屬一類的網(wǎng)絡(luò)文本集合,再對這個集合中所有文本進(jìn)行訓(xùn)練,統(tǒng)計出這類文本的所有侯選語義主題出現(xiàn)次數(shù)。
相似度計算按統(tǒng)計主題數(shù)據(jù)采用余弦法進(jìn)行計算。
分類選。耗敲磳τ谝粋未知分類文本T,本文取與其語義相似度最大的類別作為其分類。
3、成果形式
以java應(yīng)用程序的形式,實現(xiàn)基于百度百科的文本分類。
4、擬解決的關(guān)鍵問題:
文本類別之間相關(guān)性較大時,基于百度百科的文本分類的表現(xiàn)不是太好,可以通過類別主題權(quán)重向量的正交化來改善.另外,百科詞條的質(zhì)量和網(wǎng)絡(luò)文本的簡寫方式對該方法的影響也較大,這些困難還一時難于克服。
5、研究思路、方法和步驟:
我們認(rèn)為可以利用百度百科知識關(guān)系來把一段文本從外延詞條集合映射到能體現(xiàn)其內(nèi)涵的語義主題空間中,再通過對文本語義主題的統(tǒng)計規(guī)律性來計算文本與文本、文本與類別之間的相似度,進(jìn)而完成文本分類.這可以有效地避開窮舉詞條的統(tǒng)計方式,解決傳統(tǒng)文本分類算法需要大量訓(xùn)練數(shù)據(jù)和無法應(yīng)對網(wǎng)絡(luò)詞匯和新生詞匯的難題,從而可以用來對表述不規(guī)范的網(wǎng)絡(luò)文本做分類。
因而,本文提出基于百度百科的網(wǎng)絡(luò)文本分類方法,該方法不需要大量的訓(xùn)練數(shù)據(jù),不僅對表述不規(guī)范的短文本有效,而且在表述規(guī)范的長文本上的也達(dá)到很好的分類效果.其主要過程有以下幾步:
(1)建立一個百科詞庫前綴關(guān)系;
(2)對于一段未知文本T,利用百科詞庫前綴關(guān)系,進(jìn)行快速詞條發(fā)現(xiàn),找出所有可能涉及的詞條;
(3)統(tǒng)計所有發(fā)現(xiàn)的百科詞條的開放分類,用來作為文本的侯選語義主題,并形成主題權(quán)重向量;
(4)對訓(xùn)練數(shù)據(jù)中的每一個類別,分別計算該類別的主題權(quán)重向量并正交化,以避免類別之間相互交叉
影響;
(5)按向量相似度算法計算T 與已知類別的相似度和T 的語義離散度,根據(jù)語義離散度值選取相似度最高的前N 個分類作為T 的分類。
6、本課題的進(jìn)度安排:
(1) 數(shù)據(jù)收集:
分別從網(wǎng)易上下載有關(guān):足球、音樂、電影、政治、軍事、股票、手機(jī)、汽車。各類2000篇以上
以足球數(shù)據(jù)為例:下載所有 西甲 英超 意甲 滾動新聞,將html內(nèi)容轉(zhuǎn)換成t*t,所有文件以該新聞標(biāo)題命名。并各自形成一個目錄。下載地址:西甲http://sports.163.com/special/00051F1O/more*jnews.html、英超http://sports.163.com/special/m/00051F15 ……(未完,全文共7321字,當(dāng)前僅顯示2571字,請閱讀下面提示信息。
收藏《論文開題:基于百度百科的中文文本分類》)