<center id="zduwm"><rt id="zduwm"></rt></center>

閸愭瑤缍旈幐鍥ь嚤 | 妫ｆ牠銆夐惂濠氭 | 娴兼艾鎲冲▔銊ュ斀 | 濞嗐垼绻嬮幎鏇犌� | 閺堫剛鐝敮顔煎И | 缁旀瑥鍞撮幖婊呭偍 | 娣囨繂鐡ㄥ宀勬桨 | 濞村繗顫嶇搾瀹犳姉 | 娴兼艾鎲虫晶鐐测偓锟�

您的位置：新文秘網(wǎng)>>畢業(yè)論文/文教論文/>>正文

論文開題：基于百度百科的中文文本分類

發(fā)表時(shí)間:2013/9/3 17:07:07

大學(xué)本科畢業(yè)論文(設(shè)計(jì))開題報(bào)告
學(xué)院：計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院　　專業(yè)班級(jí)：2008級(jí)計(jì)算機(jī)科學(xué)與技術(shù)1班　

課題名稱基于百度百科的中文文本分類

1、本課題的研究目的和意義：

網(wǎng)絡(luò)上存在海量的中文文本資源,其稀疏性與不規(guī)范性令以詞組統(tǒng)計(jì)方式來進(jìn)行訓(xùn)練和分類的傳統(tǒng)分類方法效果不佳.為克服這些難題我們提出了基于百度百科的中文文本分類。
百度百科是一個(gè)豐富的與社會(huì)熱點(diǎn)、網(wǎng)絡(luò)流行緊密相關(guān)的動(dòng)態(tài)中文知識(shí)庫,基于百度百科本文提出一種網(wǎng)絡(luò)文本分類方法,通過百科知識(shí)關(guān)系將文本從外延詞條集合映射到能體現(xiàn)其內(nèi)涵的語義主題空間中,再通過對(duì)文本語義主題的統(tǒng)計(jì)規(guī)律性來計(jì)算相似度,進(jìn)而完成文本分類. 有效地避開窮舉詞條的統(tǒng)計(jì)方式,解決現(xiàn)有文本分類算法需要大量訓(xùn)練數(shù)據(jù)和無法應(yīng)對(duì)網(wǎng)絡(luò)詞匯和新生詞匯的這兩大難題。

2、文獻(xiàn)綜述（國內(nèi)外研究情況及其發(fā)展）：

到目前為止，文本自動(dòng)分類在國外大致經(jīng)歷了三個(gè)發(fā)展階段：第一階段（1958-1964）主要進(jìn)行自動(dòng)分類的可行性研究。第二階段（1965-1974）進(jìn)行自動(dòng)分類的試驗(yàn)研究。第三階段（1975-至今）進(jìn)行實(shí)用化階段，并在郵件分類、電子會(huì)議、信息過濾等方面取得較為廣泛的應(yīng)用。

我國文本分類的研究工作始于20世紀(jì)80年代，大體經(jīng)歷了可行性探討、輔助分類系統(tǒng)、自動(dòng)分類系統(tǒng)三個(gè)階段
……（新文秘網(wǎng)http://120pk.cn省略915字，正式會(huì)員可完整閱讀）……　
文本分類;郭玉琴等改進(jìn)了傳統(tǒng)關(guān)聯(lián)文本方法,提出一種基于模糊分類規(guī)則樹的文本分類方法。

這些方法對(duì)表達(dá)規(guī)范的文本都能取得較好的效果。但是如前所述中文網(wǎng)絡(luò)上存在大量稀疏與不規(guī)范文本,這些文本組織靈活,表達(dá)隨意.上述的這些方法說大多是在對(duì)詞組的識(shí)別統(tǒng)計(jì)的基礎(chǔ)上來完成訓(xùn)練與分類,因而在面對(duì)表述不規(guī)范的網(wǎng)絡(luò)文本數(shù)據(jù)時(shí),其效果就不甚理想。

3、本課題的主要研究?jī)?nèi)容（提綱）和成果形式：

1、主題抽取
對(duì)于一段網(wǎng)絡(luò)文本，可以找出一段網(wǎng)絡(luò)文本所有的候選詞條ts,把所有候選詞條的開放分類全部作為這段文本的語義主題侯選項(xiàng)，對(duì)每一個(gè)侯選語義主題都進(jìn)行統(tǒng)計(jì)記。
我們可以把所有的候選語義主題看作是一張有向圖的頂點(diǎn)。對(duì)于頂點(diǎn)e來說Te是它的權(quán)重。頂點(diǎn)e1與頂點(diǎn)e2之間是否有通路以及頂點(diǎn)之間的距離，由m步主題關(guān)系決定。如果e1到e2在m步主題關(guān)系矩陣中有對(duì)應(yīng)的值q，則兩個(gè)頂點(diǎn)這間有通路，相關(guān)度為q。我們把這種圖稱之為文本T的主題語義圖ADTopicG(T)。
對(duì)于無向圖ADTopicG(T)來說，按圖的連通性原理，可以將其切分成若干連通區(qū)域Reg1Reg2…Regn,同一個(gè)區(qū)域的兩個(gè)頂點(diǎn)有通路，不同區(qū)域的頂點(diǎn)之間則無通路。我們認(rèn)為同一個(gè)區(qū)域內(nèi)的所有頂點(diǎn)在語義上有相關(guān)性，不同的區(qū)域之間語義上相關(guān)性差，或者沒有相關(guān)性。因而本文把一個(gè)連通區(qū)域作為一個(gè)整體來對(duì)文本T做語義抽取，將該區(qū)域內(nèi)頻率最高的前幾個(gè)頂點(diǎn)作為該區(qū)域的主題，因?yàn)檫@些頂點(diǎn)可以看成是該區(qū)域內(nèi)的語義匯聚中心點(diǎn)。
對(duì)于ADTopicG(T)中的任意一個(gè)連通區(qū)域，把其當(dāng)作一個(gè)整體統(tǒng)計(jì)它在整個(gè)圖中的權(quán)重，某個(gè)區(qū)域的權(quán)重越大說明它對(duì)文本的語義貢獻(xiàn)越大。

2、分類
為進(jìn)行有效的語義主題發(fā)現(xiàn)，本文按以下步驟來實(shí)現(xiàn)：
首先,令E={e1,e2…en }為網(wǎng)絡(luò)文本的語義主題空間,其中，ei表示第i 個(gè)主題，即第i個(gè)開放類；
第二步，找出一段網(wǎng)絡(luò)文本所有的候選詞條ts,把所有候選詞條的開放分類全部作為這段文本的語義主題侯選項(xiàng)；
第三步，對(duì)于一個(gè)侯選語義主題e而言，用其在短文本T中的統(tǒng)計(jì)量來表示e成為T的語義主題可能性，記為p(e|T）；
第四步，按本文分類思想的觀點(diǎn)，含義表達(dá)相似的網(wǎng)絡(luò)短文本，其語義主題具有相似的統(tǒng)計(jì)性。所以，本文找出同屬一類的網(wǎng)絡(luò)文本集合，再對(duì)這個(gè)集合中所有文本進(jìn)行訓(xùn)練，統(tǒng)計(jì)出這類文本的所有侯選語義主題出現(xiàn)次數(shù)。
相似度計(jì)算按統(tǒng)計(jì)主題數(shù)據(jù)采用余弦法進(jìn)行計(jì)算。
分類選�。耗敲磳�(duì)于一個(gè)未知分類文本T,本文取與其語義相似度最大的類別作為其分類。

3、成果形式
以java應(yīng)用程序的形式，實(shí)現(xiàn)基于百度百科的文本分類。

4、擬解決的關(guān)鍵問題：

文本類別之間相關(guān)性較大時(shí),基于百度百科的文本分類的表現(xiàn)不是太好,可以通過類別主題權(quán)重向量的正交化來改善.另外,百科詞條的質(zhì)量和網(wǎng)絡(luò)文本的簡(jiǎn)寫方式對(duì)該方法的影響也較大,這些困難還一時(shí)難于克服。

5、研究思路、方法和步驟：

我們認(rèn)為可以利用百度百科知識(shí)關(guān)系來把一段文本從外延詞條集合映射到能體現(xiàn)其內(nèi)涵的語義主題空間中,再通過對(duì)文本語義主題的統(tǒng)計(jì)規(guī)律性來計(jì)算文本與文本、文本與類別之間的相似度,進(jìn)而完成文本分類.這可以有效地避開窮舉詞條的統(tǒng)計(jì)方式,解決傳統(tǒng)文本分類算法需要大量訓(xùn)練數(shù)據(jù)和無法應(yīng)對(duì)網(wǎng)絡(luò)詞匯和新生詞匯的難題,從而可以用來對(duì)表述不規(guī)范的網(wǎng)絡(luò)文本做分類。
因而,本文提出基于百度百科的網(wǎng)絡(luò)文本分類方法,該方法不需要大量的訓(xùn)練數(shù)據(jù),不僅對(duì)表述不規(guī)范的短文本有效,而且在表述規(guī)范的長(zhǎng)文本上的也達(dá)到很好的分類效果.其主要過程有以下幾步：
(1)建立一個(gè)百科詞庫前綴關(guān)系；
(2)對(duì)于一段未知文本T,利用百科詞庫前綴關(guān)系,進(jìn)行快速詞條發(fā)現(xiàn),找出所有可能涉及的詞條;
(3)統(tǒng)計(jì)所有發(fā)現(xiàn)的百科詞條的開放分類,用來作為文本的侯選語義主題,并形成主題權(quán)重向量；
(4)對(duì)訓(xùn)練數(shù)據(jù)中的每一個(gè)類別,分別計(jì)算該類別的主題權(quán)重向量并正交化,以避免類別之間相互交叉
影響;
(5)按向量相似度算法計(jì)算T 與已知類別的相似度和T 的語義離散度,根據(jù)語義離散度值選取相似度最高的前N 個(gè)分類作為T 的分類。

6、本課題的進(jìn)度安排：

(1) 數(shù)據(jù)收集：
分別從網(wǎng)易上下載有關(guān):足球、音樂、電影、政治、軍事、股票、手機(jī)、汽車。各類2000篇以上
以足球數(shù)據(jù)為例：下載所有西甲英超意甲滾動(dòng)新聞，將html內(nèi)容轉(zhuǎn)換成t*t，所有文件以該新聞標(biāo)題命名。并各自形成一個(gè)目錄。下載地址：西甲http://sports.163.com/special/00051F1O/more*jnews.html、英超http://sports.163.com/special/m/00051F15 ……（未完，全文共7321字，當(dāng)前僅顯示2571字，請(qǐng)閱讀下面提示信息。收藏《論文開題：基于百度百科的中文文本分類》）

復(fù)制以上全部?jī)?nèi)容　下載word文檔(.doc)并保存在桌面

上一篇：論文開題：基于游客感知的城市夜間旅游環(huán)境實(shí)證研究——以泉州市為例
下一篇：論文開題：《古詩十九首》體現(xiàn)出的及時(shí)行樂觀

文章搜索

相關(guān)文章

娴ｆ捁顥嗘稉鎾寸埉

鐞涘奔绗熸稉鎾寸埉

閼哄倹妫╂稉鎾寸埉

閺冭埖鏂傛稉鎾寸埉

鐠佸彞璐熸＃鏍€� | 閸旂姴鍙嗛弨鎯版 | 妫ｆ牠銆夐惂濠氭 | 娴兼艾鎲冲▔銊ュ斀 | 閹舵洜枪閹绘劗骞囩挧姘舵尪 | 閸愭瑤缍旈幐鍥ь嚤 | 閺堫剛鐝敮顔煎И | 缁旀瑥鍞撮幖婊呭偍 | 娴犳ɑ顑欓弬瑙勭《 | 閸忓秷鍨傞崝鐘插弳娴兼艾鎲�

<tr id="rsiv2"></tr>

<delect id="rsiv2"><tfoot id="rsiv2"></tfoot></delect>

<tbody id="rsiv2"><input id="rsiv2"><li id="rsiv2"></li></input></tbody>

<tbody id="rsiv2"></tbody>

<pre id="rsiv2"></pre>