目錄/提綱:……
一、項目工作背景
二、如何設(shè)計數(shù)據(jù)庫存儲用戶的行為,存儲什么樣的行為
1、首先是到數(shù)據(jù)庫里面索引相關(guān)的信息,這就是查詢處理
二、系統(tǒng)開發(fā)平臺要求和設(shè)置、項目開發(fā)進(jìn)度計劃
三、系統(tǒng)概要設(shè)計
四、各模塊需要解決關(guān)鍵問題及系統(tǒng)測試
1、用戶表:保存用戶相關(guān)數(shù)據(jù)
2、分類表:保存用戶分類信息
3、用戶分詞詞表:保存用戶關(guān)鍵字
4、公共分詞詞表:保存公共關(guān)鍵字
5、分詞關(guān)系表:保存各分詞之間的關(guān)系值
6、熱點推薦表:保存系統(tǒng)產(chǎn)生的推薦熱點信息
2、性能測試測試大規(guī)模數(shù)據(jù)系統(tǒng)的數(shù)據(jù)庫運行的效率
五、主要參考文獻(xiàn)
……
基于領(lǐng)域知識的數(shù)據(jù)庫存儲設(shè)計與實現(xiàn)
08信息與計算科學(xué)
一、 項目工作背景
互聯(lián)網(wǎng)數(shù)據(jù)量的增長一直保持著近乎幾何級數(shù)的增長,我們無法試圖提供給用戶一個包含互聯(lián)網(wǎng)全部數(shù)據(jù)的搜索引擎,而且搜索引擎的數(shù)據(jù)查全率越來越低。單一的搜索引擎無法提供一個完美的解決方案。并且,人們試圖在巨大的數(shù)據(jù)中挖掘自己感興趣的內(nèi)容,而傳統(tǒng)的逛大街的方式很浪費人們的時間。我們試圖利用現(xiàn)有的搜索引擎檢索用戶可能感興趣的內(nèi)容,并且在用戶使用時推送給用戶。這就是我們嘗試做的基于知識領(lǐng)域的數(shù)據(jù)挖掘。
基于知識領(lǐng)域的數(shù)據(jù)挖掘并不是獨立的搜索引擎,而是利用現(xiàn)有的搜索引擎技術(shù)獲取用戶感興趣的內(nèi)容,構(gòu)建一個能夠包含互聯(lián)網(wǎng)全部網(wǎng)頁數(shù)據(jù)的數(shù)據(jù)庫是不現(xiàn)實且不實用的方式,這樣我們可以避免構(gòu)建一個龐大的互聯(lián)網(wǎng)頁面數(shù)據(jù)的數(shù)據(jù)庫。
領(lǐng)域知識的數(shù)據(jù)庫存儲設(shè)計與實現(xiàn)涉及的主要問題是:
一、為知識領(lǐng)域數(shù)據(jù)庫的初始化專家數(shù)據(jù),因為一個精確的初始化的知
……(新文秘網(wǎng)http://120pk.cn省略648字,正式會員可完整閱讀)……
2、Informi*、SQL Server這些大型的數(shù)據(jù)庫管理系統(tǒng),還是像Visual Fo*pro、PowerBuilder這些PC上常用的數(shù)據(jù)庫開發(fā)系統(tǒng),都支持SQL語言作為查詢語言。
分詞技術(shù):盡管這個項目并不做獨立的搜索引擎,只需要調(diào)用各個搜索引擎就可以了,但是因為需要對用戶的行為和偏好詞進(jìn)行分類,我們?nèi)匀恍枰獙ξ谋酒逻M(jìn)行分詞處理。分詞技術(shù)就是搜索引擎針對用戶提交查詢的關(guān)鍵串進(jìn)行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進(jìn)行的一種技術(shù)。我們要理解分詞技術(shù)先要理解一個概念。那就是查詢處理,當(dāng)用戶向搜索引擎提交查詢后,搜索引擎接收到用戶的信息要做一系列的處理。
1.首先是到數(shù)據(jù)庫里面索引相關(guān)的信息,這就是查詢處理。那么查詢處理又是如何工作的呢?很簡單,把用戶提交的字符串沒有超過3個的中文字,就會直接到數(shù)據(jù)庫索引詞匯。超過4個中文字的,首先用分隔符比如空格,標(biāo)點符號,將查詢串分割成若干子查詢串。舉個例子!癎OOGLE收購android手機(jī)操作系統(tǒng)” 。人工進(jìn)行分詞,我們就會把這個詞分割成“GOOGLE”、“收購”、“android”、“進(jìn)軍”、“手機(jī)操作系統(tǒng)”
2.然后再看用戶提供的這個詞有沒有重復(fù)詞匯如果有的話,會丟棄掉,默認(rèn)為一個詞匯。
3.去掉無意詞干擾詞,中文分詞中有許多詞是不能夠區(qū)分文本和分詞的分類的。例如“我”,這個字在大部分中文網(wǎng)頁中都可能會出現(xiàn),但是又沒有任何區(qū)分度,即不能夠區(qū)分出任何兩篇文章的區(qū)別來。例如:文章A是關(guān)于NBA的文章,里面出現(xiàn)了“我”;另外一篇關(guān)于IT的文章B也出現(xiàn)了“我”,相對于其他有意義的分詞來說,“我”這樣的詞是不能夠區(qū)分出兩篇文章的區(qū)別的。
二、系統(tǒng)開發(fā)平臺要求和設(shè)置、項目開發(fā)進(jìn)度計劃
硬件環(huán)境
安裝有windows7或者以上兼容版本的計算機(jī),不滿足以下硬件要求的計算機(jī)理論上也可以運行項目,但是我們不能保證運行結(jié)果的性能與實驗得到的一致。
CPU:Intel Core2 Duo CPU T5800及以上版本。
硬盤:160G或更多。推薦使用320G及以上容量。
內(nèi)存:2G或更高
軟件環(huán)境
操作系統(tǒng) Windows 7
網(wǎng)絡(luò)協(xié)議 TCP/IP
Web服務(wù)器 Internet Information Server 5.0 / Personal Web Server
數(shù)據(jù)庫 MSSQL2008
瀏覽器 IE9.0、FireFo*10.0
項目開發(fā)進(jìn)度計劃:(加上時間安排)
1) 熟悉SQL存儲過程,了解MSSQL查詢優(yōu)化,了解MSSQL大規(guī)模查詢優(yōu)化。
2) 對文本篇章分析系統(tǒng)的各個流程及模塊的分析;
3) 完成數(shù)據(jù)庫的設(shè)計。
4) 完成初始化的領(lǐng)域?qū)<覕?shù)據(jù)庫。
5) 整合整個項目。
6) 書寫項目報告。
三、系統(tǒng)概要設(shè)計
3.1基本功能需求
1、 基本關(guān)系:
2、 基本表
Create database songCarrot;
use songcarrot;
create table t_User(
uID int primary key identity(0,1),
uName varchar(10) not null,
uEmail varchar(20) null,
uMobile varchar(13) null, ……(未完,全文共5184字,當(dāng)前僅顯示1821字,請閱讀下面提示信息。
收藏《論文開題報告:基于領(lǐng)域知識的數(shù)據(jù)庫存儲設(shè)計與實現(xiàn)》)