目錄/提綱:……
一、項(xiàng)目工作背景
二、如何設(shè)計(jì)數(shù)據(jù)庫存儲(chǔ)用戶的行為,存儲(chǔ)什么樣的行為
1、首先是到數(shù)據(jù)庫里面索引相關(guān)的信息,這就是查詢處理
二、系統(tǒng)開發(fā)平臺(tái)要求和設(shè)置、項(xiàng)目開發(fā)進(jìn)度計(jì)劃
三、系統(tǒng)概要設(shè)計(jì)
四、各模塊需要解決關(guān)鍵問題及系統(tǒng)測(cè)試
1、用戶表:保存用戶相關(guān)數(shù)據(jù)
2、分類表:保存用戶分類信息
3、用戶分詞詞表:保存用戶關(guān)鍵字
4、公共分詞詞表:保存公共關(guān)鍵字
5、分詞關(guān)系表:保存各分詞之間的關(guān)系值
6、熱點(diǎn)推薦表:保存系統(tǒng)產(chǎn)生的推薦熱點(diǎn)信息
2、性能測(cè)試測(cè)試大規(guī)模數(shù)據(jù)系統(tǒng)的數(shù)據(jù)庫運(yùn)行的效率
五、主要參考文獻(xiàn)
……
基于領(lǐng)域知識(shí)的數(shù)據(jù)庫存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn)
08信息與計(jì)算科學(xué)
一、 項(xiàng)目工作背景
互聯(lián)網(wǎng)數(shù)據(jù)量的增長一直保持著近乎幾何級(jí)數(shù)的增長,我們無法試圖提供給用戶一個(gè)包含互聯(lián)網(wǎng)全部數(shù)據(jù)的搜索引擎,而且搜索引擎的數(shù)據(jù)查全率越來越低。單一的搜索引擎無法提供一個(gè)完美的解決方案。并且,人們?cè)噲D在巨大的數(shù)據(jù)中挖掘自己感興趣的內(nèi)容,而傳統(tǒng)的逛大街的方式很浪費(fèi)人們的時(shí)間。我們?cè)噲D利用現(xiàn)有的搜索引擎檢索用戶可能感興趣的內(nèi)容,并且在用戶使用時(shí)推送給用戶。這就是我們嘗試做的基于知識(shí)領(lǐng)域的數(shù)據(jù)挖掘。
基于知識(shí)領(lǐng)域的數(shù)據(jù)挖掘并不是獨(dú)立的搜索引擎,而是利用現(xiàn)有的搜索引擎技術(shù)獲取用戶感興趣的內(nèi)容,構(gòu)建一個(gè)能夠包含互聯(lián)網(wǎng)全部網(wǎng)頁數(shù)據(jù)的數(shù)據(jù)庫是不現(xiàn)實(shí)且不實(shí)用的方式,這樣我們可以避免構(gòu)建一個(gè)龐大的互聯(lián)網(wǎng)頁面數(shù)據(jù)的數(shù)據(jù)庫。
領(lǐng)域知識(shí)的數(shù)據(jù)庫存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn)涉及的主要問題是:
一、為知識(shí)領(lǐng)域數(shù)據(jù)庫的初始化專家數(shù)據(jù),因?yàn)橐粋(gè)精確的初始化的知
……(新文秘網(wǎng)http://120pk.cn省略648字,正式會(huì)員可完整閱讀)……
2、Informi*、SQL Server這些大型的數(shù)據(jù)庫管理系統(tǒng),還是像Visual Fo*pro、PowerBuilder這些PC上常用的數(shù)據(jù)庫開發(fā)系統(tǒng),都支持SQL語言作為查詢語言。
分詞技術(shù):盡管這個(gè)項(xiàng)目并不做獨(dú)立的搜索引擎,只需要調(diào)用各個(gè)搜索引擎就可以了,但是因?yàn)樾枰獙?duì)用戶的行為和偏好詞進(jìn)行分類,我們?nèi)匀恍枰獙?duì)文本篇章進(jìn)行分詞處理。分詞技術(shù)就是搜索引擎針對(duì)用戶提交查詢的關(guān)鍵串進(jìn)行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進(jìn)行的一種技術(shù)。我們要理解分詞技術(shù)先要理解一個(gè)概念。那就是查詢處理,當(dāng)用戶向搜索引擎提交查詢后,搜索引擎接收到用戶的信息要做一系列的處理。
1.首先是到數(shù)據(jù)庫里面索引相關(guān)的信息,這就是查詢處理。那么查詢處理又是如何工作的呢?很簡單,把用戶提交的字符串沒有超過3個(gè)的中文字,就會(huì)直接到數(shù)據(jù)庫索引詞匯。超過4個(gè)中文字的,首先用分隔符比如空格,標(biāo)點(diǎn)符號(hào),將查詢串分割成若干子查詢串。舉個(gè)例子!癎OOGLE收購android手機(jī)操作系統(tǒng)” 。人工進(jìn)行分詞,我們就會(huì)把這個(gè)詞分割成“GOOGLE”、“收購”、“android”、“進(jìn)軍”、“手機(jī)操作系統(tǒng)”
2.然后再看用戶提供的這個(gè)詞有沒有重復(fù)詞匯如果有的話,會(huì)丟棄掉,默認(rèn)為一個(gè)詞匯。
3.去掉無意詞干擾詞,中文分詞中有許多詞是不能夠區(qū)分文本和分詞的分類的。例如“我”,這個(gè)字在大部分中文網(wǎng)頁中都可能會(huì)出現(xiàn),但是又沒有任何區(qū)分度,即不能夠區(qū)分出任何兩篇文章的區(qū)別來。例如:文章A是關(guān)于NBA的文章,里面出現(xiàn)了“我”;另外一篇關(guān)于IT的文章B也出現(xiàn)了“我”,相對(duì)于其他有意義的分詞來說,“我”這樣的詞是不能夠區(qū)分出兩篇文章的區(qū)別的。
二、系統(tǒng)開發(fā)平臺(tái)要求和設(shè)置、項(xiàng)目開發(fā)進(jìn)度計(jì)劃
硬件環(huán)境
安裝有windows7或者以上兼容版本的計(jì)算機(jī),不滿足以下硬件要求的計(jì)算機(jī)理論上也可以運(yùn)行項(xiàng)目,但是我們不能保證運(yùn)行結(jié)果的性能與實(shí)驗(yàn)得到的一致。
CPU:Intel Core2 Duo CPU T5800及以上版本。
硬盤:160G或更多。推薦使用320G及以上容量。
內(nèi)存:2G或更高
軟件環(huán)境
操作系統(tǒng) Windows 7
網(wǎng)絡(luò)協(xié)議 TCP/IP
Web服務(wù)器 Internet Information Server 5.0 / Personal Web Server
數(shù)據(jù)庫 MSSQL2008
瀏覽器 IE9.0、FireFo*10.0
項(xiàng)目開發(fā)進(jìn)度計(jì)劃:(加上時(shí)間安排)
1) 熟悉SQL存儲(chǔ)過程,了解MSSQL查詢優(yōu)化,了解MSSQL大規(guī)模查詢優(yōu)化。
2) 對(duì)文本篇章分析系統(tǒng)的各個(gè)流程及模塊的分析;
3) 完成數(shù)據(jù)庫的設(shè)計(jì)。
4) 完成初始化的領(lǐng)域?qū)<覕?shù)據(jù)庫。
5) 整合整個(gè)項(xiàng)目。
6) 書寫項(xiàng)目報(bào)告。
三、系統(tǒng)概要設(shè)計(jì)
3.1基本功能需求
1、 基本關(guān)系:
2、 基本表
Create database songCarrot;
use songcarrot;
create table t_User(
uID int primary key identity(0,1),
uName varchar(10) not null,
uEmail varchar(20) null,
uMobile varchar(13) null, ……(未完,全文共5184字,當(dāng)前僅顯示1821字,請(qǐng)閱讀下面提示信息。
收藏《論文開題報(bào)告:基于領(lǐng)域知識(shí)的數(shù)據(jù)庫存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn)》)