基于粗糙集的縣域經(jīng)濟信息關(guān)聯(lián)規(guī)則挖掘研究
摘要:縣域經(jīng)濟作是中國一個重要的經(jīng)濟組成部分。目前國家大力倡導(dǎo)發(fā)展縣域經(jīng)濟,而且以前對縣域經(jīng)的研究,多停留在定性研究。一些計算模型方法的應(yīng)用和研究也很少,而對于縣域經(jīng)濟信息的挖掘則更少。本文應(yīng)用粗糙集理論,以廣西各縣域經(jīng)濟單元做為樣本,選取了9個評價指標,應(yīng)用粗糙集軟件,提取了17條的縣域經(jīng)濟信息關(guān)聯(lián)規(guī)則。文章旨在一個初步探討,將粗糙集技術(shù)引入縣域經(jīng)濟評價中來。
關(guān)鍵詞:縣域經(jīng)濟;粗糙集;關(guān)聯(lián)規(guī)則
The association rule data mining study of county economy information based on rough set
LiaoWei-Hua
(Department Of Mathematics And Infomation,Guang*i University Nanning 530004,China)
……(新文秘網(wǎng)http://120pk.cn省略649字,正式會員可完整閱讀)……
technology and theory into county territory economy application.
Key words: County territory economy;Rough set; Association rule
1 引言
縣域經(jīng)濟是以縣級行政區(qū)劃為地理空間,以縣級_為調(diào)控主體,以市場為導(dǎo)向,優(yōu)化配置資源,具有地域特色和功能完備的區(qū)域經(jīng)濟。縣域經(jīng)濟在我國國民經(jīng)濟中的重要性至少有兩大方面:首先:從經(jīng)濟總量看,整個國家的GDP有相當大的比重是由縣和縣以下的經(jīng)濟活動創(chuàng)造的,其次,全國縣域范圍內(nèi)居住的人口總計約為10.8億人以上,占我國總?cè)丝诘?5%強。因此,目前國家大力提倡發(fā)展縣域經(jīng)濟。而在經(jīng)濟的發(fā)展過程中,有大量的經(jīng)濟、社會統(tǒng)計數(shù)據(jù),如何有效利用這些數(shù)據(jù),挖掘這些數(shù)據(jù)的有用信息,更好的為中國縣域經(jīng)濟服務(wù),就成為一個值得研究的課題。數(shù)據(jù)挖掘是從數(shù)據(jù)庫中發(fā)現(xiàn)經(jīng)濟知識模式的有效工具,應(yīng)當把數(shù)據(jù)挖掘的方法技術(shù)引入和應(yīng)用到實證經(jīng)濟分析中去,以促進經(jīng)濟學(xué)的現(xiàn)代化、科學(xué)化,提高經(jīng)濟決策水平[1]。
隨著各科研院所縣域經(jīng)濟的研究的開展,計量經(jīng)濟方法和社會統(tǒng)計方法也逐漸被運用于縣域經(jīng)濟研究,各種定量化的方法和計量模型開始對縣域經(jīng)濟進行研究探討。這些研究促進了對縣域經(jīng)濟進行定量研究的深度,充實了縣域經(jīng)濟的研究內(nèi)容。這類定量研究文章主要包括,縣域經(jīng)濟競爭力(或?qū)嵙?評價、縣域經(jīng)濟發(fā)展差距(包括省域內(nèi)差距和區(qū)域差距)、縣域內(nèi)組織(經(jīng)濟組織和政府機構(gòu))對縣域經(jīng)濟的影響作用等。而縱觀國內(nèi)外的研究,很少研究會注重縣域經(jīng)濟內(nèi)部知識的挖掘,提取有效的規(guī)則,形成知識,從而為中國縣域經(jīng)濟的發(fā)展提供有效的參考。本文將從粗糙集技術(shù)出發(fā),探討粗糙集在縣域經(jīng)濟數(shù)據(jù)挖掘的中的應(yīng)用。
2、基本理論
本次研究采用波蘭數(shù)學(xué)家Z.Pawlak提出的粗糙集理論。粗糙集以等價關(guān)系(不可分辨關(guān)系)為基礎(chǔ),用于分類問題。它用上、下近似兩個集合來逼近任意一個集合,該集合的邊界線區(qū)域被定義為上近似集和下近似集之差集。目前,粗糙集理論用在數(shù)據(jù)庫中的知識發(fā)現(xiàn)主要體現(xiàn)在:
(1)利用等價關(guān)系對數(shù)據(jù)庫進行屬性約簡。
(2)利用集合的上、下近似關(guān)系獲取分類規(guī)則。
關(guān)聯(lián)規(guī)則(association rule)挖掘是發(fā)現(xiàn)大量數(shù)據(jù)庫中項集之間的關(guān)聯(lián)關(guān)系。隨著大量數(shù)據(jù)的增加和存儲,大量事物中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助許多決策的制定,如分類等。目前,關(guān)聯(lián)規(guī)則挖掘已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域重要的研究方向。關(guān)聯(lián)規(guī)則模式屬于描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法,下面屬于關(guān)聯(lián)規(guī)則的定義。
定義1 設(shè)是項的集合,項集是的子集,即, ,這里等均為項編號(, ,)。設(shè)是的子集,則表示成。為了簡單起見,一個項集也寫成。
定義2 一筆交易定義為,這里是交易號,是項集。當且僅當時,一筆交易包含。
定義3 交易數(shù)據(jù)庫是具有個交易的集合,在中包含項集的交易數(shù)目稱為的支持數(shù),表示為;而交易中包含的百分數(shù)稱為支持度。給定支持數(shù)閾值(),如果,則項集是頻繁的。
頻繁模式挖掘?qū)嶋H上就是根據(jù)其最小支持度(或支持數(shù))在給定的交易數(shù)據(jù)庫中發(fā)現(xiàn)頻繁模式的完全項集。
定義 4 設(shè)頻繁項集={},則規(guī)則的支持度和置信度定義如下:
定義5 設(shè)最小支持度閾值()和最小置信度(),則當,并且,稱為強規(guī) ……(未完,全文共5193字,當前僅顯示1824字,請閱讀下面提示信息。
收藏《基于粗糙集的縣域經(jīng)濟信息關(guān)聯(lián)規(guī)則挖掘研究》)