目錄/提綱:……
一、“語言科技”新思維的提出
二、計算語言學(xué)的界定要突出技術(shù)性
三、語言系統(tǒng)的計算機模式化要求
四、人腦語言和電腦語言的性質(zhì)異同
五、面向語言系統(tǒng)模擬的語義語法學(xué)
六、語言科技復(fù)合型人才的培養(yǎng)
……
�。暇⿴煼洞髮W(xué))
提要:本文闡釋了依據(jù)當(dāng)代科技進步和人類社會發(fā)展所提出的語言科技新思維�!罢Z言科學(xué)”主要指基礎(chǔ)性的描寫語言學(xué)和理論語言學(xué);“語言技術(shù)”主要指應(yīng)用性的計算語言學(xué)。語言技術(shù)可劃分為文本處理技術(shù)和系統(tǒng)模擬技術(shù)。雖然計算語言學(xué)的關(guān)鍵任務(wù)是“教計算機學(xué)說話”,但研究語言的可計算性和利用計算機工具研究語言這兩者本質(zhì)上是相通的,只是前者探索的是適合于“人-機對話”的語言能力,而后者討論的是適合于“人-人對話”的語言規(guī)則。語言學(xué)家只有了解了語言系統(tǒng)的計算機模式化要求,才有可能將研究目標(biāo)對準(zhǔn)語言工程。人類語言的本質(zhì)共性是語義性。依據(jù)語義語法學(xué)理論,建構(gòu)計算機所需要的元語言系統(tǒng)(語言基因圖譜分析工程)和語義結(jié)構(gòu)網(wǎng)絡(luò)(語言能力移植工程),才能穿過智能機研制中的瓶頸。當(dāng)代信息科技的發(fā)展趨勢表明,語言研究對象的語義性和語言研究過程及其成果的技術(shù)化將成為21世紀(jì)的語言學(xué)精神。
關(guān)鍵詞:語言科技語言系統(tǒng)模擬語言基因分析語言能力移植語義語法學(xué)
一、“語言科技”新思維的提出
雖然計算機設(shè)計的初衷是緣于數(shù)值計算,但是英國數(shù)學(xué)家圖靈(a.m.turing)在《機器能思維嗎?》(1950)一文中已經(jīng)預(yù)見到計算機和自然語言將結(jié)下不解之緣,并且提出檢驗計算機智能的最好方法就是對語言信息的處理能力。1977年,費根鮑姆(feigenbaum)提出知識工程,計算機信息處理出現(xiàn)了從“數(shù)據(jù)世界”向“知識世界”的轉(zhuǎn)移趨勢。知識世界的載體是語言符號系統(tǒng),語言信息處理的需求促使語言研究過程和語言研究成果的技術(shù)化趨勢日益明顯,當(dāng)代語言學(xué)已凸顯出“語言科學(xué)”與“語言技術(shù)”的二分互補格局,由此我在《南京師范大學(xué)語言科技系建設(shè)發(fā)展規(guī)劃》(2001年2月)中提出“語言科技”的新思維�!罢Z言科學(xué)”主要指基礎(chǔ)性的描寫語言學(xué)和理論語言學(xué)。“語言技術(shù)”主要指面向信息處理的應(yīng)用語言學(xué)或計算語
……(新文秘網(wǎng)http://120pk.cn省略1254字,正式會員可完整閱讀)……
的分析性、統(tǒng)計性、比較性和實驗性軟件的開發(fā)等。這一新思維既突出了當(dāng)代科技發(fā)展所要求的“語言學(xué)的技術(shù)化”,又體現(xiàn)了以語言學(xué)為本而溝通文理工相關(guān)學(xué)科的研究旨趣。
二、計算語言學(xué)的界定要突出技術(shù)性
20世紀(jì)50年代以后,在理論方法交叉_而形成諸多邊緣語言學(xué)的同時,語言學(xué)與計算機結(jié)合的趨勢開始出現(xiàn)。1954年,在美國喬治敦大學(xué)所進行的世界上首次機器翻譯試驗,標(biāo)志著計算機科學(xué)與語言學(xué)的結(jié)合已經(jīng)起步。在這一研究領(lǐng)域,立足于不同的學(xué)科視角或知識結(jié)構(gòu),先后出現(xiàn)了一系列名稱術(shù)語,如“語言工程”、“語言工程學(xué)”、“自然語言的計算機處理”(工科視角)、“語言信息處理”(信息學(xué)視角)、“數(shù)理語言學(xué)”(數(shù)學(xué)視角)等等。20世紀(jì)60年代以后,計算機和語言學(xué)的結(jié)合逐步深入到語言學(xué)的各個領(lǐng)域,形成了包括計算語音學(xué)、計算詞匯學(xué)、計算語法學(xué)、計算語義學(xué)等分支學(xué)科在內(nèi)的計算語言學(xué)(computationallinguistics)。其中“計算語音學(xué)”等名詞,雖然計算語言學(xué)界沒人提過,因為已經(jīng)存在著“言語識別”、“言語合成”等計算機應(yīng)用專業(yè)術(shù)語,但是從“語言工程學(xué)”到“計算語言學(xué)”的術(shù)語演變中,透露出“語言學(xué)立場”在這門交叉學(xué)科中的日益強化。雖然目前的計算機運算速度已經(jīng)可以滿足語言信息處理的技術(shù)要求,但是之所以“人—機對話”尚未實現(xiàn),其“瓶頸”就在于現(xiàn)有的語言研究成果無法滿足計算機處理的要求。歸根結(jié)底,語言信息處理的最終目標(biāo)就是“計算機模擬語言能力工程”或“語言能力移植計算機工程”。探索語言能力的性質(zhì)和描寫語言系統(tǒng)的結(jié)構(gòu),這些艱巨性工作還得由語言學(xué)家先來完成。語言信息處理或計算語言學(xué)務(wù)必以語言學(xué)為本而以計算機為用。語言學(xué)家必須具備“數(shù)字化”意識,了解計算機需要怎樣的語言描寫成果,然后才可能將研究目標(biāo)對準(zhǔn)語言工程。
迄今為止,正如許多發(fā)展中學(xué)科一樣,“計算語言學(xué)”的定義尚無一致認(rèn)定,歸納起來蓋有四種觀點(侯敏1999,p.2—p.6):
第一種,計算語言學(xué)是以計算機為工具研究語言學(xué)。侯敏認(rèn)為,任何一個學(xué)科在使用工具方面都是_的,使用不同工具研究一個學(xué)科會帶來不同特點,但不因為使用了新工具就產(chǎn)生了新學(xué)科。雖然并不排除新工具的使用沒有導(dǎo)致新學(xué)科的產(chǎn)生,但同樣不能否認(rèn)工具的變革有可能帶來學(xué)科體系的革命,以致于產(chǎn)生新的分支或交叉學(xué)科�,F(xiàn)代自然科學(xué)之所以能夠建立,無疑得益于望遠(yuǎn)鏡和顯微鏡的應(yīng)用,前者打開了人類認(rèn)知的宏觀世界之門,后者打開了人類認(rèn)知的微觀世界之門。望遠(yuǎn)鏡和顯微鏡帶來的不僅僅是“這一個工具”,而是人類認(rèn)知方式的巨大變革,從而引起了天文學(xué)、生物學(xué)等自然科學(xué)的一系列革命,產(chǎn)生了一系列新學(xué)科。因此,問題在于如何使用新的工具或新認(rèn)知方式。如果僅僅利用計算機做語言研究的統(tǒng)計工具,也許不會產(chǎn)生新的分支學(xué)科,但是利用計算機作為語音分析和合成的工具,則形成了計算語音學(xué)。
第二種,計算語言學(xué)是把語言學(xué)成果應(yīng)用于計算機。侯敏認(rèn)為,計算機的應(yīng)用領(lǐng)域幾乎沒有限度,什么學(xué)科的成果都可以在計算機上應(yīng)用,因此在計算機上應(yīng)用語言學(xué)的研究成果不足以建立新學(xué)科。問題不在于在什么學(xué)科的成果能在計算機上應(yīng)用,而在于在計算機上所應(yīng)用的成果的性質(zhì)。與其他學(xué)科研究對象的性質(zhì)迥然不同,語言學(xué)科的研究對象——語言——是人類最重要的認(rèn)知符號系統(tǒng)和知識載體,因此面向信息處理的語言成果應(yīng)用于計算機足以建立新的學(xué)科。以往的語言學(xué)研究是面向人際交流,而計算語言學(xué)研究是面向人機交流,兩者具有截然不同的性質(zhì)。
第三種,計算語言學(xué)是研究語言中的可計算問題。侯敏認(rèn)為,雖然利用可計算理論研究語言符號是建立了一個新學(xué)科,但是這種說法偏于保守,沒有把計算語言學(xué)推進語言學(xué)發(fā)展的作用充分體現(xiàn)出來。問題在于面向信息處理的計算語言學(xué)研究,其顯著特點就是語言的可計算性�!巴七M語言學(xué)發(fā)展的作用”這不是計算語言學(xué)的定義,強調(diào)“研究語言中的可計算問題”未必保守,反而突出了計算語言學(xué)的顯著特點。
第四種,計算語言學(xué)是建立基于計算機科學(xué)理論的語言學(xué)理論。侯敏認(rèn)為,把計算機科學(xué)的基本思想和方法引進語言學(xué)領(lǐng)域,不但可以產(chǎn)生許多應(yīng)用性課題,而且能夠促使研究者從新的角度觀察語言學(xué),建立與傳統(tǒng)語言學(xué)不同的理論。因此計算語言學(xué)是一種基于計算機科學(xué)理論所建立的語言學(xué)理論。問題在于:一方面計算語言學(xué)需要理論但本質(zhì)上不是一門理論科學(xué),同時并非所有的計算語言學(xué)家都樂意或適合從事理論研究,另一方面計算語言學(xué)的應(yīng)用性質(zhì)決定了研究成果的技術(shù)性特征,而絕大多數(shù)人可能更適合于——實際上也更需要——語言信息處理的技術(shù)性研究。
第一種和第二種是歐洲流行的廣義定義,主張計算語言學(xué)是計算機和語言學(xué)的交叉,第三種和第四種是盛行于美國的狹義定義,主張計算語言學(xué)是計算機科學(xué)和語言學(xué)的交叉。也就是說,前者僅僅把計算機當(dāng)成語言學(xué)研究中的一種新工具應(yīng)用,而后者強調(diào)計算機學(xué)科的要求和理論對語言學(xué)的影響。陳小荷(2001)認(rèn)為,計算語言學(xué)就是以計算機為手段來研究自然語言,較嚴(yán)格的定義是“通過建立形式化的計算模型來處理自然語言的一門科學(xué)”。要建立形式化的計算模型來處理自然語言,首先要完成適合于計算機使用的自然語言系統(tǒng)的描寫。這一面向“人—機對話”的機用語言系統(tǒng),與以往面向“人—人對話”的日常語法系統(tǒng)不同。因此機用語言系統(tǒng)的描寫應(yīng)當(dāng)納入計算語言學(xué)的研究范圍,即完成了“機用語言系統(tǒng)”以后,才能“建立形式化的計算模型”使計算機獲得自然語言能力。綜上所論,計算語言學(xué)可以定義為——利用計算機作為工具研究語言、研究機用自然語言系統(tǒng)、研究語言系統(tǒng)或語言能力的計算性,同時建構(gòu)基于計算機應(yīng)用、數(shù)學(xué)模型、認(rèn)知科學(xué)等相關(guān)學(xué)科基礎(chǔ)之上的語言理論的新學(xué)科。姑且圖示如下:
工具性:利用計算機研究語言
計算語言學(xué)描寫性:研究機用自然語言系統(tǒng)
技術(shù)性:研究語言系統(tǒng)的計算性
理論性:建構(gòu)新的語言學(xué)理論
雖然計算語言學(xué)的關(guān)鍵任務(wù)是研究人機之間的語言交際問題,即“如何教計算機學(xué)會說話”。但是從本質(zhì)上來說,研究語言系統(tǒng)或語言能力的可計算性和利用計算機工具來研究語言是相通的,只是前者探索的是適合于人-機對話的語言能力,而后者討論的是適合于人-人對話的語言規(guī)則。
依據(jù)目前的語言研究成果和信息處理技術(shù)路線,計算語言學(xué)包括應(yīng)用基礎(chǔ)研究、應(yīng)用研究和理論研究三個方面。(陳小荷2001)應(yīng)用基礎(chǔ)研究指語言處理的基本技術(shù)研究�,F(xiàn)階段的主要進展是:1.自動分詞技術(shù):這是計算機理解自然語言的第一步。目前漢語書面語自動分詞的正確率達(dá)到95%以上。2.詞語特征標(biāo)注技術(shù):現(xiàn)階段的詞語特征包括詞性和義項,這是句法結(jié) ……(未完,全文共19573字,當(dāng)前僅顯示3520字,請閱讀下面提示信息。
收藏《論語言科學(xué)與語言技術(shù)》)