本文原版含圖表word版全文下載地址附后(正式會員會看到下載地址)。這里只復制粘貼部分內(nèi)容或目錄(下面顯示的字數(shù)不代表全文字數(shù)),有任何不清楚的煩請咨詢本站客服。提要:本文主要以圖文并茂的形式介紹了基于Office的專書簡易語料庫制作方法。關(guān)鍵詞:Office專書簡易語料庫示例專書語言研究是漢語史研究的基礎(chǔ)。王力先生曾多次強調(diào),漢語史的研究,基礎(chǔ)研究做得還很不夠;應該多做些斷代的研究,專書的研究。專書研究強調(diào)語料收集的窮盡性與完整性。獨立制作語料庫是實現(xiàn)這一目的的有效途徑。關(guān)于語料庫建立,楊建軍先生高屋建瓴地論述了其原則和方法。[詳楊建軍《漢">
您的位置:新文秘網(wǎng)>>>>正文

基于Office的專書簡易語料庫制作示例

發(fā)表時間:2014/2/17 9:48:57

基于Office的專書簡易語料庫制作示例

提示:本文原版含圖表word版全文下載地址附后(正式會員會看到下載地址)。這里只復制粘貼部分內(nèi)容或目錄(下面顯示的字數(shù)不代表全文字數(shù)),有任何不清楚的煩請咨詢本站客服。
提 要:本文主要以圖文并茂的形式介紹了基于Office的專書簡易語料庫制作方法。
關(guān)鍵詞:Office 專書簡易語料庫 示例

  專書語言研究是漢語史研究的基礎(chǔ)。王力先生曾多次強調(diào),漢語史的研究,基礎(chǔ)研究做得還很不夠;應該多做些斷代的研究,專書的研究。專書研究強調(diào)語料收集的窮盡性與完整性。獨立制作語料庫是實現(xiàn)這一目的的有效途徑。
  關(guān)于語料庫建立,楊建軍先生高屋建瓴地論述了其原則和方法。[ 詳楊建軍《漢
……(新文秘網(wǎng)http://www.120pk.cn省略547字,正式會員可完整閱讀)…… 
圖1.1:
  
  圖1.1
  搜索引擎便會自動列出所有可用的資料目錄。我們只需將其打開、復制,即可輕松粘貼到Word文檔中。
  將文本復制入Word時,注意最好使用“選擇性粘貼”命令,這樣可以去除其中的其他非文字符號、軟回車、制表符等,避免出現(xiàn)格式混亂的情況。
  具體步驟:(注:先復制)編輯→選擇性粘貼。如圖1.2:
  
  圖1.2
  當然,將文本輸入Word后,校勘與整理是必不可少的。
  2.文本切分
  文本切分一般以句為單位。我們一般以一個句子作為一條語料記錄的基礎(chǔ)。手動切分太過繁瑣。特別是對于較長的文檔,處理起來就更加困難。我們可以利用Word的查找與替換功能來快速完成平這一步。
  即利用高級替換功能,將每一個句號替換為一個段落標記和句號。
  具體步驟:(Word)編輯→查找和替換→高級→特殊字符→段落標記。如圖2.2:
  
 
  圖2.2
  經(jīng)過段落查找與替換,即形成了以每句為一個段落的文檔。當然,個別句子太長,也可再作切分處理;有些地方有連續(xù)的空白段落,可以依照上面的方法,用把連續(xù)段落替換為單個段落的方法處理。
  3.重新轉(zhuǎn)換為文本
  使用“另存為”命令將標志完畢的Word文檔轉(zhuǎn)存為T*T文本。在轉(zhuǎn)存的過程中,Word文檔的格式設置將丟失。
  具體步驟:(Word)文件→另存為→保存類型:純文本(孫子兵法)。如圖3:
  
  圖3
  4.將文本導入E*cel
  新建一個E*cel空文檔,再導入t*t文本。E*cel將自動將每個句子(即段落)在電子表格中形成一個記錄。
  具體步驟:(E*cel)文件→打開→文件類型:文本文件(孫子兵法)。如圖4:
  
圖4
  5.標識文本出處
  用E*cel的自動復制單元格功能,可以實現(xiàn)快速重復填充。如圖,只需在表格第二欄輸入一個篇名,再將鼠標放在所在方框右下角,按住并持續(xù)下拉,即可為所有語料快速填充所需信息。如圖5:
  
  圖5
  當然,在電子表格中,研究者也可以按實際需要增加其他項目,為每條記錄提供更加豐富、全面的信息。
  6.導入、合成
  將制作好的E*cel表格導入ACCESS即成。先建立一個空導ACCESS文件,再導入E*cel表格內(nèi)容。
  具體步驟:(Access)文件→獲取外部數(shù)據(jù)→導入→文件類型:Microsoft E*cel(文件名)→打開→下一步(4次)→完成。如圖6:
    
  圖6
  7.專書語料庫的使用
  利用Access的篩選功能查找、篩選,主要可以滿足以下兩方面的研究。
  (1)篩選詞語(或關(guān)鍵詞)研究:研究者可根據(jù)需要,對特定的對象進行窮盡搜索。分兩步完成:先用“查找”功能找到搜索對象,再用 “篩選”功能搜 ……(未完,全文共3039字,當前僅顯示1535字,請閱讀下面提示信息。收藏《基于Office的專書簡易語料庫制作示例》