• 沒有找到結果。

第三章 研究計畫與目的

第四節 語料來源介紹

本研究的中文語料來源為中央研究院平衡語料庫,而初步的詞類分類 依據則採用中文詞彙網路與教育部成語辭典;法文語料來源則為新漢法大辭 典、法法辭典以及法文語料庫WoNef。以下將針對中文的平衡語料庫、中文 詞彙網路與教育部重編國語辭典以及法文的漢法大辭典、法法辭典、法語助 手與語料庫,進行詳細介紹。

一 中文語料來源

中央研究院平衡語料庫

中央研究院平衡語料庫(簡稱中研院語料庫 Sinica Corpus),所蒐集 的文章為1981年到2007年之間,是一個包含一千多萬目詞的帶標記平衡 語料庫。自2013年起,將一千多萬目詞的帶標記平衡語料庫開放對外查 詢,其所蒐錄的資料來自各種不同語式(如書面語、演講稿)、各種不同文 體(論說、敘述)、各種不同媒體(報章雜誌、網路、書籍)與各式不同學 科(藝術人文、自然科學、生活哲學等)。整個語料庫中共含括19,247篇文 章、1,396,133句數、11,245,330個詞數(word token)、239,598個詞形(word type)與 17,554,089 個字數(character token)。

中文詞彙網路2.0版(Chinese Wordnet 2.0)

中文詞彙網路(Chinese Wordnet 簡稱中文詞彙網),為中研院2003-2010之計畫,目的是在提供完整的中文詞 義 (sense)區分以及成為詞彙語

21

意關係知識庫,即在一個完整的系統下兼顧詞義與詞義間的精準表達。而 在中文詞網中有兩個很重要的核心元素,一為以詞義為根本的詞彙分組,二 為連繫整個詞彙分組的語義關係,透過這兩個要點進而組成一個繁複嚴密的 詞彙網絡。中文詞網於2006年開放查詢,其所收錄的詞條(entry)是以現代 常用漢語為範圍,不收錄古代漢語或現已不用的詞彙,目前整個資料包 含10,363個詞目與27,271 個詞義。

教育部重編國語辭典

教育部重編國語辭典目前最新為2015年第五版試用版,此辭典目的 在於讓所有教學者及對歷史語言有興趣的研究者及一般民眾能有一個具 公信力又標準的字詞查詢平台。其收錄古代至現代各類詞語,兼採傳統音 讀,並援引文獻書證作為例證,目前統計所收錄的字詞僅至2007年第四 版:總筆數為166,176(含單字筆數、異體字與語詞紀錄筆數);網路光碟 第三版:總筆數為165,930(含單字筆數、異體字與語詞紀錄筆數)。

二 法文語料來源

《新》法漢大辭典

《新》法漢大辭典由最初的法漢大辭典改編而成,刪去詞目中的人名、

地名及不常用的說略詞,同時新增少數詞目,故總詞目數在一增一減的情況 下基本上保持不變,約為七萬多條詞目。範圍包含一般日常生活詞語外,還 涵蓋其他領域如音樂、藝術、經濟等相關詞彙以及近年來的新生詞彙。詞目 囊括範圍更廣,因此更適合學生及一般社會人士使用,故成為台灣法語學習者 常使用的一本工書。

法法辭典《LA ROUSSE》

《LA ROUSSE》是法國最著名的免费在線百科全書和法語字典,為 多數法語學習者常用的學習工具。該辭典共收錄135,000個定義解釋、

6000篇文章以利法語學習者能盡量避免某些法文錯誤、92,000個同義詞與

22

29,000反義詞以及15,000個同形異義詞,故此辭典成為多數法語中高級以上 學習者最常使用也不可缺少的法法辭典。

法語助手

從最原本的「輕鬆查變位」版本,到現在融法語辭典、變位查詢、法語發 音、單詞舉例為一體的綜合性學習教育軟體,《法語助手》成為多數法語學習 者必備的工具,同時也是單辭量最大(詞條量約354,439)的中法互譯辭典線上 軟體。《法語助手》從2001年開始,始終專注於法語學習領域,不斷更新 完善,已經先後推出了7個主要版本,最新版本為8.2.1.2,成為法語電子詞 典的標準。除了《法語助手》電腦軟體外,同時另外開發了《法語助手》掌上 型電腦版和智慧手機版,方便了赴法留學人員的使用,受到了法語工作者以及 赴法留學生的肯定。

WoNef

法文版的Wordnet,整個語料庫的來源皆於2014年翻譯Wordnet 3.0而得之。

所有存在於Wordnet 3.0的詞義、詞類皆翻成法文,並且免費提供給所有法語人 士使用。

23

相關文件