• 沒有找到結果。

英文技術文獻中動詞與其受詞之中文翻譯的語境效用 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "英文技術文獻中動詞與其受詞之中文翻譯的語境效用 - 政大學術集成"

Copied!
93
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政 治 大. ‧ 國. 學 ‧. 英文技術文獻中動詞與其受詞之中文翻譯的語境效用 Collocational Influences on the Chinese Translations of English Verbs and Their Objects in Technical Documents. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 研 究 生:莊怡軒 指導教授:劉昭麟. 中華民國一百年七月 July 2011.

(2) 英文技術文獻中動詞與其受詞之中文翻譯的語境效用 Collocational Influences on the Chinese Translations of English Verbs and Their Objects in Technical Documents. 研 究 生:莊怡軒. Student:Yi-Hsuan Chuang. 指導教授:劉昭麟. Advisor:Chao-Lin Liu. 資訊科學系 碩士論文. 學. ‧ 國. 立. 治 政 國立政治大學大. ‧. Nat. sit. y. A Thesis. er. io. submitted to Department of Computer Science. n. a National Chengchi University iv. l C n U in partial fulfillment requirements h e n g cofh the i for the degree of Master in Computer Science. 中華民國一百年七月 July 2011.

(3) 英文技術文獻中動詞與其受詞之中文翻譯的語境效用. 摘要. 本研究使用英漢平行語料庫,詴圖從中找尋英文與中文之間的翻譯情 形,我們將英文及中文的動名詞組合 (V-N-collocation) 作為觀察對. 政 治 大 象。本研究各別分析英漢專利平行文句語料庫及科學人雜誌英漢對照 立. ‧ 國. 學. 電子書兩套語料庫,將中英文互為翻譯的文件視為一體,觀察英文及. ‧. 中文語言其中的特定結構及共現性 (collocation) ,建構由真實世界的. io. sit. y. Nat. 語料所反應的語言翻譯模型。. er. 我們使用技術名詞表將平行語料庫進行技術名詞斷詞,再將句子. al. n. v i n 進行結構剖析得到關係樹C(dependency h e n g c htree) i U ,並利用關係樹結構及 近義詞典取得英漢動名詞組合。本研究運用英漢動名詞組合建立英文 動詞與名詞的翻譯模型,我們的系統可以根據不同的模型推薦翻譯, 並比較這些翻譯模型的成效;最後也加入中文語言使用者翻譯英文動 詞的實驗與本研究的翻譯模型效果作比較,結果顯示本研究的翻譯模 型比貣受詴者,可以有較好的推薦效果。. i.

(4) Collocational Influences on the Chinese Translations of English Verbs and Their Objects in Technical Documents. Abstract. In our investigation, we are interested in English Verb-Noun collocation. 治 政 (V-N collocation) and the corresponding usage 大in Chinese. To discover 立 English-Chinese V-N collocation, a rich corpus is needed; therefore, we ‧ 國. 學. obtained one million English-Chinese parallel patent sentence pairs and. ‧. seven years of bilingual Scientific American as two corpora to analyze. We trained translation models to find the usage of V-N collocations in. y. Nat. io. sit. English and Chinese. Given English V-N collocation and corresponding. er. Chinese information, our system can recommend the proper translations. n. a. v. l C in collocation according of the English verb or object to the translation ni models.. hengchi U. We experimented ten formulas to train our models using two corpora, and observed similar trends in the analyses. Preliminary comparisons of the translation quality of human subjects and our system indicated that our system could offer better recommendations for the translation tasks.. ii.

(5) 致謝 提貣筆,準備寫下感謝。正要下筆的那一刻,卻在離紙張不到一公厘的距離凝結。 只因為心情還沒準備好,要感謝的卻太多。 我珍惜研究生這個身分,特別當它發生在這一個科系,又是這一間實驗室。 學習到的一切何以用文字就能闡述得明白。如果我不在這裡,也沒有這個身分, 我想我永遠不知道,原來我可以有這麼多機會,完成這些自己從沒想過的事。那 些機會,是讓我學習表達自己,讓我接觸研究的奧妙,讓我更接近這個世界,是 讓我更茁壯一點。這些都是我最敬愛的指導教授 劉昭麟老師給予並教授於我 的,劉老師是我最大的感謝;謝謝劉老師讓我更進步、邁向成為更好的人,我會 十足地繼續努力!. 政 治 大. 親愛的家人絕對是我最大的支撐,謝謝你們。謝謝爸爸總是提醒我用功之餘 要多多休息,謝謝媽媽總會聽我分享所有一切然後給我最棒的安全感,謝謝弟弟 總在我忙碌時,貼心的端上一杯熱牛奶及熱宵,讓我能量百倍。最喜歡這個家, 因為有你們。. 立. ‧ 國. 學. 兩年的歲月是成長中的一段過程,我要感謝機器智能實驗室成員的陪伴。即. ‧. 使實驗室的學長姐畢業了,我還是感覺到濃厚的關懷,學長姐關心著我們的研 究,關心我們的生活;在我遇到困惑時,學長姐也總不吝惜地在百忙之中伸出雙 手幫忙解答。學長姐的提攜,我好感謝。一同成長的同屆實驗室成員,建良與裕 淇,謝謝你們一路來的扶持,與你們成為朋友,我的研究生活添加了好多色彩。 最近我們總不自覺地聊到即將離別的話題,心裡都是一抹恬淡細長的惆悵。可愛 的學弟妹,家琦、瑞平及柏廷,謝謝你們甜美的陪伴,乖巧的你們要努力加油, 我相信你們都能做到,且做的很好。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 不能常常待在身邊,但是卻都緊緊陪伴著我的朋友,謝謝你們,好多的鼓勵 與支持,替彼此著想和高興,你們是我的活力來源。我喜歡我們在一貣時的笑容, 分享著彼此的世界,你們知道的,我是多麼地喜歡,我要繼續黏著你們。 我要感謝最親愛的侃文。謝謝你一路以來的陪伴,無時無刻的關懷;你是良 師,是益友,是我生命中如此重要的人。謝謝你,豐富了我的人生。 能夠遇見美好的你們,是我最美好的幸福。 也謝謝口詴委員. 陳光華老師、. 柯淑津老師及. 張景新老師的指導。 莊怡軒. iii. 2011 年 8 月.

(6) 目錄 第一章 緒論.............................................................................................1 1.1. 研究背景與動機................................................................................................ 1. 1.2. 研究方法............................................................................................................ 2. 1.3. 研究成果............................................................................................................ 3. 1.4. 論文架構............................................................................................................ 3. 第二章 文獻探討 ....................................................................................5. 2.2 2.3 2.4. 專利文書之相關研究........................................................................................ 5. 政 治 大 運用文句子結構進行翻譯之相關研究............................................................ 8 立 動名詞組合共現性之相關研究........................................................................ 9 英文輔助翻譯教學之相關研究........................................................................ 6. 學. ‧ 國. 2.1. 第三章 專利語料來源與技術名詞表建置 ..........................................10. ‧. 3.1. 專利語料來源.................................................................................................. 10. y. Nat. 3.1.1 短句切割提升對列品質.......................................................................... 11. er. 技術名詞表建置.............................................................................................. 14. io. 3.2. sit. 3.1.2 專利文句的斷詞問題.............................................................................. 12. al. n. v i n Ch 使用 WordNet 過濾技術名詞表 16 i U e n g ............................................................. h c 小結.......................................................................................................... 16. 3.2.1 使用 E-HowNet 過濾技術名詞表 .......................................................... 15 3.2.2 3.2.3. 第四章 語料前處理及近義詞典建置 ..................................................17 4.1. 英文專利文句前處理...................................................................................... 17 4.1.1 英文技術名詞斷詞及標記...................................................................... 17 4.1.2 英文詞幹還原.......................................................................................... 18 4.1.3 英文關係樹剖析...................................................................................... 18. 4.2. 中文專利文句前處理...................................................................................... 19 4.2.1 中文技術名詞斷詞及標記...................................................................... 20 4.2.2 使用 Stanford Chinese Segmenter 斷詞 .................................................. 20 iv.

(7) 4.2.3 中文關係樹剖析...................................................................................... 21 4.3. 英漢動名詞組合對列...................................................................................... 21 4.3.1 英漢辭典合併.......................................................................................... 21 4.3.2 近義詞典建置.......................................................................................... 24 4.3.3 英漢動名詞組合對列流程...................................................................... 32. 第五章 翻譯模型公式 ..........................................................................35 5.1. 翻譯英文動詞公式說明.................................................................................. 35. 5.2. 翻譯英文名詞公式說明.................................................................................. 38. 5.3. 使用公式建立翻譯模型.................................................................................. 39. 5.4. 翻譯模型評量方式.......................................................................................... 40. 第六章. 翻譯英文動詞.................................................................................................. 41. 學. ‧ 國. 6.1. 治 政 大 41 使用專利文句語料建置翻譯模型 .......................................... 立. 6.1.1 前一百名英文高頻動詞分析.................................................................. 41 6.1.2 前二十二名具競爭力候選人之動詞分析.............................................. 45. ‧. 6.1.3 前十二及前六名具競爭力候選人之動詞分析...................................... 47 翻譯英文名詞.................................................................................................. 49. y. Nat. 6.2. sit. 6.2.1 前一百名英文高頻名詞分析.................................................................. 50. er. io. 6.2.2 前十九名具競爭力候選人之名詞分析.................................................. 52. al. v i n Ch 小結.................................................................................................................. 57 engchi U n. 6.2.3 前十及前五名具競爭力候選人之名詞分析.......................................... 55 6.3. 第七章 使用科學人雜誌語料建置翻譯模型 ......................................58 7.1. 翻譯英文動詞.................................................................................................. 58 7.1.1 科學人前二十五名英文高頻動詞分析.................................................. 58 7.1.2 科學人前九名具競爭力候選人之動詞分析.......................................... 60. 7.2. 翻譯英文名詞.................................................................................................. 61 7.2.1 科學人前二十五名英文高頻名詞分析.................................................. 62 7.2.2. 7.3. 科學人前五名具競爭力候選人之名詞分析.......................................... 63. 小結.................................................................................................................. 64. v.

(8) 第八章 受詴者實驗 ..............................................................................65 8.1. 實驗說明.......................................................................................................... 65. 8.2. 實驗一:提供題目英漢資訊的選擇題.......................................................... 66. 8.3. 實驗二:提供題目英漢資訊的填空題.......................................................... 67. 8.4. 實驗三:提供英漢資訊的動名詞組合選擇題.............................................. 68. 8.5. 小結.................................................................................................................. 69. 第九章 結論與未來展望 ......................................................................71 9.1. 結論.................................................................................................................. 71. 9.2. 未來與展望...................................................................................................... 72. 政 治 大. 參考文獻...................................................................................................74. 立. ‧. ‧ 國. 學. 附錄Ⅰ 口詴問題紀錄 ..........................................................................78. n. er. io. sit. y. Nat. al. Ch. engchi. vi. i n U. v.

(9) 圖目錄. 圖 1.1 系統流程圖 ........................................................................................................ 3 圖 4.1 一詞泛讀系統介面 .......................................................................................... 25 圖 4.2 以「和鳴」一詞解釋 E-HOWNET 詞彙架構 ................................................. 27 圖 4.3 E-HOWNET 義原組合流程 ............................................................................... 30 圖 4.4 使用義原組合找尋近義詞流程 ..................................................................... 30 圖 4.5 英漢動名詞組合對列範例 .............................................................................. 32. 政 治 大 圖 6.2 專利前 100 名動詞公式答題正確率 .............................................................. 43 立 圖 6.1 專利前 100 名英文高頻動詞之協同推薦答題正確率 .................................. 42. ‧ 國. 學. 圖 6.3 翻譯模型在專利前 100 名動詞推薦一個及五個答案之 F-MEASURE 成效.. 44 圖 6.4 專利前 100 名動詞答題拒絕率 ...................................................................... 44. ‧. 圖 6.5 正解位置於公式(4)組合比較 ......................................................................... 44. sit. y. Nat. 圖 6.6 專利前 22 名具競爭力候選人動詞之協同推薦答題正確率 ........................ 46. io. er. 圖 6.7 專利前 22 名動詞之答題拒絕率 .................................................................... 46. al. 圖 6.8 專利前 22 名動詞之公式正確率 .................................................................... 46. n. v i n C h ......................................................................... 圖 6.9 正解位置於公式(4)組合比較 46 engchi U 圖 6.10 翻譯模型在專利前 22 名動詞推薦一個及五個答案之 F-MEASURE 成效.. 47 圖 6.11 翻譯模型在專利前 12 名動詞推薦一個及五個答案之 F-MEASURE 成效 .. 49 圖 6.12 翻譯模型在專利前 6 名動詞推薦一個及五個答案時之 F-MEASURE 成效 49 圖 6.13 專利前 100 名英文高頻名詞之協同推薦答題正確率 ................................ 51 圖 6.14 專利前 100 名名詞公式答題正確率 ............................................................ 51 圖 6.15 正解位置於公式(9)組合比較 ....................................................................... 52 圖 6.16 專利前 100 名詞答題拒絕率 ........................................................................ 52. vii.

(10) 圖 6.17 翻譯模型在專利前 100 名名詞推薦一個及五個答案時之 F-MEASURE 成效 .............................................................................................................................. 52 圖 6.18 專利前 19 名具競爭力候選人名詞之協同推薦答題正確率 ...................... 54 圖 6.19 專利前 19 名名詞答題正確率 ...................................................................... 54 圖 6.20 專利前 19 名名詞答題拒絕率 ..................................................................... 55 圖 6.21 正解位置於公式(9)組合比較 ....................................................................... 55 圖 6.22 翻譯模型在專利前 19 名名詞推薦一個及五個答案時之 F-MEASURE 成效 .............................................................................................................................. 55 圖 6.23 翻譯模型在專利前 10 名名詞推薦一個及五個答案時之 F-MEASURE 成效 .............................................................................................................................. 57. 政 治 大. 圖 6.24 翻譯模型在專利前 5 名名詞推薦一個及五個答案時之 F-MEASURE 成效 57. 立. 圖 7.1 科學人前 25 名英文高頻動詞之協同推薦答題正確率 ................................ 59. ‧ 國. 學. 圖 7.2 科學人前 25 名動詞答題正確率 .................................................................... 59. ‧. 圖 7.3 科學人前 25 名動詞答題拒絕率 .................................................................... 59. sit. y. Nat. 圖 7.4 翻譯模型在科學人前 25 名高頻動詞推薦一個及五個答案時之 F-MEASURE 成效...................................................................................................................... 60. er. io. 圖 7.5 翻譯模型在科學人前 9 名動詞推薦一個及五個答案時之 F-MEASURE 成效. al. .............................................................................................................................. 61. n. v i n Ch 圖 7.6 科學人前 25 名英文高頻名詞之協同推薦答題正確率 ................................ 62 engchi U 圖 7.7 科學人前 25 名名詞答題正確率 .................................................................... 62 圖 7.8 科學人前 25 名名詞答題拒絕率 .................................................................... 62 圖 7.9 翻譯模型在科學人前 25 名名詞推薦一個及五個答案時之 F-MEASURE 成效 .............................................................................................................................. 63 圖 7.10 翻譯模型在科學人前 5 名名詞推薦一個及五個答案時之 F-MEASURE 成效 .............................................................................................................................. 64 圖 8.1 實驗一:受詴者及系統翻譯模型答題正確率 .............................................. 67 圖 8.2 實驗二:受詴者及系統翻譯模型答題正確率 .............................................. 68 viii.

(11) 圖 8.3 實驗三:受詴者及系統翻譯模型答題正確率 .............................................. 69 圖 8.4 三種實驗受詴者平均答題正確率及翻譯模型表現評比 .............................. 69 圖 8.5 三組實驗之答題情形比較 .............................................................................. 70. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. ix. i n U. v.

(12) 表目錄. 表 3.1 英漢專利文句對應關係 .................................................................................. 10 表 3.2 英漢專利短句對列範例 .................................................................................. 11 表 3.3 英文技術名詞斷詞範例 .................................................................................. 13 表 3.4 中文技術名詞斷詞範例 .................................................................................. 13 表 3.5 技術名詞表內容格式 ...................................................................................... 14 表 4.1 英文標記技術名詞前後對應範例 .................................................................. 18. 政 治 大 表 4.3 英文關係樹範例 .............................................................................................. 19 立 表 4.2 英文文句詞幹還原 .......................................................................................... 18. ‧ 國. 學. 表 4.4 中文技術名詞標記範例 .................................................................................. 20 表 4.5 中文一般詞彙斷詞範例 .................................................................................. 20. ‧. 表 4.6 中文關係樹範例 .............................................................................................. 20. sit. y. Nat. 表 4.7 牛津字典內容範例 .......................................................................................... 22. io. er. 表 4.8 譯典通字典內容範例 ...................................................................................... 23. al. 表 4.9 合併字典範例 .................................................................................................. 24. n. v i n Ch 表 4.10 一詞泛讀回傳結果 ........................................................................................ 26 engchi U 表 4.11 E-HOWNET 之義原編寫情況一 ..................................................................... 28 表 4.12 E-HOWNET 之義原編寫情況二 ..................................................................... 29 表 4.13 近義詞典內容格式範例 ................................................................................ 31 表 4.14 以圖 4.5 為例的對列說明:「REMOVE」 ..................................................... 33 表 4.15 以圖 4.5 為例的對列說明:「PORTION」 ..................................................... 34 表 4.16 英漢動名詞對列格式 .................................................................................... 34 表 5.1 翻譯英文動詞公式於專利語料之英漢動名詞組合對應資訊 ...................... 36. x.

(13) 表 5.2 翻譯英文名詞公式於專利語料之英漢動名詞組合對應資訊 ...................... 38 表 6.1 專利前一百名英文高頻動詞及其出現次數 .................................................. 42 表 6.2 專利前二十二名具競爭力候選人之動詞 ...................................................... 45 表 6.3 前十二名具競爭力候選人之動詞 .................................................................. 48 表 6.4 前六名具競爭力候選人之動詞 ...................................................................... 48 表 6.5 前一百名英文高頻名詞及其出現次數 .......................................................... 50 表 6.6 前十九名具有競爭力候選人之名詞 .............................................................. 53 表 6.7 前十名具有競爭力候選人之名詞 .................................................................. 56 表 6.8 前五名具有競爭力候選人之名詞 .................................................................. 56. 政 治 大. 表 7.1 科學人前二十五名英文高頻動詞及其出現次數 .......................................... 59. 立. 表 7.2 科學人前九名具有競爭力候選人之動詞 ...................................................... 61. ‧ 國. 學. 表 7.3 科學人前二十五名英文高頻名詞及其出現次數 .......................................... 62. ‧. 表 7.4 科學人前五名具競爭力候選人之名詞及其翻譯對應 .................................. 64 表 8.1 實驗一題目範例 .............................................................................................. 66. y. Nat. io. sit. 表 8.2 實驗二題目範例 .............................................................................................. 67. n. al. er. 表 8.3 實驗三題目範例 .............................................................................................. 68. Ch. engchi. xi. i n U. v.

(14) 第一章. 緒論. 1.1 研究背景與動機 當今的社會可視為一個地球村,即使住在不同的國家、使用不同的語言,無論是. 政 治 大 及表述的語言特質成為世界上不同語言使用者通用的溝通語言。因應世界文化潮 立 商業貿易或是文化交流,人們相互溝通的情形相當普遍;英文更因為其容易理解. 流,除了自身國家的母語,英文成為最多人學習的語言。. ‧ 國. 學. 然而許多研究指出,將英文作為第一外語學習者 (EFL learners: English as a. ‧. Foreign Language learners) 受到自身國家母語文法影響,容易在英文動詞及名詞. sit. y. Nat. 的搭配組合上產生誤解及用法。例如,「take pills」一詞若依照中文使用者的直. al. er. io. 覺,可能會翻譯解釋為「拿藥」而非正確對應至「吃藥」。因此,我們對於英文. v. n. 中常用的動名詞組合與之對應至中文的關係感到有趣,並想透過大量正確對應的. Ch. engchi. i n U. 英漢平行語料庫,找尋英漢動名詞組合 (V-N-collocation) 適切的對應關係。 若提到大量的語料,我們首先聯想到了專利文書。專利文書是一種宣示並提 供專利保護的重要文件。世界社會持續地進步,許多不斷創新的發明與技術被撰 寫成為專利文書。當發明一項專利時,專利發明者為了讓世界各國使用不同語言 者可以共同瞭解這項專利,同時也向外擴張專利的保護領域,發明者可以提出多 種語言版本的專利文書以保障自己的技術。專利文書的重要性更可以從 Google Patents beta[8]提供的英文專利文書檢索服務看出;Google[7]號稱其專利資料庫蒐 集了七百萬篇以上的專利文書,以豐富的收藏量宣示他們強大的檢索服務。既然 1.

(15) 單語言的專利文書數量如此龐大,那麼同時具有多種語言版本的專利文書也就不 在少數。如果我們將專利文句正確解析、並排除技術名詞在外,剩餘的文句結構 及內容不失為一個值得運用的語文使用參考資料;特別是許多專利文書具有英漢 對應的語言版本,可以作為雙語語料使用。因此,我們可以看待跨語言的專利文 書為資料量豐富的平行語料庫。由於我們希望有極豐沛的語料,能讓本研究統計 並分析這些常見英文動名詞組合與中文動名詞之間的對應關係,因此本研究利用 專利文書豐富的英漢對應資料,並排除技術名詞的影響,詴圖挖掘一般常用英漢 動名詞組合對應的用法。. 政 治 大 析結果,本研究另外以相同方式分析科學人雜誌英漢對照電子書[24],以比較不 立 除了分析英漢專利文句平行語料庫[13],為了比較不同語料是否有不同的分. ‧ 國. 學. 同語料間是否有不同特性。本研究將英漢互為翻譯的文件視為一體,英文及中文 的動名詞組合作為我們的觀察對象,建構由真實世界語料反應的語言翻譯模型。. ‧. n. al. er. io. sit. y. Nat. 1.2 研究方法. i n U. v. 下頁圖 1.1 為本研究的系統流程圖。我們使用技術名詞表將英漢平行語料庫進行. Ch. engchi. 技術名詞斷詞,句子中剩餘未斷詞部分,我們使用 Stanford Chinese Segmenter[14] 對於中文文句斷詞,英文文句則使用 Stanford Parser[15]及其字典模型進行詞幹 還原。接著運用 Stanford Parser 將斷完詞後的句子進行結構剖析,得到關係樹結 構 (dependency tree) ,再從關係樹結構取得句子中的動名詞組合。中文及英文 文句都取得各自的動名詞組合後,本研究使用牛津現代英漢雙解詞典[4]、Dr.eye 譯典通線上字典[5]、E-HowNet[6]及一詞泛讀系統[21]製作成近義詞典,並使用 近義詞典的資訊對列英漢動名詞組合。對列完成的英漢動名詞組合為本研究訓練 及測詴模型的資料,最後產生系統翻譯模型。 2.

(16) 技術名詞 斷詞. 英漢平行 語料庫. 一般詞彙 斷詞. 文句剖析. 訓練資料 動名詞組合 對列. 系統翻譯. 模型訓練. 模型. 測詴資料 圖 1.1 系統流程圖. 立 研究成果. ‧ 國. 學. 1.3. 政 治 大. 本研究分析兩套同屬科技類但是不同性質的英漢平行語料庫:專利文句及科學人. ‧. 雜誌,以相同的方式處理語料、建置模型及評量翻譯效果。本研究分別針對英文. y. Nat. sit. 動名詞組合中的動詞與名詞翻譯成中文,並設想加入中文對應的資訊是否能增進. n. al. er. io. 翻譯效能,因此進一步各別取出較難翻譯的動詞和名詞詴探翻譯模型成效;實驗. i n U. v. 結果顯示本研究所提出公式組合翻譯模型能在提供五個答案時幾乎都能包含正. Ch. engchi. 確的翻譯答案,且經過我們的公式組合可以將正確答案往前排序。目前實驗顯示 增加中文對應資訊時,固然有助於提高翻譯品質,但是效果暫不明顯,有待更精 確的實驗設計來確認英文中譯詞對於英文動詞與名詞的翻譯貢獻度。. 1.4. 論文架構. 在第一章的部分我們描述研究背景、研究方法成果及系統流程結構,第二章則介 紹與專利文書、英文教學輔助翻譯、使用子結構輔助翻譯及英文動名詞組合等相 3.

(17) 關研究。第三章交代本研究所使用的專利語料來源及技術名詞表的建置方法。第 四章描述專利語料的前處理過程;第五章介紹本研究翻譯模型的原理公式。第六 章與第七章個別使用專利文句和科學人雜誌語料建置翻譯模型並分析比較翻譯 成效。另外在第八章設計了三樣實驗請具有資工背景的受詴者參與,並比較受詴 者及本研究翻譯模型的表現。第九章為本研究的結論及未來展望。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 4. i n U. v.

(18) 第二章. 文獻探討. 文獻探討部分分為四個主題,2.1 小節介紹專利文書的相關研究;2.2 小節則為英 文教學輔助翻譯的相關研究;2.3 小節描述了使用文句子結構資訊輔助翻譯的相. 政 治 大. 關研究,2.4 小節則為針對英文動名詞組合的相關研究。. 學. ‧ 國. 立 2.1 專利文書之相關研究. ‧. 為了發掘專利文書的不同屬性以作參考,了解專利文書的相關研究相當重要;以. sit. y. Nat. 語言的考量而言,專利文書除了作為保護智慧財產權的文件,其文件內容及架構. al. n. 行語料庫。以下是針對專利文書作相關研究的介紹。. Ch. engchi. er. io. 其實可以作多面向的語言特性分析、系統的分析語料或是產生專利雙語對應的平. i n U. v. 同一篇專利文書可以發表不同語言的版本,而不同語言版本之間通常為全文 篇幅的對應,文字細節部分的對應可能並不一致。田侃文[23]使用中英文互為翻 譯關係的專利文書當作主要語料,並利用動態規劃演算法進行中英文句對列,設 法將中文全文文章與英文全文文章的翻譯對應拉抬至中文句子對列英文句子的 文句對列層級。本研究使用此系統,將英漢翻譯的專利長句視為一篇文章,由此 系統產生短句之間的對列,提升對列文句的品質,在第三章會有更詳細的說明。 曾元顯[26]針對五十萬筆漢英專利平行語料文句,提出從語料中自動擷取中 文與英文互為翻譯關係詞彙的系統。其使用了相互資訊 (mutual information) 、 5.

(19) 相關分析 (correlation coefficient) 、可能性比例 (likelihood ratios) 、Dice 係數 (dice. coefficient). 、 分 數 累 積. (fractional. count). 及. EM. 分 析. (Expectation-Maximization analysis) 進行分析,發現使用 EM 的效果最佳。該研 究亦將原本已有的中英技術名詞詞對組合加長比對,以擴充新的技術名詞詞對。 Lu [11]提出如何建置英漢專利文句對列的語料庫。該研究從網路上蒐集優良 的中英專利文書平行語料,再根據專利文書的目次結構(例如:標題、摘要及專 利範圍等)將專利文書拆解成多個小單位。其集結了三種作法:使用雙語辭典比 對詞彙、刪除過長的句子及使用 IBM M-1 為語言模型建立文句對列。其研究結 果顯示準確率最高可達 97%。. 學. ‧ 國. 立. 政 治 大. 2.2 英文輔助翻譯教學之相關研究. ‧. 如果跳脫出專利文書的世界,我們所注重的動名詞共現性或是其他詞彙間的關聯. y. Nat. sit. 性是為真實世界生活中的問題。許多研究對於英文學習者容易共同犯錯的現象及. n. al. er. io. 特徵有不同的分析及統計方式;在教育目的上,如何增進英文學習者的英文能力. i n U. v. 已出現許多學習系統,以下是針對語言教育於詞彙特性的介紹。. Ch. engchi. Jian[10]使用 British NationalCorpus (BSC) 作為主要分析的英文語料,並運 用其英文文句的子句結構 (clause parse) 及組塊 (chunking) ,提取出英文動名詞 片語(包括 VN、VPN 及 VNP) ,計算動詞與名詞之間的共現性進而列表出英文 語料中動名詞片語的共現性情況。該研究另外使用 Sinorama Parallel Corpus (SPC) 英漢平行語料庫,其運用詞彙對列技術 (word alignment) 來找尋中英文互為翻譯 的動名詞片語。該研究將詞彙對列的方法為:首先判定英文名詞的中文翻譯,再 依據中文翻譯句中離該中譯名詞最近的動詞,視為與英文動詞相對應的中文翻 譯。 6.

(20) Chang [2]延續了 Jian[10]的基本做法。其針對把英文作為第一外語學習的中 文使用者製作一套英文寫作校正系統。將英文作為第一外語學習者容易錯誤使用 英文的動名詞片語組合,為了改善這個情形,該研究讓使用者能將寫好的英文文 章輸入至該系統,系統便可偵測動名詞片語有無誤用之處,若有則提醒修正。該 研究蒐集了正在學習英文之中文使用者的寫作文章當作學習者語料庫 (learner corpus) ,從中發現常見的錯誤用法;另外蒐集正確的英文語料當作正確答案的 參考語料庫 (reference corpus) 。其主要方法為:依據參考語料庫中文句的子句 結構 (clause parse) 及組塊 (chunking) ,找出相鄰的動詞片語 (VP) 及名詞. 政 治 大 至系統,系統便找出當中的動名詞片語,查詢其共現性分數,若分數低於門檻值, 立. (NP) ,統計他們的共現性並輸出成結果。當系統使用者將寫好的英文文章輸入. 則視為寫法錯誤;該系統將錯誤的動詞翻譯成中文詞彙,重新翻譯回英文詞彙,. ‧ 國. 學. 再將這些英文動詞替換片語中原本的動詞成為新的片語,並重新查詢共現性分. ‧. 數,得分高者則為系統建議的校正答案。. sit. y. Nat. Gamon[12]沒有像 Chang[2]去蒐集使用者語料庫、或是像 Jian[10]一樣運用. al. er. io. 英漢平行語料庫;Gamon 使用了 English Encarta encyclopedia 語料庫作為主要的. v. n. 英文語料。該研究利用決策樹及 5-grams 的資訊,針對介係詞及冠詞訓練語言模. Ch. engchi. i n U. 型。該研究也提出了一套系統,只要系統使用者輸入的英文句子有錯誤的冠詞或 介係詞,系統便去計算冠詞或介系詞是否該出現或改變,才能接近真正答案的機 率;如果將寫錯的冠詞或介係詞改變成系統推薦的詞彙的機率值超過門檻值,則 將之作為系統的推薦修正答案。. 7.

(21) 運用文句子結構進行翻譯之相關研究. 2.3. 使用不同的語料會發現語料一些特別的屬性,多樣化的研究方法從不同角度觀看 問題,都有不一樣的研究成果。如何找到不同語言之間的翻譯關係,有學者著重 於利用文句子結構以限定翻譯範圍,依循文法規則尋找翻譯對應。以下介紹使用 子結構幫助日英翻譯及使用中英翻譯結果改善英文剖析器的相關研究。 YOKOYAMA[20]針對專利文書的語料進行分析,該研究指出,專利文句的 結構複雜且字數偏長,要進行分析及翻譯都是困難的。其使用日本專利局 (Japan. 政 治 大 的專利平行語料庫。該研究假設不同的 Japanese case frame 可能會對應到不同的 立 Patent Office) 提供的公開專利文書並採用摘要部分,再利用人工翻譯得到日英. 英文翻譯,進而分析這樣的假想是否成立。如果不同的 case frame 組合會有不同. ‧ 國. 學. 的翻譯結果,則可以使用 case frame 資訊作為翻譯詞彙的挑選及限制條件。該研. ‧. 究發現,日文的傳統動詞並不容易從此方法得到對應的英文翻譯,如果是日本名. sit. io. al. er. 果。. y. Nat. 詞常轉當動詞使用的動詞,則較有多義的情形,使用 case frame 有較好的翻譯效. v. n. 英文的子句修飾問題 (prepositional phrase attachment problem) 一直是機器. Ch. engchi. i n U. 翻譯或是剖析器所欲解決的問題,Chen[3]便提出使用中文的語言特性輔助以解 決這個問題的方法。英文及中文都是具備主謂賓結構 (SVO: subject verb object) 的語言,該研究認為,中文不論在前置詞、後置詞及所有格都有主謂賓結構的特 性:即中文詞彙的出現順序有較明顯的修飾關係(前面的詞彙通常為修飾後面出 現的詞彙)。其使用詞彙對列技術將中英文的關係樹進行對列,統計其對列關係 及出現次數,並將高頻的出現關係當作規則,以此規則進行中英文的子句翻譯。 該研究的實驗指出,採用中文語言的特性確實有助於提升英文剖析器解決介詞短 語問題。 8.

(22) 2.4. 動名詞組合共現性之相關研究. 動詞與名詞的組合現象是許多不同領域的學者都感興趣的議題;教育學者關心於 如何教導及糾正學生正確使用片語,語言學家善於分析片語的特徵,心理學家分 析挖掘人類使用片語的習慣及背景等等。在這裡,我們介紹資訊科學領域的學者 對於動名詞的想法及相關研究。 Venkatapathy[16]首先介紹了 multi word expressions (MLEs) ,即為從字面上 看不出實際表達意義的詞彙。有很大一部分的 MLEs 具有文法結構性但是沒有語. 政 治 大 很 難 區 分 是 為 組 合 性 (compositional) 立. 義合成關係。MLEs 其中一個子集就是動名詞組合,也是該研究主要分析的目 標 。 MLEs. 或為非組合性. (non-compositional) , 在 早 一 些 時 期 的 研 究 方 式 不 外 乎 是 考 慮 頻 率. ‧ 國. 學. (frequency) 、互信息或是使用 LSA 模型等相關數據作分類問題;該研究則將這. ‧. 些數據都加以考慮並列入使用。該研究聘請兩位人員進行人工標記:詞彙是為組. y. Nat. 合性或是非組合性的程度,並將上述的數據當作特徵,作成向量再以 SVM 排序。. n. al. er. io. sit. 最後發現合併特徵比貣只單一考慮任一特徵都還要貼近人工標記的答案。. Ch. engchi. 9. i n U. v.

(23) 第三章. 專利語料來源與技術名詞表建置. 本章主要說明專利資料的處理,3.1 小節說明我們的專利語料來源及篩選方式取 得高品質的專利句對;3.2 小節描述如何建置並過濾取得較高品質的技術名詞表。. 立. 3.1 專利語料來源. 政 治 大. ‧ 國. 學. 本研究使用 Patent Translation Task at NTCIR-9[13]一百萬筆英漢對照的專利文句. ‧. 作為研究語料,中文部分為簡體中文。該份語料分為兩個檔案,一為英文專利文. sit. y. Nat. 句,另一則為對應英文句的中文專利文句,並使用編號末碼標示對應關係,如表. al. n. 名詞斷詞問題。. er. io. 3.1 所示。3.1.1 小節敘述進行短句切割求得較高品質對應,3.1.2 小節則描述技術. Ch. engchi. i n U. v. 表 3.1 英漢專利文句對應關係 英文專利文句. 中文對應專利文句. WO9830090-2 First, the antimicrobial agent must be soluble or dispersible in the cyanoacrylate composition at the concentrations necessary to effect antimicrobial properties.. CN1246032-2 第一,抗微生物剂在腈 基丙烯酸酯组合物内必须是可溶或可 分散的,其浓度需要达到能产生抗微生 物性质。. 10.

(24) 表 3.2 英漢專利短句對列範例 英文專利文句. 中文專利文句. Accordingly, in one of its composition 原 aspects, this invention is directs to an 始 antimicrobial cyanoacrylate 長 composition which comprises: (a) a 句 polymerizable cyanoacrylate ester;. 因此,在本发明组合物的其中一个方 面,本发明涉及一种抗微生物组合 物,它含:(a)可聚合的腈基丙烯酸 酯; 因此,. Accordingly,. 在本发明组合物的其中一个方面, in one of its composition aspects, 短 句 this invention is directs to an 本发明涉及一种抗微生物组合物,它 cyanoacrylate 對 antimicrobial 含: 列 composition which comprises: (a) a polymerizable cyanoacrylate (a)可聚合的腈基丙烯酸酯; ester;. 政 治 大. 立. ‧ 國. 學. 3.1.1 短句切割提升對列品質. ‧. 由於專利文句的字數偏長、文句結構也較為複雜,如果直接使用長句進行英漢動. y. Nat. io. sit. 名詞組合對列,不僅對列的時間加長,產生的對列效果也會受到句長及結構影響. n. al. er. 而降低結果品質。為了改善對列品質可能下降的問題,我們提出這樣的觀點:把. Ch. i n U. v. 每一個長句視為一篇短文章,根據長句中暫停或結束的標點符號(例如:逗號、. engchi. 分號、冒號、驚嘆號、問號及句號)作為句子的終點;如此,一個長句即可視為 一篇由多句短句組合而成的短篇文章。本研究使用專利文句對列系統[23],將英 文及中文的專利文句依據標點符號拆成短句組合,得到短句之間更細微的對應關 係。短句不一定是一對一的對應關係,該系統可支援至四對一句的翻譯模組,因 此我們相信該系統可以為本研究取得高品質的短句對列。短句對列的範例如表 3.2 所示。. 11.

(25) 專利文句對列系統會計算英漢文句對列的對應分數,因此我們設定值得信賴 的門檻值取得較高對列品質的短句,作為我們的使用資料。在原本的一百萬組長 句對中,超過本研究設定的門檻值有 338846 組長句對;這三十三萬的長句對又 被拆成 1148632 組短句對為本研究所使用。這些短句對經過人工抽樣檢驗,我們 相信是具有正確翻譯關係的英漢對列文句。. 3.1.2 專利文句的斷詞問題. 政 治 大 詞的資訊,以獲得常用的英漢動名詞組合,我們必頇將技術名詞正確標記以便去 立. 專利文書最大的特色,就是其內容包含許多技術名詞;而本研究為了排除技術名. 除。技術名詞與一般詞彙(這裡所指稱的「一般詞彙」是指日常生活中對話、寫. ‧ 國. 學. 作或閱讀所習慣的用詞。)性質不同,不同專業領域有不同的技術名詞,而技術. ‧. 名詞通常含有知識性及專業意義;非專業領域、不熟悉技術名詞用法的人,如果. y. Nat. 要認知技術名詞的涵義有其困難性。就人類的閱讀上而言,我們需要有基本的詞. er. io. sit. 彙單位判斷機制;例如,在英文專利文句中看到「adaptation level theory(適應 水準理論)」這三個英文詞彙,如果閱讀者具有相關的專業背景,就不會把三個. al. n. v i n 詞彙分開來閱讀,因為這三個詞彙的出現具有特定專業意義,是一個技術名詞, Ch engchi U 單位是一個複合詞。若是在中文專利文句出現「適應水準理論」,我們可能會誤. 解成「適應」為動詞、 「水準理論」是一個詞彙,或是解讀成「適應」 「水準」的 「理論」,一樣需要有專業的知識才會知道這六個字是為一個技術名詞。 如果人類要讀懂技術名詞需要有「知道這是技術名詞」的基本條件,那麼透 過技術名詞表將專利文句中的技術名詞斷詞,就是讓剖析文句的系統能夠「知道」 分割出來的是「技術名詞」,而不是當成一般詞彙處理。因此,得到較高品質的 短句對後,如何將專利文句正確斷詞是我們接下來要解決的問題。 12.

(26) 如果直接使用一般的方式斷詞,會造成技術名詞被錯誤切割、失去專利文句 及技術名詞的原意,錯誤標記詞性,甚至造成文句結構被嚴重扭曲,再經過剖析 器就會得到錯誤的剖析結果,對於我們想要尋找動名詞組合是很大的阻礙。因 此,將技術名詞完整切割、並指定其詞性為名詞為最能幫助文句保持原意及被正 確解析的方法。為了不讓技術名詞被錯誤斷詞,我們需要建立一個技術名詞資料 表,以供技術名詞斷詞的比對;如果詞彙比對成功,便將專利文句中的技術名詞 切割並標記之。我們以表 3.3 來說明英文技術名詞的斷詞問題。如果直接將未斷 詞例句直接使用 Stanford Parser[15]進行剖析,Stanford Parser 會將該技術名詞斷. 政 治 大 3.4 則為中文技術名詞的斷詞範例,文句中若包含化學合成物,通常會是關鍵的 立. 為好幾個詞彙及詞性,使得技術名詞的特色消失,且剖析成不正確的結構樹。表. 技術名詞。目前最常被用到的斷詞系統為中央研究院的中文斷詞系統[22],但若. ‧ 國. 學. 直接將範例詞彙「羰基化戊烯腈」送至中研院斷詞系統,其回傳的斷詞結果不但. ‧. 有錯誤,甚至有罕見字「氰」的編碼錯誤的問題。由上述的兩則範例可知,正確. y. Nat. 切割技術名詞是基本且重要的步驟。為了求得更精確的技術名詞以增進斷詞效. er. io. al. n. 法。. sit. 能,在下一節本研究將描述我們所蒐集的技術名詞表來源及技術名詞表的過濾方. i n C 表 3.3 英文技術名詞斷詞範例 hengchi U. 原始詞彙. abbreviated address calling. 正確斷詞. abbreviated address calling/NN. 錯誤斷詞. abbreviated/NN. address/NN. v. calling/VBG. 表 3.4 中文技術名詞斷詞範例 原始詞彙. 羰基化戊烯腈. 正確斷詞. 羰基化戊烯腈/NN. 錯誤斷詞. 羰 (FW) 基 (Nc) 化 (VG) 戊 烯 (Na) &#(FW) 3 3 0 9 6 (Neu) ;. 13.

(27) 表 3.5 技術名詞表內容格式 英文技術名詞. 對應的中文技術名詞. acceptable price range. 可接受價格範圍. accessory olfactory bulb. 副嗅球. accessibility heuristic accessibility heuristic. 易提取性捷思法 易觸及性捷思法. anamnia,Anamniota. 無羊膜動物. densitometer; scanning. 掃描密度計. demodulator; product; product detector demodulator; product; product detector. 乘積解調器 乘積檢波器. 立. 政 治 大. ‧ 國. 學. 3.2 技術名詞表建置. ‧. 本研究使用國家教育研究院學術名詞資訊網[25]公開的技術名詞檔案整合為技. sit. y. Nat. 術名詞表;我們取得 138 個不同領域的技術名詞 Excel 格式檔案,檔案大小共有. n. al. er. io. 177MB,並統整成技術名詞表。在技術名詞表中,每一個英文技術名詞都有與其. i n U. v. 對應的中文技術名詞,且對應關係並不唯一,本研究將技術名詞表的翻譯詞對規. Ch. engchi. 列成一對一的形式,如表 3.5 所示。3.2.1 與 3.2.2 小節分別描述如何使用 E-HowNet[6]及 WordNet[17]過濾技術名詞表,3.2.3 為小結論。 表 3.5 以粗框圈選的技術名詞代表同一個英文技術名詞對應到不只一個中文 技術名詞翻譯。在這樣的情況下,我們把一對多的對應關係分列為一對一的對應 模式,如「accessibility heuristic」對應到兩個不同的中文技術名詞,則在技術名 詞表中會拆成兩筆紀錄儲存。以灰底及粗斜體標示的末四列,其英文技術名詞內 含的標點符號具有不同的標示意義:倒數第四列的逗號表示前後詞彙是相等的 (anamnia 等同 Anamniota) ;而倒數第三列的分號表示分號後面的詞彙應搬到分 14.

(28) 號前面的詞彙之前(scanning densitometer 等同於「掃描密度計」);末兩列的分 號意義就又不一樣了,第一個分號表示「product」應搬至「demodulator」之前 形成「product demodulator」並對應至中文技術名詞的「乘積解調器」 ,而第二個 分號表示「product detector」應對應至「乘積檢波器」 。由上述的內容可以發現, 英文技術名詞的相隔符號所代表的意義複雜,即使人為都不容易辨認其符號意 義,我們亦無法精通各個專業領域以完全解讀符號帶有的實屬分隔意義對英文技 術名詞作拆解。技術名詞表中具有分隔符號的英文技術名詞僅佔極少的比例,因 此本研究不針對英文技術名詞的標點符號作拆解處理,僅將之簡單視為一筆技術. 政 治 大. 名詞。我們的技術名詞表依照上述的規則,總共記錄了 804068 個英漢對應的技 術名詞詞對。. 立. ‧ 國. 學. 我們發現,在技術名詞表當中,無論是英文或是中文,都有些許的技術名詞 更常被當作一般用語詞彙。我們嘗詴直接以 804068 個詞對將專利文句作斷詞,. ‧. 發現句子中幾乎每一個詞都被當作是技術名詞;許多詞彙為一般常用詞彙,卻被. Nat. sit. y. 錯誤標記為技術名詞。探究其原因,發現從學術名詞資訊網取得的檔案含有不少. n. al. er. io. 一般常用詞彙。為了過濾這些詞彙,本研究提出使用 E-HowNet 及 WordNet 來幫. i n U. v. 助我們刪除一般詞彙,留下技術名詞於技術名詞表,以下兩小節作更多說明。. Ch. engchi. 3.2.1 使用 E-HowNet 過濾技術名詞表 中央研究院所開發的 E-HowNet 是根據 HowNet[9]的語義義原知識本體架構修改 建構而成, E-HowNet 內含 88075 個中文詞彙。本研究認為, E-HowNet 所收 錄的中文詞彙可以代表我們日常生活中一般常用的詞彙,使用這些詞彙幫助過濾 技術名詞表是可行的方式之一。如果技術名詞表中的中文技術名詞也有出現於 E-HowNet,我們相信該詞對應歸類為非技術名詞,當作一般詞彙使用的機率較 15.

(29) 大,因此除去該詞對。E-HowNet 共識別出技術名詞表中有 71333 個詞對更適合 被當成一般詞彙而非技術名詞。. 3.2.2 使用 WordNet 過濾技術名詞表 使用 E-HowNet 過濾技術名詞表是從中文的角度發想,我們也頇對稱地檢驗技術 名詞表中是否內含英文的一般詞彙。我們相信 WordNet 包含的英文詞彙可以視 為一般日常生活的英文用語代表,因此,除去技術名詞表與 E-HowNet 的交集後,. 政 治 大 中含有 154754 個英文詞彙及英文短片語。經過 WordNet 的比對,總共過濾了 立. 我們改以英文詞彙的角度觀看,採用 WordNet 來幫助過濾技術名詞表。WordNet. 80220 個詞對。雖然除去了八萬多個詞對,但是有許多詞對的英文詞彙是重複. ‧ 國. 學. 的,實際上並沒有真的除掉八萬多個英文詞彙,僅除去 29861 個英文詞彙。. ‧ y. sit. io. er. 小結. Nat. 3.2.3. al. 經過 E-HowNet 和 WordNet 的檢測,我們的技術名詞表約略除去了 14%的詞對,. n. v i n Ch 現存有 690640 個技術名詞詞對。我們相信這六十九萬個技術名詞詞對具有較高 engchi U 的品質,即為較準確的專業領域用語,降低與一般詞彙產生斷詞衝突的機率。. 16.

(30) 第四章. 語料前處理及近義詞典建置. 在本章我們介紹專利語料的前處理及本研究所使用的辭典建置方式。4.1 小節及 4.2 小節各自描述英文及中文專利文句的前處理,4.3 小節則描述建置近義詞典以. 政 治 大 Chinese Segmenter[14]則為版本 2008-05-21。 立. 進行英漢動名詞組合對列。本研究使用的 Stanford Parser[15]為版本 1.6.5,Stanford. ‧ 國. 學 ‧. 4.1 英文專利文句前處理. n. al. er. io. 記,4.1.2 描述詞幹還原,4.1.3 則為英文關係樹剖析。. sit. y. Nat. 在這一小節主要描述英文專利文句的前處理過程。4.1.1 小節進行技術名詞標. Ch. engchi. i n U. v. 4.1.1 英文技術名詞斷詞及標記. 技術名詞多為複合詞彙,因此我們使用長詞優先的方式,從技術名詞表比對專利 文 句 的 詞 彙 , 一 經 比 對 成 功 則 將 技 術 名 詞 標 記 並 使 用 Stanford Parser 的 TaggedWord() 函數指定詞性為名詞,以便除去該資訊。結果如下頁表 4.1 所示, 以粗體標示並以「<*** ***>」前後標記者即為比對成功的技術名詞。. 17.

(31) 表 4.1 英文標記技術名詞前後對應範例 原始英文專利文句. 技術名詞斷詞後文句. Such materials include, by way of such material include , by way of example , example, inorganic materials such as <***inorganic materials***> such as type Type 1 glass (including amber glass). 1 glass ( include <***amber glass***> ) . 表 4.2 英文文句詞幹還原 原始文句. Such materials include, by way of example, inorganic materials such as Type 1 glass (including amber glass).. 詞幹還原. such material include , by way of example , <***inorganic materials***> such as type 1 glass ( include <***amber glass***> ) .. 4.1.2 英文詞幹還原. 立. 政 治 大. ‧ 國. 學. 完 成 技 術 名 詞 斷 詞 之 後 , 根 據 Stanford Parser FAQ 的 建 議 , 我 們 使 用 englishPCFG.ser.gz 這部字典模型剖析英文專利文句,能夠較快速獲得效果不錯. ‧. 的剖析結果。本研究亦運用 Stanford Parser 的 Stemmer() 函數進行詞幹還原。在. sit. y. Nat. 這個步驟,已經完成斷詞程序的技術名詞並不會被更動,且會維持其名詞詞性;. al. er. io. 剩 下 未 斷 詞 的 文 句 部 分 則 會 進 行 詞 幹 還 原 , 且 令 Stanford Parser 依 據. v. n. englishPCFG.ser.gz 字典模型斷詞及標記詞性。結果如表 4.2 所示,粗體標示並. Ch. engchi. i n U. 以「<*** ***>」前後標記者為技術名詞,灰底標示者為詞幹還原的前後比較示 意。. 4.1.3 英文關係樹剖析 確認詞彙單位及詞性標記步驟之後,本研究繼續使用 Stanford Parser 剖析文句得 到關係樹結構,Stanford Parser 的關係樹剖析總共含有 27 種文法關係的標記。 一個句子經過剖析可以得知這個句子含有幾種文法關係,下頁表 4.3 即為關係樹 18.

(32) 表 4.3 英文關係樹範例 輸入句 My dog also likes eating sausage.. 關係樹 樹狀圖. poss(dog-2, My-1) nsubj(likes-4, dog-2) 關係樹 advmod(likes-4, also-3) 結構 xcomp(likes-4, eating-5). 政 治 大 範例。27 種文法關係中,「DIRECT_OBJECT」可以標記出文句中動詞片語的動 立 dobj(eating-5, sausage-6). ‧ 國. 學. 詞及其述語對象,並以「dobj」為形式;例如表 4.3「My dog also likes eating. sausage.」一句中,動詞「eat」的對象是名詞「sausage」,因此這兩個詞彙之間. ‧. 的關係會以「dobj(eating-5, sausage-6)」的形式標記表達關係;其中數字 5 與 6. sit. y. Nat. 代表詞彙在文句中出現的位置次序。. n. al. 到這個句子中互有描述關係的動名詞組合。. Ch. engchi. er. io. 句子經剖析後,透過抽取其關係樹的「DIRECT_OBJECT」表示式,即可得. i n U. v. 4.2 中文專利文句前處理 中文有斷詞的問題,與處理英文的方式不盡相同。英文的書寫方式為詞彙之間有 空白相隔,但是中文的書寫方式則是字與字左右相接、其中並無間隔空隙。因此, 中文除了技術名詞,一般詞彙也需要斷詞處理,將詞彙作為基本單位才能進行下 一步的關係樹剖析。我們一樣使用技術名詞表比對中文專利文句,將技術名詞斷 詞並標記詞性為名詞。剩下的文句部分大多為一般常見詞彙,本研究使用 Stanford 19.

(33) Chinese Segmenter[14]進行斷詞。以下各就兩小節 4.2.1 及 4.2.2 依序描述斷詞方 法:技術名詞及一般詞彙斷詞,4.2.3 小節則描述中文關係樹剖析。. 4.2.1 中文技術名詞斷詞及標記 中文技術名詞斷詞與標記和英文技術名詞的處理方式相同,以長詞優先的方式, 將中文專利文句比對技術名詞表,並使用 Stanford Parser 的 TaggedWord()函數將 技術名詞指定為名詞詞性。如表 4.4 所示,粗體並以「<*** ***>」標示者為比 對成功的技術名詞。. 學. 4.2.2. ‧ 國. 立. 政 治 大. 使用 Stanford Chinese Segmenter 斷詞. ‧. 標記完技術名詞之後,剩下未斷詞的文句部分,我們使用 Stanford Chinese. 斷詞結果. 輸入句 關係樹 結構. sit. n. 技術名詞 標記. al. er. 表 4.4 中文技術名詞標記範例 包括(但不限于)弹性蛋白酶的释放以及超氧化物的产生和活化的 特性。 包括(但不限于)<***弹性蛋白酶***>的释放以及<***超氧化物 ***>的产生和活化的特性。. io. 初始文句. y. Nat. Segmenter 進行斷詞。我們將斷好的詞彙以空白相隔,結果如表 4.5 所示。. Ch. engchi. i n U. v. 表 4.5 中文一般詞彙斷詞範例 包括 ( 但 不 限于 ) <***弹性蛋白酶***> 的 释放 以及 <***超氧化物***> 的 产生 和 活化 的 特性 表 4.6 中文關係樹範例 老師宣告了學生的成績。 nsubj(宣告-2, 老師-1) asp(宣告-2, 了-3) assmod(成績-6, 學生-4) assm(學生-4, 的-5) dobj(宣告-2, 成績-6) 20.

(34) 4.2.3 中文關係樹剖析 與 4.1.3 小節相同,我們使用 Stanford Parser 剖析文句得到關係樹結構,一樣使 用「DIRECT_OBJECT」找出文句中動名詞組合的關係,如上頁表 4.6 所示, 「老 師宣告了學生的成績。」一句中,名詞「成績」就是動詞「宣告」的描述對象, 因此這兩個詞彙之間的關係會以「dobj(宣告-2, 成績-6)」這樣的形式標記關係。 有了英文與中文的動名詞組合,我們可以使用查詢辭典的方式,將英文與中文的 動名詞組合翻譯對列,完成我們的英漢動名詞組合資料庫。. 立. 4.3 英漢動名詞組合對列. 政 治 大. ‧ 國. 學. 我們已經擁有英文及中文各自的動名詞組合,接下來就要把互為翻譯對照的動名 詞組合對列產生翻譯結果。我們使用的方法是基於辭典資訊的機器翻譯. ‧. (dictionary-based machine translation) ,採用的英漢辭典有兩部,分別為牛津現代. y. Nat. sit. 英漢雙解詞典[4]與 Dr.eye 譯典通線上字典[5]。但是只依靠英漢辭典的資訊是不. n. al. er. io. 足夠的,因為英漢辭典所列出與英文詞彙對應的中文翻譯詞彙有限;為了找尋更. i n U. v. 多與英文詞彙對應的中文翻譯詞彙,我們另外使用了一詞泛讀[21]及 E-HowNet. Ch. engchi. [6]建立近義詞典,擴充我們的英漢詞彙對應,幫助英漢動名詞組合對列。4.3.1 小節為合併英漢辭典,4.3.2 說明近義詞典的建置過程。. 4.3.1. 英漢辭典合併. 本研究使用兩部辭典,分別為牛津現代英漢雙解詞典(以下簡稱牛津詞典)與 Dr.eye 譯典通線上字典(以下簡稱譯典通字典)。如果查閱辭典的內容,英文詞 彙的中文翻譯約略可以分為兩種翻譯情形:第一種為與英文詞彙相等對應的中文 21.

(35) 「egg」與「蛋」 詞彙,即為同一種意義的事物在不同語言中的詞彙使用對照,例如: 的相等對應關係) ,這樣的詞彙本研究稱之為「對應詞彙」 ;第二種則為以中文片 語解釋該英文詞彙的意義,是屬於語意上的理解說明,例如: 「effusion」與「(尤 指無約束的)思想和感情的流露;抒發感情」的註釋關係。我們需要英漢翻譯的 詞彙可由第一種相等詞彙對應關係取得,第二種註釋關係的內容屬於語意解釋, 主體對象為人類,因此不列入我們使用基於辭典資訊的機器翻譯方法。. 4.3.1.1. 牛津現代英漢雙解詞典. 政 治 大 在牛津詞典中,並非每個英文詞彙都列有中文對應詞彙,中文翻譯部分亦混雜著 立 兩種翻譯情形,辭典中的例句也一併出現於中文翻譯部分,而且沒有明顯的規則. ‧ 國. 學. 可以直接取出英文詞彙的中文相等詞彙。為了解決這個問題,我們將英文詞彙的. ‧. 中文翻譯根據標點符號為分割單位,分列出許多的中文候選字串。我們設定了門. y. Nat. 檻值:如果候選字串的長度不超過四個字,我們認為該字串是為中文對應詞彙的. 意說明的中文解釋的機會較大,便予以剔除。. n. al. 中文對應詞彙. er. io. sit. 機會較大,予以保留;如果候選字串的長度過長,我們相信該字串屬於第二種語. i n C 表 4.7 h牛津字典內容範例 engchi U 英文詞彙:confusion. v. 辭典中的語意解釋或例句. 迷亂;惶惑. gazing in confusion at the strange sight 惶惑地凝視著這種奇怪的景象. 混亂;雜亂. Her unexpected arrival threw us into total confusion. 她來得很突然,使我們完全不知所措。. 混淆;混同. There has been some confusion of names. 有些名字弄混了。. 不確定狀態. There is some confusion about what the right procedure should be. 對應該採取怎樣的步驟這一點還不太明確。 22.

(36) 牛津詞典含有 39178 個英文詞彙,本研究依上述的規則運作,總共得到了 26896 個英文詞彙含有中文對應詞彙。見上頁表 4.7,以英文詞彙「confusion」 為例,最後我們抽取出「迷亂、惶惑、混亂、雜亂、混淆及混同」作為我們的中 文翻譯詞彙,最後一個候選字串「不確定狀態」因為長度超過四個字因此不列入 中文對應詞彙內。. 4.3.1.2. Dr.eye 譯典通線上字典. 政 治 大 由格式標記取得英文詞彙的中文翻譯部分,不會採取到例句的部分;但是中文的 立. 譯典通字典含有 106276 個英文詞彙,而且由 XML[19]格式撰寫而成,因此可以. ‧ 國. 學. 翻譯部分仍然有上述的兩種翻譯情形,因此與牛津詞典相同,使用標點符號為分 割單位來切割字串。由於譯典通字典的中文翻譯部分不含有例句,因此我們將詞. ‧. 彙的詞長條件放寬,將不超過五個字的候選字串視為中文對應詞彙,超出五個字. sit. y. Nat. 的字串則視為語意解釋,不列入採用。我們一樣使用英文詞彙「confusion」作範. io. al. er. 例,表 4.8 中的「混亂、騷動、混亂狀況、混淆、困惑及慌亂」即是被我們認為. n. 的中文對應詞彙。字典中的十萬個英文詞彙,其中有 88507 個英文詞彙具有中文 對應詞彙。. Ch. engchi. i n U. v. 表 4.8 譯典通字典內容範例 英文詞彙:confusion 中文對應詞彙. 辭典中的例句. 混亂;騷動; The room was in a state of confusion. 混亂狀況 房間一片雜亂。 混淆 困惑;慌亂. You can avoid confusion by speaking clearly. 你說得清楚些,這樣可以避免誤解。 The old woman looked at him in confusion. 老婦人用迷茫的目光打量著他。. 23.

(37) 表 4.9 合併字典範例 英文詞彙:confusion 辭典. 辭典中的中文翻譯詞彙. 牛津詞典. 迷亂、惶惑、混亂、雜亂、混淆、混同. 譯典通字典. 混亂、騷動、混亂狀況、混淆、困惑、慌亂. 英漢合併字典. 4.3.1.3. 混亂、混亂狀況、騷動、混淆、困惑、慌亂、迷亂、惶惑、 雜亂、混同. 合併牛津詞典及譯典通字典. 由上頁表 4.8 可知,不同辭典對於英文詞彙所定義的中文對應詞彙並不完全相. 政 治 大. 同;因此本研究將牛津詞典和譯典通字典的中文對應詞彙合併,以增加英文詞彙. 立. 的中文對應詞彙數目,如表 4.9 所示。經合併之後,本研究的「英漢合併字典」. ‧ 國. 學. 總共含有 99805 個英文詞彙。. ‧. Nat. y. 近義詞典建置. io. sit. 4.3.2. n. al. er. 有了英漢合併字典,我們希望能再擴充多一點的中文對應詞彙。本研究設想,如. Ch. i n U. v. 果以英漢合併字典的中文對應詞彙為基礎,找尋與中文對應詞彙意義相近的詞. engchi. 彙,也就表示這些詞彙與該英文詞彙的意義也會近似。我們選擇透過兩種途徑來 增 加 我 們 的 中 文 對 應 詞 彙 : 使 用 中 央 研 究 院 現 代 漢 語 一 詞 泛 讀 [21] 及 E-HowNet[6]來找尋意義相近的近義詞彙,由於這些近義詞彙是經過第二個步驟 擴充的詞彙,因此我們稱之為「次擴充詞彙」。. 24.

(38) 政 治 大. 圖 4.1 一詞泛讀系統介面. 立. ‧ 國. 學. 4.3.2.1. 一詞泛讀. ‧. 圖 4.1 為現代漢語一詞泛讀系統(簡稱為一詞泛讀)的介面,按下「近義詞 Near. Nat. sit. y. Synonyms」的按鈕可以看到與輸入查詢字「混亂」相關的近義詞。我們將英漢. n. al. er. io. 合併字典中的中文對應詞彙輸入至一詞泛讀系統,最後回收系統所傳回的近義詞. i n U. v. 群(如圖中以粗框框貣的詞彙群)。如果改用「混亂狀況」這一個片語輸入一詞. Ch. engchi. 泛讀系統,一詞泛讀系統會提醒我們這個查詢並不是一個詞彙。這樣的回傳結果 有助於近義詞典的建構,即使在英漢合併字典中我們認定的對應詞彙其實並不是 真正的詞彙,但是輸入一詞泛讀系統後,我們也不會得到錯誤的近義詞而擾亂近 義詞集的構成。換句話說,一詞泛讀系統所回傳的結果是品質優良的近義詞群, 且對於輸入的查詢詞彙有嚴謹的過濾作用。 我們再以英文詞彙「confusion」為例,如下頁表 4.10 所示, 「confusion」在 我們的英漢合併字典中總共有十個中文對應詞彙,而這十個詞彙依據表格次序, 第一(混亂) 、三(騷動) 、四(混淆) 、六(慌亂) 、八(惶恐)和第九個詞彙(雜 25.

(39) 亂)都有從一詞泛讀系統得到回傳的近義詞群。我們認為這些近義詞群與 「confusion」的中文對應詞彙意義相近,依照推理也與「confusion」的意思相近, 因此這些近義詞群就是我們經過一詞泛讀找到的次擴充詞彙。 表 4.10 一詞泛讀回傳結果 英文詞彙:confusion 【英漢合併字典】. 混亂、混亂狀況、騷動、混淆、困惑、慌亂、迷亂、惶 惑、雜亂、混同. 【一詞泛讀】1.. 混亂、糾紛、擾亂、紛亂、紛擾、亂糟糟、淆亂、亂哄 哄、擾攘、攘攘、麻沸、絲紛棋布、亂麻麻、亂騰、搶 攘、糜、糜沸蟻動、壤壤、憒憒. 【一詞泛讀】3.. 動亂、亂、騷擾、騷動、擾動、變亂. 治 政 大 混淆、模糊、混為一談、歪曲、指鹿為馬、混淆是非、 立 混淆黑白、習非成是、攪混. 【一詞泛讀】6.. 慌張、毛、不知所措、慌、驚慌、慌亂、手足無措、心 慌、倉皇、心驚肉跳、發慌、手忙腳亂、驚惶、著慌、 驚慌失措、失措、周章、失魂落魄、毛毛騰騰、毛咕、. 學. ‧. ‧ 國. 【一詞泛讀】4.. y. Nat. 自相驚擾、周章失措、相驚伯有、茫然失措、張皇、惶 遽、無所措手足、慌手慌腳、慌神兒、驚魂未定. sit. n. al. er. io. 害怕、怕、恐懼、恐怖、恐、懼怕、畏懼、畏、生怕、 惶惑、提心吊膽、懼、疑懼、失色、悚然、心悸、心寒、 噤若寒蟬、大驚失色、毛骨悚然、戒懼、魂飛魄散、望 而卻步、膽顫心驚、畏怯、喪膽、面無人色、望而生畏、 亡魂喪膽、不寒而栗、心膽俱裂、心驚膽顫、失容、生 恐、忌憚、怵惕、怖、畏葸、面如土色、狼顧、脅肩累 足、惕息、喪魂落魄、視為畏途、聞風喪膽、憚、震悚、. 【一詞泛讀】8.. Ch. engchi. i n U. v. 魄散魂飛、懍懍、膽寒、懾、驚心掉膽、驚恐萬狀、撟 舌. 【一詞泛讀】9.. 雜亂、亂、亂七八糟、紊亂、混雜、雜亂無章、忙亂、 龐雜、間雜、橫生、雜七雜八、雜沓、駁雜、蓬亂、狼 藉、亂套、紛雜、蕪雜、繚、夾七夾八、拉雜、凌雜、 烏七八糟、紛披、紛綸、猥雜、亂營、亂雜、歷亂、蕪 駁、錯落不齊、錯雜. 26.

(40) <Word item = "和鳴"> <WordFreq>0</WordFreq> <WordSense id="1"> <English>harmonious</English> <Phone>ㄏㄜˊ. ㄇㄧㄥˊ</Phone>. <PinYin>he2 ming2</PinYin> <SyntacticFunction> <POS>VA4</POS> <Freq>0</Freq> </SyntacticFunction> <TopLevelDefinition>{和諧:theme={聲音}}</TopLevelDefinition>. 政 治 大 {harmonious|和諧:theme={sound|聲}} 立 </BottomLevelExpansion> <BottomLevelExpansion>. ‧ 國. 學. </WordSense> </Word>. ‧. 圖 4.2 以「和鳴」一詞解釋 E-HowNet 詞彙架構. sit er. io. E-HowNet. y. Nat. 4.3.2.2. al. n. v i n 除了從一詞泛讀得到次擴充詞彙,本研究也從 E-HowNet 中找尋近義詞;概念與 Ch engchi U. Budanitsky[1] 相 似 , 透 過 完 整 定 義 詞 彙 語 意 的 架 構 尋 找 近 義 詞 。 首 先 介 紹 E-HowNet 的結構,如圖 4.2 所示為「和鳴」一詞的內部定義。<WordFreq>代表 該詞彙在中央研究院五百院詞語料庫中的詞頻統計數據,<WordSense> 則是以 數字編號代表該詞彙有幾種語意,「和鳴」一詞在這裡只有一種語意,因此標記 為 1。而在一個語意之下, 「和鳴」可以對應到英文的「harmonious」一詞,<Phone> 及 <PinYin> 則 說 明 了 詞 彙 的 發 音 方 式 , <POS> 標 示 詞 彙 的 詞 性 。 <TopLevelDefinition> 及 <BottomLevelExpansion> 則是本研究尋找近義詞最注 重的兩個標記內容,因為這兩種標記含有定義詞彙的「義原」 。 「義原」就是定義 27.

(41) 表 4.11 E-HowNet 之義原編寫情況一 <Word item = "混亂"> <TopLevelDefinition>{chaotic|紛亂}</TopLevelDefinition> <BottomLevelExpansion> 類型一. {chaotic|紛亂} </BottomLevelExpansion> </WordSense>. 及解釋詞彙的單位,在 E-HowNet 中以「英文|中文」的形式表示,例如上頁圖 4.2 中的「harmonious|和諧」及「sound|聲」 。 「和鳴」一詞的 <TopLevelDefinition> 定 義了「和鳴」與「和諧」相關,而且主題是「聲音」的和諧; <BottomLevelExpansion>. 政 治 大. 則列出「和諧」的義原「harmonious|和諧」及「聲音」的義原「sound|聲」 ,因而. 立. 可得知 <BottomLevelExpansion> 是針對 <TopLevelDefinition> 的內容作更細. ‧ 國. 學. 一步的意義拓展。. ‧. 了解 E-HowNet 的架構及義原形式後,我們認為既然 E-HowNet 的每一個詞 彙都有其定義義原,那麼就表示詞彙之間若具有相近的意思,則他們應該也享有. y. Nat. er. io. sit. 相近的義原群;我們可以比對詞彙之間的義原群交集現象尋找近義詞,也就是利 用英漢合併字典透過 E-HowNet 得到次擴充詞彙。我們發現在 E-HowNet 中的. al. n. v i n <BottomLevelExpansion> 大略分為兩種編寫的情況, Ch engchi U. <TopLevelDefinition> 及. 第一種類型如表 4.11 所示,以「混亂」一詞為例, <TopLevelDefinition> 即出 現義原,且與 <BottomLevelExpansion> 的義原一模一樣;第二種類型則較為複 雜,見下頁表 4.12,以「厚紙板」一詞為例, <TopLevelDefinition> 的敘述為 「厚」的「紙板」兩個詞彙,而「厚」與「紙板」在 E-HowNet 中又有各自定義 的義原;我們發現,詞彙「厚紙板」的 <BottomLevelExpansion> 即為「紙板」 及「厚」兩個詞彙的 <BottomLevelExpansion> 內容聯集,也即是義原的聯集。 因此,我們可以透過 <TopLevelDefinition> 及 <BottomLevelExpansion> 的義原 內容來判斷詞彙之間是否為意義相近的近義詞。 28.

(42) 表 4.12 E-HowNet 之義原編寫情況二 <Word item = "厚紙板"> <WordSense id="1"> <TopLevelDefinition> {紙板:qualification={厚}} </TopLevelDefinition> <BottomLevelExpansion> {paper|紙張:telic={wrap|包紮:material={~}}, attribute={hard|硬},qualification={thick|厚}} </BottomLevelExpansion> </WordSense> </Word> <Word item = "紙板"> 類型二. 政 治 大. <TopLevelDefinition> {紙:telic={包裝:material={~}},attribute={硬}}. 立. ‧ 國. 學. </TopLevelDefinition> <BottomLevelExpansion> {paper|紙張:telic={wrap|包紮:. ‧. material={~}},attribute={hard|硬}}. al. er. io. sit. y. Nat. </BottomLevelExpansion> </Word> <Word item = "厚"> <TopLevelDefinition>{thick|厚}</TopLevelDefinition>. v. n. <BottomLevelExpansion>{thick|厚}</BottomLevelExpansion> </Word>. Ch. engchi. i n U. 下頁圖 4.3 為英文詞彙「indignation」透過中文對應詞彙至 E-HowNet 形成 義原組合的過程。在我們的英漢合併字典中, 「indignation」擁有三個中文對應詞 彙,分別為「憤怒、憤慨及義憤」。而這三個中文詞彙恰巧各只有一種語意,在 只有一種語意的情形之下,中文詞彙的義原也只會有一群;「憤怒」及「憤慨」 的義原只有「生氣」一個義原,「義憤」的義原群則由「情感」及「生氣」兩個 義原組成。我們發現,E-HowNet 的義原本身同時也是一個詞彙,而且也有定義 自己的義原。這種定義 E-HowNet 義原的義原,我們稱之為「二次義原」。舉個. 29.

(43) 英文詞彙. 義原. 對應詞彙. indignation. 義原組合. 二次義原. 憤怒. 生氣. 生氣 生物、健壯. 生氣 生氣、生物、健壯. 憤慨. 生氣. 生氣 生物、健壯. 生氣 生氣、生物、健壯. 義憤. 情感、生氣. 情感 生氣. 情感、生氣 情感、生氣. 生物、健壯. 情感、生氣、生物、健壯. 圖 4.3 E-HowNet 義原組合流程. 立. indignation : 瞋目, 憤世嫉俗, 七竅生煙, 憤憤不 平, 愀然變色, 飲 血, 暴怒, 瞋怒, 氣死人, 含怒, 耍 脾氣, 髮指, 有氣, 盛怒, 橫眉豎目, 發火, 鬱憤, ……. 學. 餘弦 相似度. ‧. 暴怒: 生氣、極 白送: 贈、無效果 匯銀: 貨幣、外國 ……. sit. y. Nat. E-HowNet 中文詞彙. 政 治 大. ‧ 國. 英文詞彙 indignation. 生氣 生氣、生物、健壯 情感、生氣 情感、生氣、生物、健壯. n. al. er. io. 圖 4.4 使用義原組合找尋近義詞流程. i n U. v. 例子說明二次義原,查詢「憤怒」的義原「生氣」這個詞彙,會發現它有兩種語. Ch. engchi. 意而有兩群義原群:第一群的義原群只有一個詞彙「生氣」,也就是自己定義自 己的情形;第二群義原群則由兩個義原組成: 「生物」及「健壯」 。複雜一點的情 況則如詞彙「義憤」 ,其義原群由兩個義原組成,義原「情感」是自己定義自己, 「生氣」的義原則如之前描述過的由兩群義原群組成;因此「義憤」一詞有三群 次義原群。找出中文對應詞彙的義原群及二次義原群之後,我們將義原以及各自 的二次義原群組合貣來,形成圖中的義原組合;排除重複的義原組合,就得到圖 4.3 以灰底標示的義原組合群,即為透過中文對應詞彙找到與英文詞彙意思相近 的義原組合。 30.

參考文獻

相關文件

教育成為一種具有政治的 文化行動,這種文化行動 意圖讓那些身處文化邊陲 與經濟不利地位的學生都

語文運用 留意錯別字 辨識近義詞及詞語 的感情色彩 認識成語

反思 動詞 自我檢討、反省 視訊 卷一 動作、行為. 反映 動詞 比喻把客觀事物的實質 視訊

大發雷霆 (成語) 比喻大發脾氣,高聲訓斥 閱讀 卷六 思想、感受 大開眼界 (成語) 增廣見識,開闊視野 寫作 卷一 思想、感受. 口福

捲土重來(一蹶不振) (成語) 比喻失敗後重新恢復勢力 寫作四 接種 動詞 把疫苗注射到人或動物體內,以預防疾病 閱讀一 排斥(吸引) 動詞 使別的人或事物離開自己這方面

同等級指 曾擔任手 語翻譯員 命題委員 暨評審委 員者或取 得手語翻 譯技術士 監評資格 人員者。.

孟浩然等所作的詩歌的詩意 譜寫而成,歌詞原文以德文 寫成。香港舞蹈團曾於 2002 年演繹這首作品,並邀請了

注意 注意 注意,紫色 注意 紫色 紫色 紫色 字表專有名詞 字表專有名詞 字表專有名詞 字表專有名詞, 可以不用翻成 可以不用翻成 可以不用翻成