• 沒有找到結果。

以型態組合為主的關鍵詞擷取技術在學術寫作字彙上的研究 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "以型態組合為主的關鍵詞擷取技術在學術寫作字彙上的研究 - 政大學術集成"

Copied!
80
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政 治 大. ‧ 國. 學. 以型態組合為主的關鍵詞擷取技術. ‧. 在學術寫作字彙上的研究. io. sit. y. Nat. n. er. A Pattern Approach to Keyword Extraction al v i n C h Writing Vocabulary for Academic engchi U. 研 究 生:邵智捷 指導教授:劉吉軒 中華民國九十九年七月 July 2010.

(2) 摘要 隨著時間的推移演進,人們瞭解到將知識經驗著作成文獻典籍保存下來供後人研究開 發的重要性。時至今日,以英語為主的學術寫作論文成為全世界最主要的研究交流媒介。而 對於英語為非母語的研究專家而言,在進行英語學術寫作上常常會遇到用了不適當的字彙或 搭配詞導致無法確切的傳達自己的研究成果,或是在表達上過於貧乏的問題,因此英語學術 寫作字彙與搭配詞的學習與使用就顯得相當重要。. 立. 政 治 大. 在本研究中,我們藉由收集大量不同國家以及不同研究領域的學術論文為基礎,建構. ‧ 國. 學. 現實中實際使用的語料庫,並且建立數種詞性標籤型態,使用關鍵詞擷取關鍵詞擷取. ‧. (Keyword Extraction)技術從中擷取出學術著作中常用的學術寫作字彙候選詞,當作是學術常. sit. y. Nat. 用寫作字彙之初步結果,隨即將候選詞導入關鍵詞分析的指標形態模型,將候選詞依照指標. n. al. er. io. 特徵選出具有代表指標意義的進一步候選詞。. Ch. engchi. i n U. v. 在實驗方面,透過對不同範圍的樣本資料進行篩選,並導入統計上的方法對字彙進行 不同領域共通性的分析檢證,再加上輔助篩選的機制後,最後求得名詞和動詞分別在學術寫 作中常用的字彙,也以此字彙為基礎,發掘出語料庫中常用的搭配詞組合,提出以英語為外 國語的研究學者以及學生在學術寫作上的常用字彙與搭配詞組合作為參考,在學術寫作上能 夠提供更多樣性且正確的研究論述的協助。.

(3) Abstract. With the evolution over time, people start to know the importance of taking their knowledge and experience into literature texts and preserving them for future research. Until now, academic writing research papers mainly in English become the world’s leading communication media all over the world. For those non-native English researchers, they often encounter with the inappropriate vocabularies or collocations which causes them not to pass on their idea accurately or to express their research poorly. As a result, it’s very important to know how to learn or to use the correct academic writing in English vocabularies and collocations.. 政 治 大 countries and fields of academic research. The keyword extraction technique based on the several 立 Part-of-Speech tag patterns is used for capturing the common academic writing vocabulary In this study, we constructed the real academic thesis corpus which includes different. ‧ 國. 學. candidates in the academic works to be the initial result of the common vocabulary of academic writing. The candidate words would be introduced to the index analysis model of keyword and be. ‧. picked out to the further meaningful candidate words according to the index characteristics.. y. Nat. sit. For the experiments, the sample data with different fields would be filtered and the. n. al. er. io. vocabularies on different fields of commonality would be analyzed and verified through statistical. i n U. v. methods. Moreover, the auxiliary filter mechanism would also be applied to get the common. Ch. engchi. vocabularies in academic writing with nouns and verbs. Based on these vocabularies, we could discover the common combination with the words in the academic thesis corpus and provide them to the non-native English researchers and students as a reference with the common vocabularies and collocations in academic writing. Hopefully the study could help them to write more correct research papers in the future.. rich and.

(4) 目錄 第一章 簡介.............................................................................................1 1.1 背景.............................................................................................1 1.2 研究動機.....................................................................................2 1.3 研究目的與方法.........................................................................3 1.4 論文架構與貢獻.........................................................................4. 立. 政 治 大. 第二章 文獻探討....................................................................................6. ‧ 國. 學. 2.1 語料庫語言學............................................................................6. ‧. 2.1.1 語料庫以及語料庫語言學的定義與特徵.......................6. sit. y. Nat. 2.1.2 語料庫文字的預先處理與其後續相關應用...................8. er. io. 2.2 關鍵詞擷取技術......................................................................10. al. n. v i n 關鍵詞在學術著作中的定義與特徵.............................10 Ch engchi U. 2.2.1. 2.2.2 基於自然語言處理分析為主的關鍵詞擷取技術.........10. 2.2.3 基於統計分析為主的關鍵詞擷取技術.........................12 2.2.4 建立於關鍵詞之上的特徵分析模型.............................13 2.3 英語教學相關字彙研究.........................................................15 2.3.1 英語教學字彙的定義與特徵..........................................15 2.3.2 字彙與詞性的組合使用 - 搭配詞.................................16 2.4 本章總結................................................................................17. i.

(5) 第三章 實驗方法..................................................................................18 3.1 語料庫設計............................................................................19 3.2 PoS Tag Patterns 關鍵詞擷取演算法....................................20 3.3 應用形態分析模型................................................................23 3.4 本章總結................................................................................25. 第四章 實驗分析討論與結果..............................................................26 4.1 實驗資料與實作方法.............................................................26. 政 治 大. 4.1.1 實驗資料說明.................................................................26. 立. 4.1.2 實驗方法.........................................................................29. ‧ 國. 學. 4.2 實驗結果之分析討論.............................................................34. ‧. 4.2.1 實驗樣本的差異性.........................................................35. y. Nat. er. io. sit. 4.2.2 不同實驗樣本之實驗結果.............................................36 4.2.3 學術寫作字彙的篩選機制.............................................37 a. n. iv l C n hengchi U 基於地域語言特性的學術寫作字彙.............................39. 4.2.4. 4.3 延伸應用 - 學術搭配詞.........................................................40 4.4 本章總結..................................................................................42. 第五章 結論與未來研究方向.............................................................43 5.1 結論........................................................................................43 5.2 未來研究方向........................................................................44. 參考文獻...............................................................................................46 ii.

(6) 附錄表一 CS 領域動詞候選詞之各指標代表性字彙(前 213 個)..........49 附錄表二 CS 領域動詞候選詞於不同頻率下之同質性分佈................56 附錄表三 各領域動詞依指標交集而得的領域學術字彙列表..............58 附錄表四 最終選出之學術寫作上常用之字彙(綜合領域)...................60 附錄表五 最終選出之學術寫作上常用之字彙(綜合語言特性)...........62 附錄表六 學術寫作上字彙之常用搭配詞(整體)...................................64. 政 治 大. 附錄表七 學術寫作上字彙之常用搭配詞(依語言特性).......................68. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. iii. i n U. v.

(7) 圖表目錄 圖 2-1 語料庫與資訊擷取預先處理工作一覽....................................9 圖 3-1 研究方法之流程架構圖..........................................................18 圖 3-2 語料庫結構特性分析..............................................................20. 政 治 大 圖 4-1 三領域交集名詞與動詞之卡方值分佈..................................32 立. 圖 3-3 Custom PoS Tag Patterns Algorithm........................................22. 學. ‧ 國. 表 3-1 由 CPTP algorithm 擷取出之各領域學術寫作字彙候選詞..23. ‧. 表 4-1 AcademicThesisCorpus 語料庫領域別文件詞次數量分佈....27. sit. y. Nat. 表 4-2 ATC 語料庫字彙頻率分佈......................................................27. a. er. io. 表 4-3 ATC 語料庫領域別動詞名詞數量分佈..................................28. n. v l AWL 數量統計...................................29 表 4-4 領域別候選詞數量與 ni Ch. engchi U. 表 4-5 三領域交集字彙各區間之同質性數值分佈統計..................33 表 4-6 各指標所代表趨勢之特徵......................................................34 表 4-7 各領域候選詞與非領域共通候選詞數量統計......................35 表 4-8 兩種學術字彙列表數量與所包含 AWL 數量.......................39 表 4-9 兩種學術字彙列表之字彙卡方值分佈..................................40. iv.

(8) 第一章. 簡介. 1.1 背景. 立. 政 治 大. 歷史一詞是人類自從發明文字以來開始產生的,在此之前的史前時代,人類的生活智. ‧ 國. 學. 慧與經驗教訓都只能依賴口耳相傳而延續下去。當發生了天災人禍時,這些資訊的累積可能. ‧. 就隨著傳承者的死亡而消失,之後又必須一切重新開始。然而文字的出現所刻下的歷史,不 但留給下一代生活經驗的基礎,更留給了後人無數智慧結晶演進的脈絡可循。同時從原本記. Nat. sit. y. 錄媒體的取得不便,使得這些資訊的傳承有著時間與空間上的限制,但進入了資訊時代之. al. n. 論是以傳統的紙張形式或是數位化的檔案形式。. Ch. engchi. er. io. 後,這些限制迅速的被跨越,人們在隨時隨地都可以讀取同一份文學名著或是研究紀錄,無. i n U. v. 隨著文化的進步,人們也意識到知識傳承的重要性,國家或政府藉由學校這個組織將 經過知識訓練的人們,透過紀錄著知識的教材以口述或筆記的方式不斷的向之後的世代教 育,期待培育出更具有智慧的人材。而正是因為處於這種環繞著大量知識累積的人材與完整 的文獻典籍的環境之下,同時在國家也願意大力扶持的立場下,使得學校機構組成的學術 界,成為學術研究發展的最佳場所,而其集研究精華於一身的學術著作論文,則是屢屢於世 界上改進人們生活的創新產物的重要基石。. 處於現在的全球無國界立場,世界上各國都有許多優秀的研究學者,隨時都有可能研 發出新的學術理論或是技術更新,期待與更多的學者專家分享,但往往受限於語言的限制無 法傳遞給他人理解。另一方面,英美的崛起以及數百年強權的歷史發展結果,英語成為了世 界上最通用的語言。無論是貿易通商或是資訊交流都形成了以英語作為主流的趨勢,當然學 1.

(9) 術發展也不例外。作為領導地位的美國,在學術上組織了許多重要的學術組織,以英語為主 要語言讓全球的知識份子能夠做最大範圍的交流。因此,學術著作以英語為主也就佔了大多 數,相對於英語為外國語的研究學者而言,英語學術論文寫作也就成為非常重要的一項專門 技術。. 為了能在有限度的的文字內清晰的闡明研究內容與所得的成果,學術論文格式上設定 了 許 多 的 規 範 。 許 多 學 術 寫 作 及 書 籍 都 指 出 , 學 術 寫 作 本 身 具 有 正 式 (formal) 、 客 觀 (impersonal) 、精緻(sophisticated)、精確(precise) 、簡潔(concise)、專業(specialized)等特色 [1]。但對 EFL (English as Foreign Language) 的研究學者或是學生來說,本身缺乏英語本身 的語意背景,在字彙的選擇上沒有適當的參考,而導致用字不正確或是意義偏差等問題,進 而由字彙所組成的片語等相繼使用了不適合的字可能使語意完全不同,諸如此類問題時常發. 政 治 大. 生。因此做為組成學術論文寫作的最小單位的字彙,能夠如何精準地使用字彙和字彙間組合. 立. 的而成的搭配詞對於 EFL 的學術作者而言,便成為相當重要的課題。. ‧. ‧ 國. 學. 1.2 研究動機. sit. y. Nat. 在資訊發達的現代,專家學者取得研究資訊的管道也從文字期刊移至網際網路上,但. io. er. 對國家研究資源不豐富的研究者而言,即使在網際網路上,可取得的該國語言的研究資源仍 有限。在現在研究資源以英語為主的整體環境中,英語為主的研究資源是最為豐富的。從另. n. al. Ch. i n U. v. 一角度來說,對於 EFL 背景的研究學者、研究助理、學生以及相關人員,若欲貢獻自己的. engchi. 研究成果給世人得知或是分享給多數人使用,將本國語言的研究論文翻譯成英語版本發表於 國際論壇上是最佳的方法。然而鑒於每個研究者本身英語程度不一,產出的論文品質上多少 有所差異,而經由他人代為翻譯卻因為每個人不同的文化背景對同樣的文字產生的解釋不 同,翻譯後文件容易對作者本身欲闡述的意義失焦,而作者卻無法自行修正,這樣的結果對 作者來說無疑是對自己的研究成果打了折扣。. 也因為如此,市面上有許多英語寫作專家針對英文論文寫作這部份著作了不少參考書 籍,試圖輔助研究者寫出合乎體裁的英語學術論文。但這方面的著書作者往往是英語寫作領 域或是某特別領域的專家。以文法來說毋庸置疑可依循專家的建議,但專家選出來的字彙與 搭配詞或許因為本身學識豐富,提供的字彙上可能一般不常使用,或是使用的範圍較切進本 身研究的領域,有些部份不適用於一般性全領域的學術論文撰寫。故找出頻繁且常用的學術 2.

(10) 寫作字彙變成為相當迫切的課題。目的不是要取代專家學者所提供的字彙,而是希望能夠補 齊不足之處,進而提供較一般性的常用學術字彙供作者習得,在學術研究上無論是閱讀或寫 作都有所助益。. 1.3 研究目的與方法 本文希望建構一跨領域的學術論文語料庫,透過自然語言處理的語料庫內容預先處理 以及我們採用的形態分析模型,應用在關鍵詞擷取技術的基礎上,建立各領域真實狀況下常 用的學術寫作字彙,同時在進而分析建立一般共通領域適用的學術寫作字彙。另外,以這些 字彙為基礎,分析出一般常用的搭配詞組合,供 EFL 研究者作為英文學術論文寫作的參 考。. 立. 政 治 大. 語料庫的建構設計理念則是,為了能跨領域交叉分析,我們選擇了 CS(Computer. ‧ 國. 學. Science)、ELT(English Learning & Teaching)以及 MED(Medical)三個領域的學術論文,MED 領域的選擇是基於其屬於專門集中領域,期望在高度專門領域中以本研究的方法取出的詞彙. ‧. 是由一般性通用的學術寫作字彙組成,故選擇以高度專門領域為主。而在內容選擇的部份,. sit. y. Nat. 則收集了台灣、日本與美國三個國家的論文作者為主的學術論文,同時為了比較並且強調作. io. er. 者 English as Foreign Language(EFL)作者與 Native Speaker 作者的詞彙使用上的差異,故在美 國作者的論文部份,我們以收集博士畢業論文為主,其他部份則是以碩士畢業論文以及期刊. al. n. 論文為中心。. Ch. engchi. i n U. v. 本篇論文是以關鍵詞擷取的方法輔佐以形態分析模型使用進而產生出最終的字彙列 表。而關鍵詞擷取研究本身屬於資訊擷取(Information Extraction)的一環,當中有許多文字預 先 處 理 部 份 與 資 訊 擷 取 相 同 , 包 含 Tokenization 、 Morphological Processing 、 Syntactic Analysis、Domain Analysis 等預先處理步驟,依研究目的的不同選擇適當的步驟,接著就是 屬於關鍵詞擷取技術的範圍。. 根據研究[2]指出,在英語中經常同時出現有明確意義的詞彙組合是由三個單字或大於 三個單字以上組成的組合,稱為搭配詞(Collocation),搭配詞中的組合則大多數以名詞和動 詞為構成搭配詞意義的核心,其他詞類如介系詞或形容詞副詞等,則是表現關係和修飾其他 詞性的角色。在關鍵詞擷取的研究中,由於關鍵詞多數由名詞或是名詞片語(NP, Noun 3.

(11) Phrase)所組成,因此以名詞片語為中心的關鍵詞擷取研究佔了多數。綜合以上的資訊,我們 使用了自行定義包含名詞和動詞為主的 PoS Tag Patterns 作為我們關鍵詞擷取的主要擷取型 態,並擷取出所有符合 Patterns 的候選詞,作為關鍵詞彙擷取的第一個步驟。. 由於語料庫本身的資料龐大,各種領域內的研究主題也相對不小,而 PoS Tag Pattens 在設計上是以搭配詞最小單位為基礎,擷取出的大量 Patterns 必須經由適當頻率的篩選,隨 後再將 Patterns 拆為單個字彙的集合,排除非動詞和名詞的其他字彙,而依此兩種詞性分別 套用在分析模型上,可求得數種代表不同關鍵詞屬性的指標值。其後以實驗得到的結果,對 照於常用於學術教學應用上的學術字彙列表(AWL)[22],並探討學術寫作應用中的真實狀況 下,本文研究結果與學術字彙列表於真實語料庫的分佈狀況,同時歸納出基於研究結果組合 而成的學術寫作搭配詞。. 立. 1.4 論文架構與貢獻. 政 治 大. ‧ 國. 學. 本篇論文分為五章,第一章說明研究背景、動機、目的及方法。第二章為文獻探討,. ‧. 介紹本篇論文所使用到的相關研究技術的定義與特徵,從語料庫語言學為始,到核心的關鍵. sit. y. Nat. 詞擷取技術及最後所應用的形態模型等。第三章則是實際語料庫設計以及研究方法的闡述,. io. er. 將分析模型套用在從語料庫以關鍵詞擷取技術得到的成果。第四章為實驗評估與結果討論, 將分析模型的各指標實驗結果與作為參考的學術字彙列表在真實語料庫的分佈情形統計性的. n. al. Ch. i n U. v. 比較。第五章為結論及未來研究方向,並探討實驗結果可衍生的應用層面。本論文主要貢獻 有以下幾點:. I.. engchi. 藉由真實收集語料庫交叉比對分析而得的學術寫作字彙,不但能補足一般專家著 作較缺乏的一般性學術上頻繁使用的字彙,對某些偏重於單一領域或是使用頻率 過低的字彙,這些現實中已被應用的字彙能修正其偏差。. II.. 由實驗結果所得到的雖然只是常用的學術寫作字彙,但將此資訊重新帶入原本的 語料庫,可以得到高頻度且實際使用的搭配詞組合,這些組合結合英語寫作專家 所提出的搭配詞相互驗證,除了可信度高之外,也延伸了作者從單一字彙的使用 到字彙相互搭配組合的實際應用參照。. 4.

(12) III.. 語料庫的設計不僅僅只是產出一般性的學術寫作字彙,同時藉由分析各領域間的 複合領域字彙使用情形,也能看出即使在同一學術寫作範圍下,各領域之間的學 術論文寫作時用字遣詞的差異,這些差異也能提供 EFL 作者未來在寫作上能選擇 適合領域的字彙,產出更貼切的論述內容的學習參考。. 除了提供各領域綜合的學術字彙與搭配詞之外,我們也以另一個角度進行分析, 分別提出了以 EFL 作者(台灣、日本)以及以英語為母語的 Native Speaker(以下簡 稱 NS),也就是美國作者的常用的搭配詞。提供搭配詞的目的在於,搭配詞的使 用較字彙上更為實用也較為繁複,而就搭配詞上的使用狀況可以得知 NS 作者較 常用的寫作風格,同時參照自身的搭配詞使用方式,不但可以學習較正確的寫作 風格,也可能發現並修正自身潛在的寫作錯誤。. 立. 政 治 大. 學 ‧. ‧ 國 io. sit. y. Nat. n. al. er. IV.. Ch. engchi. 5. i n U. v.

(13) 第二章. 文獻探討. 政 治 大 本篇論文是對真實學術論文語料庫以關鍵詞擷取技術配合指標形態模型分析的方法發 立. 掘出一般學術論文寫作常用字彙,而本章節將許多研究技術相關研究文獻提出逐一探討。主. ‧ 國. 學. 要探討內容包含語料庫語言學的特徵與相關應用、關鍵詞擷取技術適用範圍與細節說明,同. ‧. 時介紹以型態分析為主的關鍵詞篩選方法,接著探討字彙與搭配詞的使用在學術寫作上的重 要性,並透過英語學習領域專家提出的學術字彙列表跟以資訊技術實驗分析而得的結果相互. Nat. sit. n. al. er. io. 2.1 語料庫語言學. y. 參照。最後提出本章節的總結。. Ch. engchi. i n U. v. 隨著電腦科技的日漸發達,基於大量計算與統計分析語料庫語言學的相關研究也如雨 後春筍般日益崛起,尤其是語料庫語言學對於語言教育與學習的部份有著明顯的增加。本節 將對於語料庫語言學的定義、語料庫為主分析研究的特徵,以及在相關領域的應用在此說 明。. 2.1.1 語料庫以及語料庫語言學的定義與特徵. 語料庫語言學是一項透過語料庫以真實發生的範例研究人類所用的自然語言的使用狀 況[4]。而語料庫則是一連串由純文字所組成,用來表達其狀態與其多樣性(如口說語言及語. 6.

(14) 言寫作等)並且可以儲存於電腦內的文字集合[5]。而以語料庫為主的研究隨著各式不同的領 域的變化,語料庫為了要能夠符合研究的主題,語料庫的預先設計就顯得格外重要,也因此 語料庫設計在檔案尺寸上和表現方式上有著各種的變化[6]。. 舉例來說,如探討生態學學術教材為主的語料庫[7]在研究主題是要找出生態學上的學 術教材相較於其他學術文章的差異等,在設計上內容選取約 200 篇生態學學術教材文章中不 包含每篇文章的第一段以外的所有內文,是為了避免每篇教材的第一段有著概括性的廣泛描 述,而脫離以生態學為核心的專門論述。另外一項針對英語學術文章引述(CITATION)的研 究[8],延續了兩個不同原有語料庫的研究,其中一個是由 10 篇跨領域期刊文章所組成,另 一個則是由 16 篇博士論文所組成。由上述兩個例子可見,語料庫在內容組成上並無特別的 侷限,並不需要完整的保留原有文章的所有內容,而是依照研究目的需要自行定義,相同地. 政 治 大. 在數量選擇上也是如此,只要最後的實驗方法上量足夠於採信即可。. 立. ‧ 國. 學. 語料庫依據用途建立後,需要經由許多分析的步驟才能達到研究目的。而 Biber, Conrad 與 Reppen[9]提出了以語料庫分析的四項主要特徵,說明如下:. ‧. I.. 研究者可藉由分析觀察到實際語言文字形態的使用,故此分析是有實證為. y. Nat. er. io. al. v i n Word In Context)C顯示的功能,同時也可借助於其他電腦程式進行文法或 hengchi U. 語料庫分析多半借助 Concordancer 等電腦輔助軟體並可達到 KWIC (Key. n. II.. sit. 依歸的。. 詞性上的標註和變化指示。. III.. 語料庫的內含的語言特徵可同時進行計量性分析與直譯式分析,如使用 Concodancer 可同時顯示”vocabulary“此字彙出現頻率後,進而點選分析此 字彙在不同文章中展示的不同意義。. IV.. 藉由分析語料庫來模擬探討語言學上的研究問題使得分析本身就是有意義 的。. 總結來說,語料庫語言學本身由於相關電腦輔助工具的發明,使得語料庫分析不再只是提供 規範性的觀點,而能夠提供一種新的描寫性的觀點。 7.

(15) 2.1.2 語料庫文字的預先處理與其後續相關應用. 本節是以電腦科技的角度出發,探討在資訊科技研究使用語料庫進行研究時經常遇到 的預先處理步驟說明,並介紹依照不同的預先處理程度之後可進行的後續研究使用狀況。. 上一節曾提到,語料庫設計可依據研究目的需求。相對地,這也代表著語料庫內容的 來源可能千變萬化或以各種格式存在。主要的內容來源有兩種,第一種是來自於現有的典籍 文獻以及報章雜誌等,這一類的資訊來源共通的問題就是必須將紙本轉換成數位化的檔案, 所使用的方式就是經由文件掃描後再經過 OCR(Optical Character Recognition)辨識後文字始. 政 治 大 的文字檔案依狀況仍須人工比對或用電腦字典對照以確保整個語料庫的正確度。 立. 能編輯,而依據原始檔案保存或印刷狀況都會影響到文字正確辨識度的多寡,因此辨識完成. ‧ 國. 學. 相較於文本各式的內容來源,有許多內容資源都已經數位化成為檔案格式或分佈於網 際網路之中,但這些資訊仍然是格式內容不一,必須做過濾格式的預先處理。舉例來說,欲. ‧. 建構以網頁形式為原始內容的語料庫,必須將原始資料中網頁的標籤逐一移除,並且將文字. sit. y. Nat. 以句子或段落為單位進行分隔,甚至有時也需要解決編碼格式上亂碼的問題。而做完預先處. io. er. 理的文字資料,則是研究方法而存成既定的格式,其中以純文字檔案格式(半結構性)和 XML 資料格式(結構性)為主要格式。. n. al. Ch. engchi. i n U. v. 語料庫在建構完成後,除了對語料庫本身進行分析統計外,再經過不同的加工形式 (Tokenization、Morphological Processing、Syntactic Analysis、Domain Analysis 等)後,可應 用在資訊擷取(包含關鍵詞擷取)、資料探勘、文本探勘、自動翻譯、社會網絡等多種不同的 應用分岐。根據王俊弘[14]的研究,建立一個可標記化的語料庫需要八個步驟。然而,根據 研究目的的不同預先處理所需的步驟也不同,通用的步驟則包含下列步驟:. 8.

(16) 立. 政 治 大. ‧ 國. 正規化(Formalization):由於語料庫內容原始資料來源不盡相同,當中可能包含了. ‧. 1.. 學. 圖 2-1 語料庫與資訊擷取預先處理工作一覽. Nat. er. io. al. 斷句(Sentence Segmentation):資料經過正規化之後的內文,可能還保有原本的形. v i n Ch 式,文字之間依照段落分隔。一般來說,在自然語言處理中,通常以句子當作一 engchi U 個執行的基本單位,故斷句便是將所有的文字內容依照句點當作區隔其他句子的 n. 2.. sit. 這些文件內文以外的其他不需要部份。. y. 標題、副標、圖片與文字格式(如粗體、斜體、底線等)。正規化的目的即為除去. 單位劃分文章內容。而在其他的研究也有依需求將文章內容依片語、段落或是章 節區分的狀況[30]。. 3.. 斷詞(Tokenization):英語中字與字之間大多與空白分隔,或是依照各種標點符號 分隔。斷詞目的在於區分語料庫中最小可供辨識的基本單位”Token”,一般為上 述空白或標點區隔的英文單字,也可依據需求將所需的標點符號或特殊符號定義 成 token,未被定義成 token 的部份在自然語言處理時會自動被忽略。. 4.. 詞性標註(Part-of-Speech Tagging):詞性標註是自然語言處理中最重要的一個步 驟,所以後續都分析都以標註後的結果為基礎進行。詞性標註是將句子中每個單 9.

(17) 字進行詞性標籤的加註,但有時文章較為複雜也有詞性判斷錯誤的狀況。一般來 說,前述步驟在不發生錯誤的狀況下,詞性標註的準確率可達到 95%以上。. 總結來說,預先處理的步驟可參照上圖。圖 2.1 為綜合大部份資訊處理相關領域的預先處理 步驟,而圖中左半部份也就是上述四個步驟是進行建構語料庫最常見的預先處理步驟,其餘 步驟則依研究目的而分別有所不同。. 2.2 關鍵詞擷取技術 2.2.1 關鍵詞在學術著作中的定義與特徵. 政 治 大 本文曾在第一章時提到,關鍵詞擷取技術是屬於資訊擷取技術的一環,不同於資訊擷 立. ‧ 國. 學. 取技術的是,關鍵詞擷取技術是將研究範圍縮小集中於對關鍵詞進行擷取的工作。這裡所指 的“關鍵詞”本身並不限定於單一字詞,可以由一個單字或是一個片語(數個單字的集合)所構. ‧. 成,而”關鍵詞“一詞,則是依據關鍵詞本身所處的主題範圍有著不同的解釋。在關鍵詞擷取 的研究中,關鍵詞的意義是代表與主題領域相關度高,能夠以此一詞作為代表整篇文章或整. y. Nat. sit. 個領域的詞藻,讓他人能夠看到此關鍵詞便能快速瞭解整篇文章的研究領域或是中心主題,. er. io. 故此詞藻可能就是該文章或領域的專門術語(Terminology)或是較一般性的共通代表辭彙。. al. n. v i n Ch 同時關鍵詞也具備了一些特性,以在同一篇文章內為例。關鍵詞常有的特性有出現頻 engchi U. 率高,或是以同義詞(synonym)或上位字(hyponym)、部份詞(meronym)等形式出現[10],但都 代表同一個意義,或是代表與其它字彙同時出現的比率高[11]等,都是關鍵詞常有的特徵。 此外,也有研究指出關鍵詞的組成多數以名詞居多[12]。正因為關鍵詞本身具有這些特性, 由這些特徵出發進行關鍵詞擷取的研究也不在少數。而這些研究大致可分為以自然語言處理 方法為基礎和以統計分析方法為基礎兩種[13]。將於接下來的章節分別介紹。. 2.2.2 基於自然語言處理分析為主的關鍵詞擷取技術. 10.

(18) 此類的關鍵詞擷取技術,是基於人類學習外來語言的方式,從單字的詞性、字根的變 化到片語的構成以至於語意的瞭解,對原始文字資料層層標註,再以電腦分析這些標註,取 出有重要代表性意義的詞彙。而本文則以關鍵詞擷取技術常用的標註說明如下:. I. Tokenization(Sentence、Word Segmentation) - 定義原始資料中資訊被處理的最小單 位。以英文來說,一般就是以空白分隔的單字視為一個 token,各種特殊標點符號也可被 定義為 token。. II. Morphological and Lexical Processing(Part of Speech Tagging 、 Word Sense Disambiguation). 政 治 大 以及動詞(Verb)來使用,而”root”這個字可能隨著不同的詞性分別代表不同的意義。 立. (I) Part of Speech Tagging:詞性標註。舉例來說”design”此字同時可以當作名詞(Noun). ‧. ‧ 國. 的問題。. 學. 詞性標註則是依照前後文已確定的詞性來分別對字彙進行註譯,同時也弭除詞性岐異. (II) Stemming & Lemmatization:詞幹還原與詞根還原。 Stemming 是將字彙還原成. Nat. sit. y. 詞幹(root)的形式,而此詞幹可能是完整的單字,也有可能是單字的一部份,而. er. io. Lemmatization 則是將大小寫差異、動詞時態、名詞單複數以及形容詞比較級等統一. al. 還原成字彙的標準詞根形式[14]。舉例來說,以動詞過去式”waited”為例,Stemming. n. v i n Ch 和 Lemmatization 的結果都同樣為”wait”,但用另外一個動詞過去式”produced”為例 engchi U 時,Stemming 的結果為”produc”而 Lemmatization 的結果為”produce”。. (III)Word Sense Disambiguation:消除歧義。由於詞性標註是以單字為單位,光憑詞 性標註有時還是會有無法辨識的問題。而消除歧義則是以相鄰字彙意義與其詞性標籤 為基礎,對某些有歧義的字彙判定其意涵,而這方法也是監督式學習的方法 (Supervised Learning)。. 原始文件經過標註之後,便可進行關鍵詞擷取的步驟。由於關鍵詞多半包含名詞,在 Hulth[15]的研究中,就分別使用了 NP-Chunk、n-gram 以及 PoS Tag Pattern 以名詞為中心的 三種方式,來進行初步辭彙取出的單位。NP(Noun Phrase)-Chunk 的概念在於,關鍵詞往往 11.

(19) 是具描述性的名詞,這樣的詞是由名詞或是形容詞搭配名詞的組合組成,然而 NP-Chunk 與 NP 的差別在於,NP-Chunk 通常包含的單字量比 NP 少,因為單一 NP-Chunk 無法包含其他 NP-Chunks,而 NP 卻有可能在包含其他較小的 NP(在語法上一個名詞就可以當成 NP, Chunk 則是由名詞組或動詞組等所購成)。. 第二種方式 n-gram 方法中的 n,代表的是可變動的正整數,指的是以 n 個單字為一個 擷取單位。Hulth 以類似 Turney[16]和 Frank [17] 的研究方法,將所有的 unigram, bigram 以 及 trigram 的詞都先擷取出來之後,將這些詞若是頭尾含有 stop word(一些特定的詞,出現頻 率相當高而無實質代表意義,因此搜尋引擎等檢索系統並不加以索引,在資訊擷取上也常常 被忽略)的詞加以捨棄,最後在對剩下的詞進行 stemming 的處理以提高精確度。最後提出的 PoS Tag Pattern 方法,則是定義各種詞性標籤順序的組合形態,將符合的形態從文中直接抽. 政 治 大. 取出來。Hulth 訂定了共 56 種詞性標籤型態,而最常出現的有 Adjective Noun、Noun Noun. 立. 及 Noun 等形態。而無論是使用哪一種方法,選出來的候選詞最後須經過 Machine Learning. ‧. ‧ 國. 學. 的方式,將訓練資料不斷的自我學習才能得到最終的結果。. 2.2.3 基於統計分析為主的關鍵詞擷取技術. sit. y. Nat. 相對於基於機器理解的方法,以統計分析為主的擷取技術著重於大量統計的資訊如字. io. n. al. er. 彙頻率的基礎上。在 Matsuo&Ishizuka 的研究中[11],作者認為,相較於一般高詞頻的字彙. i n U. v. (如 make, kind 等)可能與許多各種字彙在文中公平地共同出現,可能為關鍵詞的高頻詞(如. Ch. engchi. digital computer, imitation 等)只會與較少特定的字彙共同出現,如此一來,圍關鍵詞的高頻 詞與一般的高頻詞在算共同出現比例時就會有所偏差。作者是採用卡方分佈(. - Measure). 的統計方法來計算偏差值,而後在對這些可能是關鍵詞的候選詞再進行 Clustering 的分析, 以提高方法的可靠度並同時更加凸顯關鍵詞與其它高頻詞的差別。. 除了詞頻之外,另一個常用來評估字彙在文章中的重要性的指標 TF-IDF 也常常被用來 做關鍵詞擷取的運算。TF 和 IDF 為 Term Frequency 以及 Inverse Document Frequency 的縮 寫。TF-IDF 的概念在於,一般來說,詞頻 TF 越高的字可能在該文件的重要性相對較高,但 對多份文件構成的資料集來說,在某份文件中詞頻相當高的詞在其他份文件內卻都沒有出 現,如此來說,這個詞在整個資料集的分佈頻率便相對降低,因此只用某詞彙的總詞頻來衡 量重要性是不夠的,也需要考慮該詞彙在資料集中的文件分佈狀況。IDF 這個指標是代表該 12.

(20) 詞彙在資料集之中的逆向文件分佈頻率,兩者相乘便能代表一個詞語普遍重要性的衡量標 準。TF-IDF 公式如下[1]:. , 其中 nj 表示單字 j 在文件 i 的出現次數。. nall. 表示文件 i 所有具意義的總詞頻。N 代表所. 有文件的總數 dfj :代表單字 j 有出現過的文章總數。最後結果為上述兩者的乘積:. 治 政 每個詞彙計算所得之 TF-IDF 值則為權重,值越高代表該詞彙在該資料集範圍下的重要性越 大 立 大。 ‧ 國. 學. 2.2.4 建立於關鍵詞之上的特徵分析模型. ‧. Nat. sit. y. Dutta[18]提出了一個新的觀點,對於關鍵詞(Keyword)一詞有著不同的看法。作者認. er. al. n. 基詞典 Wiktionary 中:. io. 為,關鍵詞時時刻刻存在於我們的日常生活之中,而關鍵詞本身也有許多不同的定義,在維. Ch. engchi. i n U. v. 1). 關鍵詞可能是一串文字裡的任何詞彙。. 2). 關鍵詞可以是任何用來參照或連結到其他文字或資訊的詞彙; 它也可以是用來 描述文章或書籍主題的詞彙;抑或是在資訊系統內用來代表資料目錄的名稱(在資 訊領域之中)。. 3). 關鍵詞是代表一個指令或函數的保留字(在程式設計領域內)。. 4). 任何在文章中出現次數比平常多的詞彙也可稱為是關鍵詞(語言學領域)。. 13.

(21) 而作者最終認為,關鍵詞可以用來代表一篇文章主題的精華。在一般搜尋電子格式的資訊系 統時,也常用以關鍵詞為主包含關鍵詞比對或是依照主題分類或字母順序瀏覽的方式運作, 這也表示了關鍵詞是相當適合作為主題的描述詞。. 確定了關鍵詞本身的特性之後,Dutta 設計了對凸顯這些特徵的一套指標模型,其中包 含八個關鍵詞特徵指標,每個指標分別代表一種趨勢,此趨勢可說明在當某關鍵詞的一個指 標值偏高時,所顯示出此關鍵詞的特徵。在此針對八個指標的詳細定義分別說明如下:. (1). Integrated Visibility Index : 以 v(i)表示,定義為 Fr/Nr。此數值越高代表此關鍵 詞出現頻繁,且可能為主題中心的、領域共通的或是次要的詞彙。. (2). 政 治 大 詞出現頻繁,但孤立集中。此關鍵詞可作為某一種研究的中心,但對大範圍領 立. Momentary Visibility Index : 以 m(i)表示,定義為 Fr/Ar。此數值越高代表關鍵. ‧ 國. Potency Index : 以 p(i)表示,定義為 ln(Nr*Fr)。此數值越高代表關鍵詞數量多. ‧. (3). 學. 域來說卻只能作為其一分支。. 和分佈率平均,代表領域共通且具高相關度的關鍵詞。. sit. n. al. er. io. Frequency Density Index : 以 d(i)表示,定義為 Fr/J。值越高代表整個文件空間 涵蓋率高。. (5). y. Nat. (4). Ch. engchi. i n U. v. Occupancy Density Index : 以 o(i)表示,定義為 Ar/J。值越高代表整個文件時間 涵蓋率高。. (6). Keyword Density Index : 以 k(i)表示,定義為 Nr/J。 值越高代表高頻率能量。. (7). Stability Index : 以 s(i)表示,定義為 (Ar/Amax)*100。實際的分佈狀況與最高可 能分佈狀況的比值,值越高代表分佈的高穩定性。. (8). Scattering Index : 以 t(i)表示,定義為 Ar/Nr。此數值越高代表關鍵詞在整個主 題空間領域是分散的。. 14.

(22) 在研究主題 S 之下,從年份 y 到(y+l )之間的文章總數為 J,J 隨著 l 的變化有所不同。i 則是 由 1 到變數 n 之間的正整數,而 n 則是不同年份 l 之間的分別關鍵詞個數,Fr 為詞彙出現頻 率,Ar 為文件分佈頻率,Nr 是 l 年分間的關鍵詞總數。前兩者隨著關鍵詞本身而變化,後 者則是根據年份相應值也不同。Amax 則是用來預測某年份內最高的文件分佈頻率,為年份 l 與 Nr 的乘積。. 2.3 英語教學相關字彙研究. 根據 Nation[19]研究指出,受過教育英語母語使用者大約擁有 20,000 左右的英文字彙 量。但對外語學習者來說,想要擁有跟母語使用者同樣的量是相當困難的,即使處於與母語. 政 治 大 要在短時間內都學習到實屬不易,而且大部份的外語學習者較無機會處於母語使用環境下。 立 使用者相同的語言文化環境下,由於許多字彙可能是集中於各種不同的環境下才使用的到,. ‧ 國. 學. 然而為了協助英語學習者短期內有所進步,學習者可以透過學習一些經由英語教育研究學者 整理過的學術常用字彙,進而讀懂大部份的學術教材,達到較顯著的進步成效。. ‧ er. io. sit. y. Nat. 2.3.1 英語教學字彙的定義與特徵. 在 Coxhead 與 Nation 的研究中[20],將英語字彙分成了四個群組。分別為高頻字彙、. n. al. Ch. i n U. v. 學術領域通用字彙、學術領域專門字彙以及低頻字彙。分別介紹如下:. •. engchi. West[21]於約 5,000,000 字的英語語料庫中,建立了一份英語文章中使用頻率最 為頻繁的字彙列表 GSL(Genreal Service List)。這份列表由 2,000 個字彙所組 成,而 GSL 中的文字在學術文章中使用的字彙量約佔了 80%的涵蓋率(包含重 複的字彙)。. •. 學術領域通用字彙 AWL(Academic Word List)是由 Coxhead[22]所建立,當中包 含了 570 個字彙。AWL 是根據之前的 UWL(University Word List)改進,是從藝 術、商業、法律、科學等四大學術領域與其底下共 28 學門的語料庫中選出,不 但變得更精確,且經實驗證實,在學術寫作文章組合而成的語料庫中,AWL 能 夠達到 8.5%~10%左右的涵蓋率,在商業領域中涵蓋率更可高達 12%。而對於 15.

(23) 相同大小非學術文章類的小說語料庫,AWL 的涵蓋率只有 1.4%,也說明 AWL 在學術文章中常被使用。Coxhead 建議教育者應該教導這些學術上頻率高且常 被使用的字彙,而 AWL 也被廣泛的使用在學術英語教學上,國內如台大教育 視聽館也有關於 AWL 的介紹與教學[23]。. •. 學術領域專門字彙指的是來自於各種領域研究分野的字彙,總計約包含 1,000 個 字彙,此類的字彙佔學術文章的涵蓋率約只有 5%。. •. 低頻字彙則是在出現在多種的探討主題中,也因此字彙較為分散頻率也較低。 有的字彙甚至只出現一兩次。. 政 治 大 彙後在學術文章的閱讀上,將近 立90%以上的字彙都可理解。教育者也應優先教導這些使用率 由上述各點可知,在英語教學上,學習者可優先學習 GSL 和 AWL 中的字彙,習得這些字. ‧ 國. 學. 高的字彙,以達良好的教學成效 [26]。. ‧. 2.3.2 字彙與詞性的組合使用 - 搭配詞. y. Nat. sit. 搭配詞(Collocation)一詞的定義,在牛津英語搭配辭典的解釋是,『搭配詞是某種語言. n. al. er. io. 字彙合併的方式,以產出自然的口語和文字』[24]。而 Benson[25]等人主張,學習如何將字. i n U. v. 彙加以組合建構成片語、句子、段落和文章,就是學習搭配詞,而熟習搭配詞就能正確流暢. Ch. engchi. 地寫作。也由於搭配詞在使用上並無嚴格的限制,造成 EFL 背景的作者會依照本身所擁有 的字彙自行建立搭配詞,導致搭配詞在時態與字彙選擇上的錯誤。. 此外,Benson 也提出搭配詞可分成語法搭配(grammatical collocation)和詞義搭配(lexical collocation)兩種。語法搭配是由一個支配詞(dominant word)配上介系詞或不定詞或子句的其 他語法結構所組成的片語,而支配詞可以是名詞、形容詞或是動詞;詞義搭配則是由名詞、 形容詞、動詞以及副詞所組成,不包含介系詞及其他語法結構。而搭配詞也往往以名詞為中 心,名詞本身具備實質意義,也可由形容詞修飾描述,或當作動詞的受詞,更可接介系詞表 達關係。而搭配詞也有相關的書籍資源可以參考,如 Oxford collocations dictionary for students of English 或 LTP dictionary of selected collocations 等字典。而國內的研究也有藉由 比對雙語語料庫而開發出的一套系統 TANGO[27],學習者可選擇想學習的字彙,便列出該. 16.

(24) 字彙的可能的搭配詞組合供學習者使用,這對字彙學習與英語學術寫作上能提供及時且實用 的幫助。. 在搭配詞的使用上,Verb - Noun 組合的搭配詞是 EFL 學習者最容易犯錯的一種類型, 即使對以英語為母語的 Native Speaker 學習者來說也是如此[28]。此外,在搭配詞內容的組 成之中,由於搭配詞本身對於時態的限制相當嚴格,因此動詞成了學習者最容易犯錯的字 彙 ,故 Verb - Noun 搭配詞也是學習者在學習搭配詞時覺得最為困難的一環。. 2.4 本章總結. 政 治 大 多值得探究的空間。以學術字彙列表 AWL 為例,AWL 是以改良 UWL 而來,字彙量也從原 立 在英語教學及英語學術寫作的研究上至目前為止已有許多成效,但本文認為仍然有許. 本的 800 多字精減而至 570 字。然而學術字彙列表本身開發的目的,是希望在英語的教學上. ‧ 國. 學. 能起到顯著的功效而提供給英語學習者的優先學習字彙,因此必須同時考慮到使用頻率以及 涵蓋率。但在一般的英語學術寫作中,AWL 則有部份字彙在使用上的機率則相當低,相對. ‧. 的其搭配詞組合也相對減少,如此來說這些字彙在學術寫作上能提供的幫助有限。本研究的. Nat. sit. y. 目的,便是希望能夠補足在學術寫作應用時學術字彙列表的不足,並提供真實狀況下常用的. er. al. n. 格。. io. 搭配詞組合,讓 EFL 作者在進行學術寫作時,有更豐富的論述表達方式與正確的寫作風. Ch. engchi. 17. i n U. v.

(25) 第三章. 研究方法. 本文前兩章觀察到在學術寫作上現行學術字彙列表的不足,以及期待能提供 EFL 作者. 政 治 大. 在寫作時於學術字彙與搭配詞的使用上有較適當的參考目標。接下來本章將探討以關鍵詞擷. 立. 取技術輔佐關鍵詞分析模型的使用,抽取出一般性學術共通寫作詞彙的方法。下圖為本章研. ‧. ‧ 國. 學. 究方法的流程圖,本章以下各節依照此流程圖之順序進行研究步驟。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 3-1 研究方法之流程架構圖. 18. v.

(26) 3.1 語料庫設計 本文的研究目的,除了抽取出跨領域通用的學術寫作字彙外,並且能夠明顯各領域之 間字彙使用上的差異。為了達到上述目的,在語料庫設計部份,則分別說明如下:. I.. 首先是內容選擇的部份。學術寫作字彙可常見於一般學術課本教材、學術性雜 誌、會議期刊論文以及畢業論文等。在內容的編排,教材與雜誌因其讀者眾多 而採用較淺顯易懂的描述,字彙與搭配詞分佈也較為鬆散,而會議期刊與學位 論文,強調用字精確,論述簡扼,學術寫作字彙分佈集中,故以期刊與學位論. 政 治 大 館提供的資源下載,國外部份則是以各校圖書館所購置的學術論文資料庫而 立 文為主。 而資料來源的收集,國內是從各大學所建構之機構典藏與國家圖書. 得,全語料庫由 420 篇文章組成。. ‧ 國. 學. II.. 其次是跨領域部份的設計。為了強調跨領域的部份,則需至少由三個領域以. ‧. 上,彼此間能夠相互交集印證,得出的結果也較為客觀。領域以本文研究相關. sit. y. Nat. 的 Computer Science(CS)、English Learning & Teaching(ELT)之外,再加入用詞. io. 以此比較得出的結果是否為通用性的字彙。. n. al. III.. Ch. engchi. er. 高度專門術語化的 Medical 領域(MED),每個領域分別保有 140 篇學術論文,. i n U. v. 內容組成的部份,以學術論文為中心,其中包括期刊論文、碩士論文和博士論 文三種。分別取臺灣、日本及美國三個地區的學術論文。美國學術論文為 NS 作者的代表,並收集其博士論文,藉由大量統計與寫作深度較高的內容構成分 析出的結果,能夠作為 EFL 作者的參考。臺灣與日本學術論文的內容,是碩 士論文與期刊論文各半,日本部份則是同為 EFL 作者的臺灣之對照。數量上 臺灣日本則分別為 120 篇(期刊論文與碩士論文各 60 篇),美國部份為 180 篇 (全為博士論文)。. IV.. 資料內容的選取。學術論文經過收集之後,必須將原本的 PDF 檔案格式轉換 成 TXT 文字檔,並且將文章中的各種大小標題、圖表及參考文獻等內容移 除,只保留摘要以及內文部份。移除文章中的標題目的在於,如 method、 19.

(27) conclusion 等詞彙經常被用在標題之中。若標題不移除此類詞彙的頻率便會偏 高,會影響其他詞彙的頻率統計結果,況且此類字彙多已列在 AWL 之中,移 除對本研究並無太大的影響。. 綜合以上各點可知,語料庫在預先的設計上由三個領域及三個國家共九個集合,目的是藉由 兩種維度不同的交叉分析,得到不同性質的分析結果。如圖 3.2 所示,縱向箭頭表示可從單 一國家來看各國學術寫作特性,也可結合臺日兩國家(English as Foreign Language, EFL)與美 國(Native Speaker, NS)做比較。橫向箭頭則是依照領域來看各領域學術寫作特性,可就單一 國家領域探討其特性,也可結合三國家的 CS 領域發掘 CS 領域特有的常用學術字彙。而總 和九個象限一起綜合探討,就成為本文研究主題,學術寫作中通用的字彙特性,九個象限中 的數字則代表該國該領域下的學術論文數量。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3-2 語料庫結構特性分析. 3.2 關鍵詞擷取 - PoS Tag Patterns 從第二章關鍵詞擷取相關文獻研究可知,關鍵詞擷取的最終目的,是從大量資訊之中 抽取出可代表此資訊集合的詞彙,故此詞彙是包含主題中心的或是領域共通的資訊。本研究 目的則是追求在學術寫作中頻繁使用的字彙,故需先了解此學術寫作字彙的特性,針對其特 性而推演出適合的擷取方式,而此學術字彙是在補學術字彙列表(AWL, Academic Word List) 之不足,兩者性質類似,因此我們可以從 AWL 的特性進行分析。在 Coxhead 的研究中,強. 20.

(28) 調 AWL 在學術文章語料庫中可達 10%左右的文件頻率涵蓋率,且 AWL 在學術文章的使用 頻率相當高。而搭配詞也是最常用的詞彙組合表現,故學術寫作字彙在搭配詞中也經常出 現,而以搭配詞來說,Verb - Noun 組合的搭配詞是 EFL 學習者最長犯錯的一環以及搭配詞 以名詞片語為中心的表現方式等,再再都顯示了字彙組成中以動詞和名詞最為頻繁,此兩者 也是構成句子意義的主要字彙。. 綜合上述論點來看,我們截取關鍵詞應該以動詞和名詞為中心,並且過濾掉低頻率的 字彙與低涵蓋率的字彙。為了完成上述任務,我們透過 NLTK[29]設計擷取關鍵詞之演算 法。NLTK 由 Bird 與 Loper 所共同開發,是一套開放原始碼以 Python 程式語言為主的各種 程式模組與相關的語言學資料檔案(語料庫),目的是提供自然語言處理與文字分析上的研究 與分析使用,並支援多種作業系統平台。本文以 NLTK 為中心設計了一套擷取相關 Patterns. 政 治 大. 的演算法,將語料庫依照領域分隔,依照文章的句點分隔句子當作擷取的基本單位,每句分. 立. 學. Noun - Verb pairs. II.. Verb - Noun pairs. III.. Noun - * - Verb patterns. IV.. Verb - * - Noun patterns. er. io. sit. y. Nat. I.. ‧. ‧ 國. 別擷取以下四種 patterns:. 第一種 pattern 為一般句子表現的方式,由名詞後隨即接動詞而成,是名詞當作主詞的表達. n. al. Ch. i n U. v. 方式;第二種 pattern 也是常用的表達方式,名詞前面可接動詞的進行式與過去式用來修飾名. engchi. 詞,或是名詞當作動詞本身的受詞;後兩種則代表的是前兩種 pattern 的廣義表達方式。由於 在一般論述的表達上,常會用到許多詞性表達前後文關係,如介系詞、代名詞等,同時形容 詞多用來修飾名詞,副詞多用來修飾動詞,因此如想擷取出所有的名詞和動詞相互組合 pattern,必需考慮到這些附屬的詞性出現在兩者之間。然而第三種和第四種 pattern 中間也不 能夾雜名詞或動詞出現,如果出現如 NNV 組合的狀況,演算法會將此組合視為第二種 pattern 而只擷取接連出現的 NV pattern。. 下圖 3.3 為演算法詳細內容。整個演算法可分為三個部份,首先是語料庫的預先處理。 語料庫名稱定義成 AcademicThesisCorpus,對於語料庫內的所有文件,我們以句點分隔的 sentences 作為擷取的最小單位,在迴圈 sentences 中的每個 sent,以一個單字作為一個 token,token 則是自然語言處理程序中的最小可識別單元,所有程序執行都以 token 為基 21.

(29) 礎,故接下來的步驟包含詞性標註(PoS Tagging)與詞形還原(Lemmatization)都以單一字彙執 行。在此採用詞形還原而不使用詞根還原(Stemming)的原因是,為了正確統計使用字彙的頻 率而採取了還原的步驟,但詞根還原會破壞掉字彙本身的原始形式統一還原為字根(root), 在統計上會導致多形式的字彙統計錯誤,與研究目的找出精確的字彙使用上分岐,故採用詞 形還原。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 圖 3-3. Ch. engchi. i n U. v. Custom PoS Tag Patterns Algorithm. 第二部份則是關鍵詞擷取的文法定義。文法本身是依照正規表示式(Regular Expression) 中定義的方式將詞性標籤進行組合,在此文法名稱為 CPTP。CPTP 下擷取兩種 pattern(#2 與 #3)。#2 所定義的詞性組合,以動詞為首以名詞結尾,無論是何種形態的動詞或名詞皆可。 動詞和名詞之中,以一般較常見的形式,副詞(RB)在動詞後修飾動詞、形容詞(JJ)在名詞前 22.

(30) 修飾名詞、代名詞(PP)在名詞前修飾主詞或名詞、名詞前出現機率相當高的限定詞(DT)以及 介系詞(IN 與 TO)表達關係等,都是可允許出現的詞性,問號(?)表示上述詞性可出現或不出 現,因此#2 可分別代表前述第二種與第四種 patterns,#3 代表了第一種與第三種 patterns 的 組合。最後的部份則依照定義的文法遞迴式的將整個語料庫中符合文法的 patterns 作為關鍵 詞擷取出來。此外,由於擷取是以整個句子作為擷取的基本單位,故有可能某種 pattern 符 合#2 的 NV 組合,而其後面的 V 又與之後相連的 N 行程符合#2 的 pattern 狀況,雖說 V 的 部份是重複計算其頻率,但後續的分析,會回歸到單個字彙在語料庫象限中的頻率計算,故 此方法不會造成誤差。. 根據上述演算法擷取出來的 patterns 過濾掉非擷取目的其他詞性,將結果所得之 patterns 列表拆分為單字的集合,同時將名詞與動詞分開處理,並依領域計算其詞頻,此列. 政 治 大. 表為初步研究方法得出之領域別學術寫作字彙的候選詞。我們依據此候選詞列表作為形態分. 立. 析模型的輸入,同時根據每個分析模型指標的特性,交叉分析得到最終的學術寫作字彙。下. 1104. 1622. 1689. 719. 753. n. al. sit. MED. er. io. 動詞數量. ELT. y. ‧ 國. Nat. 名詞數量. CS. ‧. 候選詞數 \ 領域別. 學. 表 3. 1 為不同領域的候選詞數量資訊。. iv. 709. n U engchi 表 3-1 由 CPTP algorithm 擷取出之各領域學術寫作字彙候選詞. Ch. 3.3 形態分析模型套用 在本文第 2. 2. 4 節 Dutta[18]的研究中,集結了各種關鍵詞的定義後提出了關鍵詞本身 是能代表某個領域或是論述範圍的詞彙,並且設計八種指標,依照每個指標所代表趨勢的不 同,關鍵詞的特徵也有所不同。而指標中代表的所有關鍵詞特徵如下所示:. I.. 主題中心的. II.. 主題共通的. 23.

(31) III.. 輔助性質的. Dutta 同時強調,關鍵詞本身的屬性在整個主題空間下所代表的意義。就整個研究主題空間 來看,Fr 為字彙出現頻率,代表的是關鍵詞在空間上的表現狀態;Ar 則是文件發生頻率,代 表著關鍵詞在時間上的表現狀態;而 Nr 為空間內總關鍵詞數量總和,可作為整個研究主題空 間中能量分佈的表現。也因此,經由這些代表著不同關鍵詞屬性的變數的計算,引出關鍵詞 在研究主題空間的特徵表現。. 本研究則以 Dutta 提出的指標分析模型為基礎,針對不同領域下的語料庫候選詞進行指 標分析計算。但在基礎假設下本研究與 Dutta 的研究有所不同,必需分析其不同之處,才能 進行接下來的步驟。試將基礎上不同之處說明如下所示:. I.. 政 治 大 Dutta 提出的研究,某些指標是針對從年份 y 開始到總年數 l 之間關鍵詞的變化 立. ‧ 國. 學. 而計算。但在本研究之中,並無因應年份而進行分類切割,統一假設所有的語 料庫文章在同一年份進行實驗,l 則為固定呈正整數 1,因 l 而造成影響的. ‧. Amax 與 J 等兩變數有關的的指標計算均無法使用。受到影響的指標有四個,分 別為 d(i)、o(i)、k(i)以及 s(i)等,在接下來的實驗中均不使用此四個指標的計. y. sit er. io. al. v i n Ch 不適用於本研究,也因此相對應的函數值 engchi U. 在原本的研究之中,Vr 等八項指標定義是基於不同年份下的研究,然而在上一. n. II.. Nat. 算。. 點之中曾提到年份 l. i 的定義也相對. 失效,故在此我們將包含變數 i 定義的八個函數指標 v(i)、m(i)、p(i)、d(i)、 o(i)、k(i)、s(i)、t(i),在本研究中重新定義為 Vr、Mr、Pr、Dr、Or、Kr、Sr、 Tr 等八個指標,而也由上一點得知 Dr、Or、Kr 及 Sr 等四個指標於接下來實驗 不採用。. III.. 剩餘四個指標中,唯獨 Tr 本身所代表的趨勢無法判別關鍵詞是屬於上述三種中 何種的特徵。Tr 代表每個關鍵詞在整個研究領域的分散程度,並無法藉由 Tr 得 知關鍵字本身的特性,於此將 Tr 排除不予計算。. IV.. 在原研究內關鍵詞類型可分為三種,Keyword Cluster(三個單字以上)、KeywordCouple( 兩 單 字 構 成 ) 與 Single Keyword( 單 獨 字 彙 ) , 而 其 研 究 中 心 主 軸 以 24.

(32) Keyword Cluster 的計算分析為主。而本研究著重於單字彙為中心進行研究,找 出學術寫作字彙本身的特徵,也因此由 CPTP 演算法擷取出的詞彙將這些詞彙 拆開為以動詞和名詞為主的單字進行分析。. 套用分析模型後可算出表 3-1 中各項字彙與其指標數值。在原有指標分析模型下共有三種代 表其特性的指標可適用於本研究,分別為 Vr、Mr 以及 Pr。此外,代表字彙重要性的 TFIDF,在計算時會用到 Ar 與 Fr 作為運算元,可見其重要性。因此我們也將 Ar 與 Fr 納入為 本研究中分析模型指標的ㄧ部份,如此一來,分析模型便有五個指標可供實驗之用。在下一 章中,我們將分別針對每一項指標的特性與趨勢進行實驗分析,同時將結果與適合作為參照 目標的 AWL 做比較,擷取出最終的學術寫作字彙。. 3.4 本章總結. 立. 政 治 大. ‧ 國. 學. 在本章一開始,我們透過領域分野與語言特性交叉的語料庫設計,實現了對單一語料 庫多重分析的可能,並且在關鍵詞擷取的基礎下,採用數種以名詞和動詞為主的類似搭配詞. ‧. 的 PoS Tag Patterns,同時使用 NLTK 作為擷取的軟體工具,將可能為領域共通的各領域關. sit. y. Nat. 鍵詞候選詞擷取出來。隨後將這些候選詞套用在 Dutta 所提出的關鍵詞指標分析形態模型. io. er. 上,並且依照實際狀況,將許多不必要的指標剔除,只留下適合的指標供後序分析之用。接 下來在下一章中,我們將對這些具備有各指標值,也就是具備各指標特性的候選詞作更進一. n. al. Ch. i n U. v. 步的篩選,並且透過不同機制的交叉實驗,選出最後符合研究目的的學術寫作字彙與搭配 詞。. engchi. 25.

(33) 第四章. 實驗分析討論與結果. 本章將對第三章研究方法之結果進行實驗分析並討論。4.1 節提出實驗相關測試資料與進行. 政 治 大 研究的結果。4.3 節則以 4.2 節所得之結果,衍生出在語料庫中之常用搭配詞。4.4 節總結本 立. 實作之方法。4.2 節則進行實驗結果的討論與分析,並提出學術寫作上常用的字彙列表為本. ‧ 國. 學. 章。. ‧. 4.1 實驗資料與實作方法. y. Nat. io. sit. 本文以第三章研究方法所得之各領域之學術字彙候選詞作為實驗資料進行實驗分析,. n. al. er. 每一候選詞均有 Ar、Fr、Vr、Mr、Pr 五種指標索引值,我們分別對每項指標值個別進行實. i n U. v. 驗,探討這些候選詞在整個語料庫中之表現與分佈狀況。然而由於語料語本身資料龐大,若. Ch. engchi. 直接將候選詞與原始語料庫之字彙對照,便會造成這些候選詞在語料庫之中成為相當稀疏之 點狀分佈,故需是先對語料庫本身進行預先篩選。. 4.1.1 實驗資料說明. 目前整個語料庫原始資料包含 420 篇學術論文共有 79,874 個詞形(word type) 與 7,652,876 個詞次 (word token),經過 stop word 過濾(共 429 個詞形)的程序之後則為 79,445 個詞形與 3,649,156 個詞次,這些詞次依領域分佈如下表 4-1:. 26.

(34) ALL. CS. ELT. MED. 詞次(Token). 3,649,156. 1,188,794. 1,525,436. 934,926. 文件數(Documents). 420. 140. 140. 140. 表 4-1 AcademicThesisCorpus(ATC)語料庫領域別文件詞次數量分佈. 而所有詞次經由詞性標註後,其中總共包含了名詞 55,141 個和動詞 17,233 個詞次。而字彙 的頻率分佈大略如下:. 字彙出現頻率. 568. 2,712. 3,056. 2,454. 2,927. 3,104. 2,067. 2,205. 583. 622. 617. 368. 427. 10,440. 10,670. 38,291. 7,263. 25,810. 1,302. 4,746. 7,694. 1,405. y. Nat. 數量. 4,232. 1. io. sit. 動詞. 1,616. 立. 4,089. 2. ‧. 數量. 3,661. 3~5. 學. 名詞. 2,294. ~ 10 6~7 政 8治 大. 21 ~ 50 11 ~ 20. al. er. 總量. 51 ~ 200. ‧ 國. 字彙. > 201. n. 表 4-2 ATC 語料庫字彙頻率分佈. Ch. engchi. i n U. v. 由上述字彙頻率分佈可知,語料庫的原始字彙裡在頻率 5 之下的佔了 74.3%,而在頻率 10 以下則佔了 81.5%,分佈集中於低頻率字彙。原因是由於語料庫原始資料收集是採各領域隨 機收集的方式,故主題較為分散,這也是造成字彙數量多且頻率低的原因。另一方面,我們 也預先過濾了 stop word 等佔了原始語料庫 52%以上的一部份高頻率字彙,也是導致字彙頻 率集中分佈於低頻率區塊的原因。. 在一般關鍵詞擷取的方法中,由於關鍵詞本身具有高頻率的特性,因此為了精確的擷 取出關鍵詞同時減少不必要的字彙,會過濾掉部份低頻率的字彙,或是只取統計上頻率較高 的部份字彙進行關鍵詞擷取。由 Coxhead[22]提出的學術字彙列表(AWL)中也提到說,學術 字彙在一般學術語料庫中所佔的文件頻率涵蓋率約可達 10%,也就是約十篇學術文章中至少 有一篇會有學術字彙出現,而本研究中每個領域文章分別為 140 篇,以 Coxhead 的標準來 27.

(35) 看,學術字彙在 140 篇文章文件頻率應該是在 14 以上,因此相對的單一學術字彙的詞頻至 少也是在 14 以上,然而考慮到實際出現狀況上可能有些許的誤差,在此也稍微放寬篩選的 標準,語料庫中詞頻在 10 以下字彙則將其忽略不予計算。故由表 4.2 可得知,詞頻在超過 10 的名詞有 10,101 個,動詞則有 2,390 個。在這些名詞與動詞中,於三個領域皆出現過的 名詞有 1,980 個,動詞則是 1,040 個,此資訊將成為我們進行實驗的主要依據,同時整理如 下表:. ALL. CS. ELT. MED. Intersection. 名詞數量. 10,101. 4,112. 5,493. 4,389. 1,980. 動詞數量. 2,390. 1,282. 1,669. 1,168. 1,040. 政 治 大. 表 4-3 ATC 語料庫領域別動詞名詞數量分佈(出現頻率 Fr > 10). 立. ‧ 國. 學. 接著,我們以 AWL 作為數量參照的標準,而取出與學術字彙列表等量以及倍數以上的 字彙進行實驗。AWL 一共包含 570 個單字,其中副詞與形容詞佔了 101 個,剩下的 469 個. ‧. 字彙中,由於考慮到有些字彙可同時作為名詞和動詞使用,故在此我們也將此狀況納入考. sit. y. Nat. 量,因此包含了重複的字彙中,作為名詞的有 331 個而當作動詞的有 213 個。. n. al. er. io. 在上一章中,藉由 PoS Tag Patterns 選出的候選詞(請參照表 3-1)為研究的初步成果。然. i n U. v. 而這些候選詞,不僅僅是數量過於龐大,而且也非完全是學術寫作常用的字彙。正因如此,. Ch. engchi. 這些候選詞仍需要特定的方法來進行精確的實驗才能達到標準,故將這些候選詞套用於指標 分析模型,依指標的數值分別對字彙排序。然而在經由指標排名排序過後的字彙,卻無一個 適當的比較對象,故於此我們取與其性質相近的 AWL 等量以及 1.5 倍的字彙量兩種不同的 數量單位進行實驗比較,較能凸顯出其效果。以名詞來說,AWL 中名詞有 331 個,因此我 們取名詞候選詞各指標前 331 個與前 496 個(1.5 倍),來比較各指標值偏高所取出之字彙與 學術字彙列表在語料庫中分佈的情形,同樣地動詞部份也選取各指標前 213 與前 320 個候選 詞與學術字彙列表的分佈做比較,並且也將把各領域交集的部份以相同的方式進行實驗。下 表總結各項文中所提及之數據如下:. 28.

(36) CS. ELT. MED. Intersection. AWL*1. AWL*1.5. 名詞數量. 1104. 1622. 1689. 519. 331. 496. 動詞數量. 719. 753. 709. 339. 213. 320. S(D*). S(A). S(A+). S(D). 簡稱. 表 4-4 領域別候選詞數量與 AWL 數量統計. 4. 1. 2. 實驗方法. 政 治 大. 接著本節說明進行實驗的方法。首先在此先對欲進行實驗的對象分別進行定義說明, 在上表 4-4 中的統計數據分別定義如下:. 立. AWL 中所包含的名詞與動詞之字彙列表,目的是用來與等量的各領域動詞與名. ‧ 國. 學. I.. 詞當作 threshold,並且個別對其動詞和名詞跟候選詞中之動詞和名詞做分佈狀. y. Nat. 學術字彙中名詞與動詞原始數量的 1.5 倍數量,取其 1.5 倍作為 threshold 是與. sit. II.. ‧. 況之比較,以下簡稱為 S(A)。. III.. al. n. S(A+)。. er. io. S(A)之統計結果提供另一種的標準作參考,只取數量而無實際字彙,簡稱為. Ch. engchi. i n U. v. 三個領域 CS、ELT 與 MED 分別的候選詞樣本資料的集合, 簡稱為 S(D),此 集合目的是求得分別領域中為學術字彙的詞。. IV.. 候選詞中三領域共同交集而成的名詞與動詞之集合,,簡稱為 S(D*),目的是為 了求得各領域共通之學術字彙。. 由上述定義可知,進行實驗之內容有 S(D)、S(D*)與 S(A)三種,S(A+)只取其數量而無內 容。而 S(A)作為 S(D)與 S(D*)之參照對象,在 S(D)與 S(D*)都有 S(A)與其作分佈的比較。. 實驗步驟的第二步則為指標值的計算。在第三章曾經提及到,可當作適當指標計算的 有 Ar、Fr、Vr、Mr 與 Pr 五種指標值。在此說明計算方式與範圍: 29.

(37) I.. Ar:Ar 為定義範圍內的字彙於文章總數中出現的次數,也就是一般的常見的文 件頻率(Document Frequency)。以 S(D)來說,每個領域之 Ar 最多可達 140,在 S(D*)則以整體語料庫來算,最高值為 420。. II.. Fr:Fr 為最常見的語料庫統計資訊,即為某字彙在定義範圍文章內的出現頻率 總數,同樣地在 S(D)與 S(D*)中有所差異。. III.. Vr:Vr 為每個字彙平均出現頻率,定義為 Fr/Nr。Nr 代表的是在不同範圍內之 關鍵詞總數,在 S(D)與 S(D*)內也分別隨之變化,Vr 值高代表此字彙為主題中 心的、領域共通的或是輔助性質的。然而在第三章中曾經提到,由於 Nr 在本研. 政 治 大 Fr。因此在此作調整。各領域候選詞計算出 Vr 後,會依照候選詞 Vr 值由高而 立. 究中則因為年份 l 固定的關係,Nr 因而成為常數,同時 Vr 所得到的值會類似. ‧ 國. 學. 低排序,並計算各候選詞之間的 Vr 值差距。當出現 Vr 值差距大於其他候選詞 兩倍以上的字彙時,便將此字彙包含 Vr 值高於此字彙的所有字彙先行剔除,去. ‧. 除 Vr 值過高的字彙,使得透過 Vr 值選出的字彙是偏向領域共通而非主題中心 的,也因此選出的詞彙與 Fr 所選出的詞彙有所不同。. sit. y. Nat. al. er. Mr:Mr 為每篇文章中該字彙的出現頻率,定義為 Fr/Ar。此指標的計算類似. io. IV.. v. n. TF-IDF,強調單一範圍下字彙的重要性程度,同樣依 S(D)與 S(D*)而變動,Mr. Ch. 值高代表此關鍵詞出現頻繁。. V.. engchi. i n U. Pr:Pr 為範圍空間下字彙的分佈密度,定義為 ln(Fr*Nr)。在 S(D)與 S(D*)之中 隨之不同,Pr 值高代表此關鍵詞為領域共通的。如同 Vr 值的計算方式,各候選 詞也在計算出 Pr 值差距之後,將大於其他部份的候選詞 Pr 差距值兩倍以上的 字彙先行剔除,也因此選出的詞彙與 Fr 所選出的詞彙有所不同。. 經過上述的定義,對實驗內容 S(D)與 S(D*)計算其指標值後,分別依照上述五個指標值之術 值由高至低進行排序,可以得到單一領域 S(D)與共通領域下 S(D*)之字彙列表。. 透過計算指標值之結果,實驗的第三個步驟是在 S(D)與 S(D*)的結果中,取出各指標 值排序後數值較高的字彙,至於取出的數量則是參考 S(A)與 S(A+),取兩種數量分別來作比 30.

(38) 較。以 S(D)中的 CS 領域部份作為例子,以動詞來說,整份候選詞字彙列表經過指標值計算 字彙總數仍為 719 個,接著此份候選詞列表依照每個指標值分別排序之後,取出等同於 S(A) 與 S(A+)之兩種數量,也就是五個指標值分別取出排名前 213 個字彙與排名前 330 個字彙, 而我們總共可以得到 S(D)中三個領域加上 S(D*)共四份集合中包含動詞和名詞的八份指標序 字彙列表, 此結果可說是經過各指標值篩選出之第二階段之候選詞。附錄表一為 CS 領域 下動詞取與 AWL 等量數量 S(A)之指標序字彙列表,作為所有指標序字彙列表之代表(因資 料量過於龐大,在此取一部份表示),而我們也取 AWL 作為對照,作為 AWL 中的動詞字彙 分佈與各指標選出的動詞字彙分佈之對照。. 雖然目前已經得到了進一步篩選的指標序字彙列表,但這些列表仍然無法作為我們最 終的結果。其原因在於指標分析模型中的五個指標即使具備了篩選出字彙成為關鍵詞的能. 政 治 大. 力,但根據各指標本身的定義所擷取出的字彙與本研究所追求的一般性學術寫作字彙的定義. 立. 不盡相同,仍然需要另一種符合研究目的機制對這些指標序字彙列表作更精確的過濾。. ‧ 國. 學. 學術寫作上共通且經常使用的字彙,依照字面上的定義即為『在學術領域下之各分野. ‧. 都可能出現的字彙,並且字彙頻率本身具有一定水平之上』。同時在 Coxhead 的研究中[22] 也提到,學術字彙在學術各領域分野的涵蓋率約為 10 %,也就是代表說這些跨領域之學術. y. Nat. sit. 字彙在各領域的分佈是均勻分佈,並不會只在單一領域表現突出。基於上述的原則,接下來. al. n. 性進行檢證。. er. io. 的實驗步驟則針對指標序字彙列表進行字彙跨領域分佈,也就是單一字彙在不同領域之同質. Ch. engchi. i n U. v. 在統計學上有許多方法可以檢測出不同集合間的分佈狀況的效果,其中 Mantel[31]在約 50 年前就提出卡方分佈(Chi-Square Distribution)除了可計算樣本資料之間的相關性以外,也 適合用來計算這些樣本之間的同質性。在此我們以一個字彙當作一個集合,而該字彙在 CS、ELT 以及 MED 個別領域中的出現頻率作為該集合的樣本資料,藉以算出該字彙於不同 領域之間之同質性。卡方分佈的計算公式如下:. 31.

(39) 其中,. 為卡方值,其數值越高表示該樣本間之實際群體分佈與期望值相差甚大,代表該. 集合之同質性低。. 為該集合之樣本值,. 則代表所有樣本之間的期望值(在本研究中由於. 頻率皆為正數,故期望值為三個頻率之平均值), k 代表著樣本數量,在本研究中 k 值為 3。基於公平原則,語料庫中各領域學術論文乃隨機選取,雖然說每個領域文章中都包含 140 篇學術論文,但從表 4-1 中可以得知,由於文章內容長度不一,每個領域下的詞次相差 甚多,三領域詞次數比 CS : ELT : MED 約為 1.27 : 1.63 : 1,為了保持學術字彙的均衡出現 標準,必需作字彙頻率正規化的處理,於同質性計算時必須將字彙在各領域下之頻率除以各 領域之詞次數比後,根據正規化後的頻率計算字彙之同質性數值。. 接著取實驗步驟三所得之八份指標序字彙列表進行同質性卡方分佈的計算。由於卡方. 政 治 大 同時出現,該字彙便不予計算,依其分佈歸類於僅出現於兩領域或只出現於單一領域的類 立. 分佈計算是求出字彙於三領域間之同質性,在進行此計算時假使該字彙並沒有在三個領域中. 別。由表 4-3 來看,以名詞而言,三領域交集之名詞總數共有 1,980 個(動詞有 1,040 個),而. ‧ 國. 學. 篩選出來的名詞候選詞最多各有 331 個(即為 S(A),與 AWL 名詞等量 )以及 496 個(即 S(A+),AWL 之 1.5 倍名詞數量),為了清楚地了解這些候選詞在所有三領域交集名詞中的同. ‧. 質性表現,在此對所有三領域交集的名詞總數和動詞總數的同質性分佈切分為數個區間作為. n. al. er. io. sit. y. Nat. 區隔。. Ch. engchi. 32. i n U. v.

數據

圖 3-2  語料庫結構特性分析
圖 3-3  Custom PoS Tag Patterns Algorithm

參考文獻

相關文件

在基礎教育階段,學生通過視覺藝術評賞、視覺藝 術創作和視覺藝術知識 三個學習範疇

• 逆光拍照時經常在前 景物出現的色差現象.. 德霖技術學院

德霖技術學院 德霖技術學院 德霖技術學院..

張庭瑄 華夏技術學院 數位媒體設計系 廖怡安 華夏技術學院 化妝品應用系 胡智發 華夏技術學院 資訊工程系 李志明 華夏技術學院 電子工程系 李柏叡 德霖技術學院

至於在台灣的學術佛教,基礎相當脆弱,自 1950 年至 1960 年代,在台

z 當時有不少在華穆斯林對中國文化有深刻 研究,這些以漢文寫成的文學及藝術作

This research project is to analyze and research a specific laser configuration to obtain complete knowledge、technologies and experiences to transfer to the project initiator for

本研究以 2.4 小節中之時程延遲分析技術相關研究成果為基礎,針對 Global Impact Technique、Net Impact Technique、As-Planned Expanded Technique、Collapsed