• 沒有找到結果。

智慧型知識擷取技術與應用研究(II)─子計畫二:語言知識擷取技術之研究(II)

N/A
N/A
Protected

Academic year: 2021

Share "智慧型知識擷取技術與應用研究(II)─子計畫二:語言知識擷取技術之研究(II)"

Copied!
4
0
0

加載中.... (立即查看全文)

全文

(1)

1

行政院國家科學委員會專題研究計畫成果報告

智慧型知識擷取技術與應用研究(II)-子計畫二:語言知識擷取技術之研究(II)

Technologies for Linguistic Knowledge Extraction (II)

計畫編號:NSC 87-2213-E-002-022

執行期限:86 年 8 月 1 日至 87 年 7 月 31 日

主持人:陳信希 國立台灣大學資訊工程學系

一、中文摘要 一般詞彙可根據是否有明顯的符號, 粗分為公開的詞彙(overt constituents)及空 詞(empty constituents)兩種。公開的詞彙可 能是舊詞或新詞(未知詞),舊詞會有新的用 法,新詞則不斷的產生,因此判斷其規類 一直是很多自然語言處理系統研究的重 點。相對於公開的詞彙,空詞也是自然語 言非常普遍的語言現象,中英文都有,但 因其沒有明顯的記號,而且散佈在文本 中,影響文句的處理非常多,因此如能判 斷其類別,就可掌握其存在位置,以幫助 後續的運作。本子計畫針對這兩種類型的 詞彙提出自動分群的方法。 關鍵詞:分群法,語料庫,空詞,語言模 型,自然語言處理,公開的詞彙 Abstr act

There are two kinds of constituents - say, overt constituents and empty constituents. Overt constituents can be old words or new words. Old words may have new usage and new words are created dynamically. Thus to identify the use of a word is a research topic in natural language processing systems. In comparison to overt constituents, empty constituents do not have overt markers. They are distributed in natural language texts. How to identify their existence and their positions is also a problem. This project investigates the clustering methods to recognize these two kinds of constituents.

Keywor ds: Clustering, Corpus, Empty Constituent, Language Model, Natural Language Processing, Overt Constituent

二、緣由與目的 一般詞彙可根據是否有明顯的符號, 粗分為公開的詞彙(overt constituents)及空 詞(empty constituents)兩種。公開的詞彙可 能是舊詞或新詞(未知詞),舊詞會有新的用 法,新詞則不斷的產生,因此判斷其規類 一直是很多自然語言處理系統研究的重 點。相對於公開的詞彙,空詞也是自然語 言非常普遍的語言現象,中英文都有,但 因其沒有明顯的記號,而且散佈在文本 中,影響文句的處理非常多,因此如能判 斷其類別,就可掌握其存在位置,以幫助 後續的運作。本計畫針對這兩種類型的詞 彙提出自動分群的方法。 以下對空詞部分的研究詳細說明,它的 重要性可以從許多自然語言處理的應用上 看出,謹列舉以下數個例子,作為參考: (1) 改善剖析器的效能 如果句子中一些成分被移走或除 去,剖析規則可能誤用或無法使 用。 (2) 對指涉分析(anaphor resolution)有 很大的助益 指涉分析是語言處理一個重要問 題 , 如 果 指 稱 詞 (anaphor) 被 省 略 , 我 們 怎 麼 能 進 一 步 預 測 antecedent 的位置? (3) 協助自然語言理解 自然語言主語和賓語常被移走或 除 去 , 這 會 造 成句 子 理 解 的 困 擾。 (4) 機器翻譯系統的改進 原始語言的空詞在機器翻譯時,

(2)

2 可能必須以明顯成分替代 (5) 幫助辨識述語參數結構 在擷取述語參數結構時,空詞會 影響參數個數的判定。 (6) 檢索系統中關鍵詞更正確的統計 傳統檢索系統只計算公開的詞彙 出現的頻率,其實空詞也會影響 統計值。 三、結果與討論 3.1 公開詞彙的辨識與分類   報告中以形容詞為例說明,圖一是實 驗流程。我們使用上一年度計畫的執行結 果,先找出名詞片語。接著查詢名詞的語 意類別(如表一),討論名詞語意和形容詞的 關係 TAGGED TEXTS CHUNKER CHUNKED TEXTS NOUN TRACTOR NOUN PHRASES SEMANTIC TAG LOOKUP ADJ.-SEMANTIC

TAG PAIRS CLUSTER

ADJECTIVE GROUPS

圖一•實驗流程 表一•語意類別

CLASS SECTION TAG Existence 1 - 8 Relation 9 - 24 Quantity 25 - 57 ABSTRACT Order 58 - 83 RELATIONS Number 84 - 105 Time 106 - 139 Change 140 - 152 Causation 153 - 179 INTELLECT Formation of Ideas 450 - 515

Communication of Ideas

516 - 599

VOLITION Individual 600 - 736 Intersocial 737 - 819 LASS SECTION TAG

In General 180 - 191 SPACE Dimensions 192 - 239 Form 240 - 263 Motion 264 - 315 In General 316 - 320 MATTER Inorganic 321-356 Organic 357 - 449 In General 820 - 826 Personal 827 - 887 AFFECTIONS Sympathetic 888 - 921 Moral 922 - 975 Religious 975 - 1000 我們的實驗題材有 9123 不同的形容詞和 1001 個可能的名詞語意分類。他們的關係 可視為一個 9123×1001 的矩陣(OM),矩陣 裡的數值代表形容詞和名詞語意類別的共 現頻率。(1)定義 BM 矩陣,形容詞的相似 性,以(2)來計算,值越高代表兩個列向量 越相似。根據這數值,產生一個最佳的序 列,稱為 ORIS。下個階段,就按照 ORIS 和既定的門檻值來取得分類結果。門檻值 決定我們要分多少類,而(3)敘述的資訊流 失來判斷是否形成一類。

(1) For each entry (i,j) in OM, if OM(i,j) > 0, then set BM(i,j) to 1.

Otherwise, set BM(i,j) to 0.

(2) Sim RV RVr r RV kr RV k k r i j i j ( , )= − [ ]⊕ [ ] =

1001 1 1001 (3) ILk abs RVORISm i j RV j j RCk i mk = + − = =

( [ ] [ ]) 1 1001 1 3.2 空詞辨識與分類 以下是空詞辨識與分類系統的簡述: 步驟一:收集所有只含一個省略成分

的 null fragment ,並褪去所有的 function tags 及刮號,如此所得的集合為 T-1。 步驟二:定義關鍵字。 步驟三:在T-1中,若某字為關鍵字, 保留該字,否則保留詞類。這樣便形成了 T-2。將T-2編碼,並去除雜訊,這就是T-3。 步驟四:將T-3分類。 步驟五:計算各類別中兩兩的LCS, 其結果放在LCS-1中。 步驟六:為LCS-1再算一次LCS,得到 LCS-2。 步驟七:濾掉LCS-2中出現頻率較低的 以形成LCS-3。 步驟八:以LCS-3為規則,回授給訓練 資料,去除低正確率者,正式的規則於是 找到。

(3)

3 步驟九:為正式的規則找出使用限制 便得到LCS-4。 步驟十:將LCS-4再回授一遍,同樣 的,去除低正確率者。最後,便可得到 LCS-5。 步驟十一:以LCS-5為規則來找出省略 的成分。 我們使用 Penn Treebank 中 WSJ 的部 份來做訓練及測試。其中約五分之一為測 試資料,而其餘的五分之四為訓練資料。 測試資料有 8206 句。我們僅使用含有單一 省略的 null fragments 來做訓練,這是為了 避免訊息的相互干擾。 依序取出句中的詞類用以做為訓練字 串是較可行的方法,因為如果選的是字, 那麼幾乎一句就是一個類型,歸納不出個 所以然來。但是有些字對於省略成分的辨 識是相當重要的,若只保留詞類,這些線 索將隱晦不見。因此,我們定義了一組關 鍵字,若該字是關鍵字則保留字,否則就 保留詞類。 形容詞與副詞非但不是有用的線索, 更甚至會對我們的辨識形成干擾,因此我 們將之去除。另外,連續的名詞也被合併 起 來 。 我 們 的 訓 練 字 串 即 single null fragment,經過字/詞類的選擇後,去除雜 訊並將之編碼,便可用分類方法加以分 類。對每個分好的類別計算其元素兩兩之 間的 LCS。其實在分類時為了算出距離, 已將兩兩的 LCS 算出,此刻僅需直接取用 即可。對這些兩兩算出的 LCS,再一次地 兩兩計算 LCS,如此所得的樣式即是我們 想要的規則。我們將得到的規則與欲得知 空詞位置的字串一一循序對應,一旦規則 完全對應上,便可對空詞的位置加以預 測。由於我們的規則是計算 LCS 得到的, 所以規則中緊鄰的字元在原始句中未必緊 鄰,這樣非緊鄰的字元間應當允許其他字 元插入。因此我們使用一個特殊符號夾在 這非緊鄰的字元當中以處理此一現象。 如同文法中的規則一般,規則的使用 總免不了會有一些例外,然而我們的規則 都來自於正面的訊息,無從得知使用上的 例外。於是我們將規則回授給訓練資料, 收集使用錯誤的的部份來做為負面的資 訊。統計出負面資訊裡對應範圍前後最常 出現的字或詞類便是我們對於某一規則的 使用限制。 如前所述我們的測試資料共有 8206 句,其中有 6118 句含有省略成分,大約佔 75%。2008 句沒有省略,約佔四分之一。 完整的結果如下: Positions with nulls Positions without nulls Null predicted 10272 4327 Null not predicted 3115 187430 Recall 76.74% Pr ecision 70.36% 四、計畫成果自評 我們提出了一套為不定長度的句子作 分類的方法,並提出如何決定類別個數與 初始值的策略,其中衡量兩句的相似相異 程度的公式也是一個新的構想。因為採用 LCS來找出規則,原本令人頭痛的長距離 相關的現象也獲得了相當程度的解決。我 們的方法僅僅採用了語法的訊息,在樹狀 語料庫日漸普及,而詞類標記的技術又很 成熟的情況下,我們的作法是相當可行而 且有高度的移植能力,即使面對不同的語 言,依然可以如法炮製。此外,我們用來 歸納出規則的方式也可推廣到其他的應用 上。對於不同的應用對於正確率與回收率 的要求也就不同,有的需要較高的正確率 有的則對回收率的要求較為嚴格,我們可 以視情況來調整我們的系統。 我們的正確率目前在70%左右,這表 示仍有相當大的空間可以努力。一旦有較 多語意方面的資源,我們可以將系統提昇 到語意的層次。而語言學家的幫忙也可補

(4)

4 一些遺珠之憾。另外,如何在分類的方法 上得到一些進步也是個有趣的課題。 整體而言,研究內容與原計畫所列的 工作項目完全相符、並已經達成預期的目 標、所提出的語言模型是多項應用的基 礎、適合在學術期刊或會議上發表。 五、參考文獻

[1] Bies, A. et al. (1995) Bracketing Guidelines for Treebank II style Penn Treebank Project, 1995. [2] Brown, P.F., Pietra, V.J. et al. (1992),

"Class-Based N-Gram Models of Natural Language".

Computational Linguistics, 18(4), 467-479. [3] Charniak, E. (1993) Statistical Language

Learning, MIT press, 1993.

[4] Chen, H.H. (1988) “A Logical Approach to Movement Transformation in Mandarin Chinese”, International Journal of Pattern Recognition and Artificial Intelligence 2(1), 1988. pp. 71-86.

[5] Chen, H.H. (1992) “The Transfer of Anaphors in Translation”, Literary and Linguistic Computing,

7(4), Oxford University press, 1992. pp. 231-238.

[6] Chen, H.H. and Yang, H.M. (1994). “Generating Logical Terms of Chinese Sentences”, Journal of Information Science and Information Engineering, 10(3), 1994, pp. 245-316.

[7] Chen, K.H. and Chen, H.-H. (1993), "A Probabilistic Chunker". In: Proceedings of ROCLING VI, 99-117.

[8] Chen, K.-H. and Chen, H.-H. (1994), "Extracting Noun Phrases from Large Scale Texts: A Hybrid Approach and Its Automatic Evaluation". In: Proceedings of the 32nd Annual Meeting of ACL, 234-241.

[9] Chung, T.C.(1993). Treatments of Ellipses in An English-Chinese Machine Translation System.

Master thesis, Department of Computer Science and Information Engineering, National Taiwan University, 1993.

[10] Crouch, R.(1995). “Ellipsis and Quantification: A Substitutional Approach”, Proceeding of EACL-95.pp. 229-236.

[11] Gazdar, G. and Mellish, C. (1989). Natural Language Processing in PROLOG, Addison-Wesley, 1989.

[12] Hartigan, J.A. (1975) Clustering Algorithms,

Wiley, 1975.

[13] Hahn, U. et al. (1996). “A Conceptual Reasoning Approach to Textual Ellipsis”, Proceeding of 12-th European Conference on Artificial Intelligence, 1996, pp. 572-576.

[14] Hatzivassiloglou, V. and McKeown, K. (1993), "Towards the Automatic Identification of Adjectival Scales: Clustering Adjectives According to Meaning". In: Proceedings of the

31st Annual Meeting of the Association for Computational Linguistics, 172-182.

[15] Hindle, D. (1990), "Noun Classification from Predicate-Argument Structures". In:

Proceedings of 28th Annual Meeting of ACL, 268-275.

[16] Jain, A.K. and Dubes, R.C. (1988) Algorithms for Clustering Data, Prentice Hall, 1988. [17] Kehler, A. (1994) “Common Topics and

Coherent Situations: Interpreting Ellipsis in the Context of Discourse Inference”, Proceeding of ACL-94.pp. 50-57.

[18] Marcus, M.P. et al.(1993) “Building a Large Annotated Corpus of English : The Penn Treebank”, Computational Linguistics, Volume 19, 1993, pp. 313-330.

[19] Sells, P. (1985) Lectures on Contemporary Syntactic Theories, CSLI Publications, Stanford, 1985.

[20] Zimmermann, H.-J.(1991) Fuzzy Set Theory,

參考文獻

相關文件

從視覺藝術學習發展出來的相關 技能與能力,可以應用於日常生 活與工作上 (藝術為表現世界的知

• 做好的 Flash 動畫除了要儲存起來,方便日後再 載入 Flash 中編輯外,想要讓 Flash 動畫能夠在 其它應用程式播放,例如用 Microsoft Media Player

DPc2 發行版本 N-2,每月瑕疵的矯正修補檔之數量 DPc1 發行版本 N-1,每月瑕疵的矯正修補檔之數量 DPc0 發行版本 N,每月瑕疵的矯正修補檔之數量.

根據研究背景與動機的說明,本研究主要是探討 Facebook

我們提出利用讀取器與讀取器間的距離為參數來優化利用分層移除讀取器之方法的最佳 化技術 Distance Based Optimization for Eliminating Redundant Readers (DBO) ,此方法完全

一般在使用 MFCC 做為特徵擷取參數的方法,是將所有短時域音框所取得 的 MFCC 加總取平均(mean),或是將所有短時域音框所得之 MFCC 計算其標準 差(standard

本研究主要以 But-for 崩塌竣工時程分析技術為基礎進行理論推導,確認此延遲分析技術 計算邏輯之問題與完整性,之後提出修正之計算邏輯,使

本研究採用的方法是將階層式與非階層式集群法結合。第一步先運用