1
智慧型知識擷取技術與應用研究-總計畫(III)
計畫編號:NSC
88-2213-E-002-033-執行期限:87 年 8 月 1 日至 88 年 7 月 31 日
主持人:陳信希 國立台灣大學資訊工程學系
共同主持人:陳光華 國立台灣大學圖書資訊學系
共同主持人:簡立峰 中央研究院資訊科學所
一、中文摘要 子計畫一建構適用於評估資訊檢索的 標竿測試集,同時亦可用於訓練語言模 型、建構計算機制的語料庫。子計畫二所 擷取的述語參數結構,對於語言分析及產 生有很大的幫助。在剖析句子時,它能減 少歧異樹的個數;在以轉換為本的機器翻 譯系統中,我們首先要知道不同語言間的 述語參數對應規則;在概念為基礎的資訊 檢索系統,述語參數結構提供文本概念基 本的骨架。子計畫三發展中文資源自動過 濾與抽取技術,目的是希望在研發出的中 文 Robot 軟體,增加針對特定主題自動過 濾與抽取功能,使使用者能隨時自動獲取 有興趣的資源。研究內容包括中英文文件 過濾技術差異分析,高效率中文文件過濾 技術,特定主題中文文件特徵抽取技術, 個人化資訊服務技術等。 關鍵詞:中文語言處理,計算語言學,語 料庫,資訊檢索,知識擷取,自然語言處 理。 Abstr actProject 1 constructs a Chinese benchmark for performance evaluation. Besides, it can be also used to train language models. Project 2 extracts predicate argument structures. That can reduce ambiguities in parsing, propose mapping rules for transfer-based machine translation systems, and provide concept skeletons for concept-based information retrieval systems. Project 3 develops Chinese information filtering and discovering technologies.
Keywor ds: Chinese Language Processing,
Computational Linguistics, Corpus, Information Retrieval, Knowledge
Extraction, Natural Language Processing. 二、緣由與目的 知識是一切智慧型系統的根本,知識的 來源非常廣,並以不同的方式存在,其中 語言文字是人類最自然、最常用的媒体, 在 這 種 型 態 的 媒 体 裡 , 知 識 就 隱 藏 (implicitly embedded)在文本中。以現階段 網際網路(Internet)被廣泛使用的情況下,知 識的供應源不是太少,反而是太多。因此 如何有效的擷取知識,是項刻不容緩的研 究課題。本整合型計畫乃在這項規畫下, 就語料庫之設計與製作、語言知識和網路 中文資源自動擷取等三個子計畫通盤考慮 這個問題。 第一個子計畫的主要目的是建構適用 於評估資訊檢索的標竿測試集,同時亦可 用於訓練語言模型、建構計算機制的語料 庫。第二個子計畫則是探究語料庫中述語 參數結構擷取技術,並考慮其應用。第二 個子計畫在發展網路中文資源自動過濾與 抽取技術,使得網路中文資訊的檢索效率 與資源的利用進一步提昇。三個子計畫間 的關係非常密切,語料庫除了提供語言知 識擷取資料源外,也提供網路資源自動擷 取系統評估的語料;語言知識擷取系統不 僅從語料庫學習知識,提供網路資源自動 擷取系統,而且可回溯給語料庫設計部 份,擴大其規模;由網路中所擷取分類好 的資料,又可當語料庫的基本材料。 三、結果與討論 3.1 語料庫之設計與製作 本計畫主要的目標是建立一個可實際 應用的資訊檢索系統標竿測試集,首先要 確立測試集的主題。主題確立後則必須進
2 行初步的使用者需求分析,使用者檢索的 方式會影響標記主題的格式,以及描述主 題的用語。接下來重要的工作即是蒐集大 量的文件資料。此外在蒐集文件的同時, 必須使用先前制訂的標記集進行文件的整 理、組織、與標示的工作。對於製作與各 主題相關文件的相關判斷是本計畫比較困 難的部份,這牽涉了主觀判斷的問題。 本 研 究 已 實 際 建 構 完 成 一 包 含 文 件 集、查詢問題以及相關判斷的完整測試 集,也初步驗證了此建構程序是可行的。 與現行其他測試集相較,本測試集的規模 已在中等以上,在文件集與查詢主題方 面,均盡量使其能接近真實之檢索環境, 提高其測試的效度,而相關判斷的部分, 亦結合多位判斷者進行,減低了判斷結果 可能出現偏差機率。在各界急於研發中文 資訊檢索系統的今日,預期此測試集之建 置與出現,應能稍微解除目前國內中文完 全無從取得測試資料的現狀,使中文資訊 檢索系統的發展能有更高的可行性,也期 望它能成為後續相關研究的基礎。 3.2 語言知識擷取技術研究 研究中的困難處在於首先必須確定動 詞後的語法成分的左右邊界,然後決定那 些成分併接在 VP,並且對於併接在 VP 的 成分,區分是參數還是修飾語。第二,必 須決定句子的省略成分以及位置,以得到 正確的參數結構。最後,必須考慮動詞後 每個成分所扮演的語意的角色。 在達成的目標上,(1)提出一個述語參 數結構自動擷取系統。包含一個名詞片語 擷取器,以減少句子的變異性;用一個有 限狀態機制來得到動詞後面的語法成分; 再利用樹狀語料庫評估不同策略的績效。 (2)提出不同於最長優先策略的的參數結構 選擇策略。在我們的實驗裡,利用『切點 位置決定法則』,以提出所有可能的參數 結構。數據顯示,利用從樹狀語料庫中訓 練出來的 PAS 字典的最高機率優先策略, 績 效 比 最 長 優 先 策 略 好 。 (3) 利 用 計 算 Lexical Association,來決定 PP 的併接位置 藉以減少可能的參數結構個數,並利用樹 狀語料庫所提供的資訊,區分修飾語與參 數 。 (4) 我 們 也 將 transformation-based error-driven learning 的技術,應用在我們的 加強模型中;實驗結果顯示,應用這種 learning 的技巧,可以彌補系統的績效。 尚待努力的課題有:(1)由於動詞後面 的語法成分所扮演的語意角色,關係其為 修飾語或參數,所以,決定每個語法成分 所扮演的語意角色,亦非常重要。(2)可以 從動詞的語意,來決定其參數個數及態。 3.3 網路中文資源自動擷取技術的研究 研究內容包括改進中英關鍵詞自動抽 取技術,持續加強中英雙語檢索技術,以 及發展中英文資訊過濾技術。在中文關鍵 詞抽取的發展與應用方面,由於網路上的 資訊是日新月異、變動頻繁的,為解決這 個問題,先前我們採用 PAT-tree 為基礎的 統計自動學習方法,自動偵測新詞發生, 判斷其重要性,以即時獲得較具代表性的 關鍵詞,本年度進一步研發改進方法,使 得包括低頻人名術語,中英術語翻譯都有 機會為線上資料中自動擷取出。在中英雙 語檢索技術技術方面,我們試著從網路上 利用分類與關鍵詞抽取技術發展出相近主 題雙語語料自動收集技術,藉此有助於雙 語檢索時雙語辭典的建構與收集。此外本 年度也持續研究中英文分類技術,著重更 種分類方法比較分析,發展適合動態環境 分類技術。在中英文資訊過濾技術方面, 目前開始探討利用借書記錄,Bookmark, Hyper-links 等不同使用者資源,研究個人 化資訊檢索的可行性。 4. 自評 本 計 畫 的 研 究 內 容 與 原 計 畫 完 全 相 符,並已達成預期目標。研究成果具有學 術和應用價值,論文成果請參考各子計 畫。