• 沒有找到結果。

─智慧型知識擷取技術與應用研究-總計畫(III)

N/A
N/A
Protected

Academic year: 2021

Share "─智慧型知識擷取技術與應用研究-總計畫(III)"

Copied!
2
0
0

加載中.... (立即查看全文)

全文

(1)

1

智慧型知識擷取技術與應用研究-總計畫(III)

計畫編號:NSC

88-2213-E-002-033-執行期限:87 年 8 月 1 日至 88 年 7 月 31 日

主持人:陳信希 國立台灣大學資訊工程學系

共同主持人:陳光華 國立台灣大學圖書資訊學系

共同主持人:簡立峰 中央研究院資訊科學所

一、中文摘要 子計畫一建構適用於評估資訊檢索的 標竿測試集,同時亦可用於訓練語言模 型、建構計算機制的語料庫。子計畫二所 擷取的述語參數結構,對於語言分析及產 生有很大的幫助。在剖析句子時,它能減 少歧異樹的個數;在以轉換為本的機器翻 譯系統中,我們首先要知道不同語言間的 述語參數對應規則;在概念為基礎的資訊 檢索系統,述語參數結構提供文本概念基 本的骨架。子計畫三發展中文資源自動過 濾與抽取技術,目的是希望在研發出的中 文 Robot 軟體,增加針對特定主題自動過 濾與抽取功能,使使用者能隨時自動獲取 有興趣的資源。研究內容包括中英文文件 過濾技術差異分析,高效率中文文件過濾 技術,特定主題中文文件特徵抽取技術, 個人化資訊服務技術等。 關鍵詞:中文語言處理,計算語言學,語 料庫,資訊檢索,知識擷取,自然語言處 理。 Abstr act

Project 1 constructs a Chinese benchmark for performance evaluation. Besides, it can be also used to train language models. Project 2 extracts predicate argument structures. That can reduce ambiguities in parsing, propose mapping rules for transfer-based machine translation systems, and provide concept skeletons for concept-based information retrieval systems. Project 3 develops Chinese information filtering and discovering technologies.

Keywor ds: Chinese Language Processing,

Computational Linguistics, Corpus, Information Retrieval, Knowledge

Extraction, Natural Language Processing. 二、緣由與目的 知識是一切智慧型系統的根本,知識的 來源非常廣,並以不同的方式存在,其中 語言文字是人類最自然、最常用的媒体, 在 這 種 型 態 的 媒 体 裡 , 知 識 就 隱 藏 (implicitly embedded)在文本中。以現階段 網際網路(Internet)被廣泛使用的情況下,知 識的供應源不是太少,反而是太多。因此 如何有效的擷取知識,是項刻不容緩的研 究課題。本整合型計畫乃在這項規畫下, 就語料庫之設計與製作、語言知識和網路 中文資源自動擷取等三個子計畫通盤考慮 這個問題。 第一個子計畫的主要目的是建構適用 於評估資訊檢索的標竿測試集,同時亦可 用於訓練語言模型、建構計算機制的語料 庫。第二個子計畫則是探究語料庫中述語 參數結構擷取技術,並考慮其應用。第二 個子計畫在發展網路中文資源自動過濾與 抽取技術,使得網路中文資訊的檢索效率 與資源的利用進一步提昇。三個子計畫間 的關係非常密切,語料庫除了提供語言知 識擷取資料源外,也提供網路資源自動擷 取系統評估的語料;語言知識擷取系統不 僅從語料庫學習知識,提供網路資源自動 擷取系統,而且可回溯給語料庫設計部 份,擴大其規模;由網路中所擷取分類好 的資料,又可當語料庫的基本材料。 三、結果與討論 3.1 語料庫之設計與製作 本計畫主要的目標是建立一個可實際 應用的資訊檢索系統標竿測試集,首先要 確立測試集的主題。主題確立後則必須進

(2)

2 行初步的使用者需求分析,使用者檢索的 方式會影響標記主題的格式,以及描述主 題的用語。接下來重要的工作即是蒐集大 量的文件資料。此外在蒐集文件的同時, 必須使用先前制訂的標記集進行文件的整 理、組織、與標示的工作。對於製作與各 主題相關文件的相關判斷是本計畫比較困 難的部份,這牽涉了主觀判斷的問題。 本 研 究 已 實 際 建 構 完 成 一 包 含 文 件 集、查詢問題以及相關判斷的完整測試 集,也初步驗證了此建構程序是可行的。 與現行其他測試集相較,本測試集的規模 已在中等以上,在文件集與查詢主題方 面,均盡量使其能接近真實之檢索環境, 提高其測試的效度,而相關判斷的部分, 亦結合多位判斷者進行,減低了判斷結果 可能出現偏差機率。在各界急於研發中文 資訊檢索系統的今日,預期此測試集之建 置與出現,應能稍微解除目前國內中文完 全無從取得測試資料的現狀,使中文資訊 檢索系統的發展能有更高的可行性,也期 望它能成為後續相關研究的基礎。 3.2 語言知識擷取技術研究 研究中的困難處在於首先必須確定動 詞後的語法成分的左右邊界,然後決定那 些成分併接在 VP,並且對於併接在 VP 的 成分,區分是參數還是修飾語。第二,必 須決定句子的省略成分以及位置,以得到 正確的參數結構。最後,必須考慮動詞後 每個成分所扮演的語意的角色。 在達成的目標上,(1)提出一個述語參 數結構自動擷取系統。包含一個名詞片語 擷取器,以減少句子的變異性;用一個有 限狀態機制來得到動詞後面的語法成分; 再利用樹狀語料庫評估不同策略的績效。 (2)提出不同於最長優先策略的的參數結構 選擇策略。在我們的實驗裡,利用『切點 位置決定法則』,以提出所有可能的參數 結構。數據顯示,利用從樹狀語料庫中訓 練出來的 PAS 字典的最高機率優先策略, 績 效 比 最 長 優 先 策 略 好 。 (3) 利 用 計 算 Lexical Association,來決定 PP 的併接位置 藉以減少可能的參數結構個數,並利用樹 狀語料庫所提供的資訊,區分修飾語與參 數 。 (4) 我 們 也 將 transformation-based error-driven learning 的技術,應用在我們的 加強模型中;實驗結果顯示,應用這種 learning 的技巧,可以彌補系統的績效。 尚待努力的課題有:(1)由於動詞後面 的語法成分所扮演的語意角色,關係其為 修飾語或參數,所以,決定每個語法成分 所扮演的語意角色,亦非常重要。(2)可以 從動詞的語意,來決定其參數個數及態。 3.3 網路中文資源自動擷取技術的研究 研究內容包括改進中英關鍵詞自動抽 取技術,持續加強中英雙語檢索技術,以 及發展中英文資訊過濾技術。在中文關鍵 詞抽取的發展與應用方面,由於網路上的 資訊是日新月異、變動頻繁的,為解決這 個問題,先前我們採用 PAT-tree 為基礎的 統計自動學習方法,自動偵測新詞發生, 判斷其重要性,以即時獲得較具代表性的 關鍵詞,本年度進一步研發改進方法,使 得包括低頻人名術語,中英術語翻譯都有 機會為線上資料中自動擷取出。在中英雙 語檢索技術技術方面,我們試著從網路上 利用分類與關鍵詞抽取技術發展出相近主 題雙語語料自動收集技術,藉此有助於雙 語檢索時雙語辭典的建構與收集。此外本 年度也持續研究中英文分類技術,著重更 種分類方法比較分析,發展適合動態環境 分類技術。在中英文資訊過濾技術方面, 目前開始探討利用借書記錄,Bookmark, Hyper-links 等不同使用者資源,研究個人 化資訊檢索的可行性。 4. 自評 本 計 畫 的 研 究 內 容 與 原 計 畫 完 全 相 符,並已達成預期目標。研究成果具有學 術和應用價值,論文成果請參考各子計 畫。

參考文獻

相關文件

Note: Based on Regulations Regarding Study and Counseling Assistance for Overseas Chinese Students in Taiwan, overseas Chinese students who voluntarily transfer to other schools

6 《中論·觀因緣品》,《佛藏要籍選刊》第 9 冊,上海古籍出版社 1994 年版,第 1

Based on Cabri 3D and physical manipulatives to study the effect of learning on the spatial rotation concept for second graders..

Keyword: on-line testing, enhanced learning path, concept mapping, learning diagnosis, concept effect information, concept independence indexing, concept error

Eric, B., Georges-Louis B., Computer-Based Concept Mapping : a Review of a Cognitive Tool for Students, in Benzie David & Passey Don (eds.), Proceedings of Conference

After investigating those exegesis in the fi rst chapter of Kuiji’s commentary and Xuanzang’ translation of āgati, it shows that because Kuiji transformed the concept

In the third quarter of 2002, the Census and Statistics Department conducted an establishment survey (5) on business aspirations and training needs, upon Hong Kong’s

Sharma (1999), “An Intergrated Machine Vision Based System for Solving the Non-Covex Cutting Stock Problem Using Genetic Algorithms,” Journal of Manufacturing Systems, Vol..