• 沒有找到結果。

第三章 資料探勘技術

3.3 資訊檢索

裡大量資料;(2)要能快速回應,提供互動性;(3)多面向、多維度的 分析;(4)高階、視覺化的使用介面[27]。

3.3 資訊檢索(Information Retrieval)

的不同點在於基本假設與運算模式。

整體來說三種模式中,向量空間模式較易使用,其優點主要有 下列三項:

一、藉由權重值的給定,其檢索效能大幅勝過了布林檢索正確率。

二、它提供了部份比對的機制,可將分佈情形最相近的文件檢索出來。

三、藉由相似度的運算,可得到依相似程度排名的結果。

另外對於資訊檢索來說,目前皆會存在著幾個問題[27]:

一、字串不匹配;

二、使用者需求差異甚大;

三、領域需求差異大;

四、資料本身不一致、不乾淨,檔案格式差異大;

五、文件格式、資訊架構、作業環境的差異影響。

3.3.2 資訊檢索相關技術簡介

資訊檢索技術研究包括關鍵字擷取(Keyword Extraction)、全文資 訊檢索(Full-Text Information Searching)、文件自動分類(Document Classification)以及文件自動摘要(Text Summarization)相關技術等,將 於本節加以說明。

一、關鍵字擷取(Keyword)

「關鍵字擷取」是一種辨認有意義且具代表性片語或詞彙的 自動化技術。而在自然語言的研究領域中,將此問題定義為「斷 詞」。運用關鍵字擷取的目的乃希望能夠更精準、更有效率之搜 尋機制,將此搜尋機制所搜尋之資訊回饋給使用者。

關鍵字擷取的方法主要可分為人工解析、自動化解析與自然 語言處理等三種方式[30]。

二、全文資訊檢索(Full-Text Information Searching)

早期的全文資料庫經常藉由已有的資料庫,配以全文檔案所 組成,他們把全文中與檢索相關的屬性(Attribute)資料或關鍵字 (Keywords)利用人工或電腦程式整理出來,並利用資料庫管理系 統建立為欄位化的資料庫,在此資料庫中以指標(Pointers)指向相 關原文的檔案中的地址,故其設計主要是以書目資料庫的模式為 基礎發展而來,因此全文資料庫的檢索方式和傳統的資料庫一 樣,只是多提供了參閱原文的機會而已。由於從原文中摘出檢索 所需的屬性或關鍵字,存在許多與語文相關的技術㆖的困難,例 如:同義字、同形異義字、相關字等,因此必須由各種專家建立 索引典等權威工具對詞彙加以控制,以做為處理資料及檢索資料 的依據。

此作法即牽涉到索引法(Indexing)中的內容分析與選定所引用 語的工作,換言之必先整理詞彙,由詞彙做主要的查詢控制,如 此只要文獻增加而使用詞彙變化時,資料庫的索引必須全部更 新,引起系統維護方面的龐大負擔。

三、 文件自動分類(Document Classification)

文件檔案自動分類是一種重要的本文探勘工作,因為現存大 量的線上文件檔案,要自動將其加以組織成不同類別,以便能進 一步提供給文本檢索與後續分析使用,雖然這是一必要的工作但 此卻是很煩人的。

一般進行自動文件檔案分類的做法如下:首先把一組預先分 類過的文件檔案做為訓練集。然後對訓練集進行分析以便得出分 類模式。這種分類模式通常需要一定的測試過程,不斷地細化。

然後再用這些導出的分類模式對其他線上文件檔案加以分類。

這一處理過程與關聯資料的分類相似。但他們還是存在著本 質上的不同。關聯資料是結構化的,每個元組定義為一組屬性-值對。例如:在元組{sunny, warm, dry, not-windy, play_tennis}中 值“sunny”對應屬性weather_outlook,“warm”對應屬性temperature 等等。分類分析會判斷哪一個屬性-值對再決定一個人是否要打網 球這件事情上,是具有最大影響力的。文件檔案資料庫則不是結 構化的,它沒屬性-值對的結構。與一組文件檔案相關的關鍵字並 不能用一組屬性或維度來組織。因此,通常關聯資料導向的分類 方法,如決策樹分析,並不能使用來對文件檔案資料庫作分類。

對 文 件 檔 案 分 類 的 一 個 有 效 的 方 法 是association-based classification(基於關聯的分類),它是基於一組關聯的、經常出現 的文本模式來對文件檔案加以分類。基於關聯的分類方法處理過 程如下:首先,透過簡單的資訊檢索技術和簡單的關聯分析技術 來找出關鍵字和辭彙。其次,使用已經有的詞類,如WordNet,

或基於專家知識,或使用某些關鍵字分類系統,可以生成關鍵字 和詞的概念階層。訓練集中的文件也可以分類為類別階層。然 後,詞關聯探勘方法可用在一組被發現的關聯詞上,此關聯詞可 以最大化地區分一類文件檔案與另一文件檔案。這導致了對每一 文件檔案,會有一組對應的關聯規則。這些分類規則可以根據其 出現頻率和辨識能力,來加以排序,並用來對新文件檔案的分類 上。此基於關聯的文件檔案分類方法已經證明是有效的。

四、文件自動摘要(Text Summarization)

大量的資訊文件充斥於現今社會,使用者必需透過文件摘要

的方法,快速並有效率的找出自己所想要的資訊文件。以往使用 者可能透過資訊檢索、關鍵字搜尋等等方法來檢視所搜尋出來的 文章是否符合本身需求,但依據使用者所輸入的條件找出的文 件,並不能完全正確的找到符合使用者所要的資訊文件。因此,

若能透過文件摘要的技術,找出具代表整篇文件的關鍵字詞,勢 必能提高符合使用者欲查閱文件的正確率。

自動化文件摘要的研究從1950年開始,就已經有國外學者開 始在研究,至今已有一段歷史。Luhn H. P.[31]最早開始於文字探 勘技術研究,他是利用統計的方法,以字詞的出現頻率和字詞的 正規化的方法來找出文件摘要。

而過去文件摘要的技術主要都是著重於英文文件摘要方面 的研究,有鑑於英文文件與中文文件特性─比如關鍵詞的斷詞、

語句切割、特徵值計算方式的不同等,如果要將英文文件摘要的 方法套用到中文文件摘要上,是必要英文文件的摘要方法有所修 正。

自動化摘要方法之相關技術,分別於下列3.4節到3.6節詳加 介紹。

3.4 以語料庫為基礎的文件摘要方法(Corpus-based Approaches)

相關文件