• 沒有找到結果。

應用模糊資訊檢索對文件做多重分類之研究

N/A
N/A
Protected

Academic year: 2021

Share "應用模糊資訊檢索對文件做多重分類之研究"

Copied!
8
0
0

加載中.... (立即查看全文)

全文

(1)應用模糊資訊檢索對文件做多重分類之研究 蔡嘉嘉 (Chia-Chia Tsai)、曾守正 (Frank S.C. Tseng) 國立高雄第一科技大學 資訊管理系 National Kaohsiung First University of Science and Technology Department of Information Management imfrank@ccms.nkfust.edu.tw. 摘. 要. 網際網路的普及造就了文件資料大量流 通,所以對於日積月累的文件資料,如果不加 以分類整理,將會為人們帶來相當多的困擾。 在真實世界裡,一份文件的內容可能涉及多個 不同的議題,或是各事先定義的類別之間並不 完全獨立,使得將每份文件只歸類到單一特定 類別的作法,並不見得合理。在本論文中,我 們將以模糊集合理論 (Fuzzy Set Theory) 為 基礎,透過「模糊資訊檢索分類」 (Fuzzy Information Retrieval Categorization) 以文件做 為分析目標,將每份文件進行合理的多重分 類。將文件同時歸屬於多類,不僅可以提高文 件檢索的效率,後續更可以進一步建立文件倉 儲 (Document Warehouse),以便對該文件進行 文件探勘 (Text Mining) 做準備。對於分類的 結果,本研究將透過分類方法之效能評估,來 驗 證 其 正 確 率 (Precision Rate) 和 回 現 率 (Recall Rate) 相關指標。 關鍵字:多重分類問題、模糊資訊檢索分類、 正確率、回現率. 一、緒論 在現代科技工作中,對文件內容做資訊擷 取 (Information Retrieval) 是一項很重要的工 作。如進行某項課題的研究,查詢某項專利內 容及時間、範圍等。而文件檢索 (Document Retrieval) 的工作量是浩瀚的,系統必須在合 理的時間內滿足使用者的需求,因此現代文件 檢索都要借助計算機來建立文件檢索系統。但 是,實際應用中所需檢索的訊息也就是使用者 的資訊需求,往往具有一定的模糊性 (Fuzziness)。 過去的決策規則是建立於二值邏輯 (Two-Valued Logic) 之 上 , 一 個 描 述 字 (Descriptor;或稱索引字,Index-Term) 只能「屬 於」或「不屬於」一篇文件的描述。雖然傳統 二值邏輯,對於理解和實作而言,皆顯得相當 直觀且容易。但是,真實世界所存在的多種模 糊性 (Fuzziness),使它產生一些明顯的缺失: 1. 自然語言文件中,常有「非常」、「有些」 等 的 模 糊 語 意 量 化 詞 (Fuzzy Linguistic Quantifier)。因此,描述字對於文件的描述 程度應有所差異才是。 2. 無 法 對 於 查 詢 搜 尋 樣 型 (Query Search Pattern) 中的描述字,以不同的重要性加以 處理。如: 「CASE (有點重要) and Hypertext (非常重要)」。. 由於文件之內容常跨多個主題,使得文件 的分類含有不確定性,分類結果常因人而異, 所以本研究利用模糊理論之演算,來規範文件 分類的不確定性或大約的推理,方便人們的資 訊處理,減少人為的差異。本論文以模糊集合 理論 (Fuzzy Set Theory)[5][20][19] 為基礎, 運用「模糊資訊檢索分類」(Fuzzy Information Retrieval Categorization) [21] 以文件做為分析 目標,來將每份文件進行合理的多重分類。將 文件同時歸屬於多類,不僅可以提高文件檢索 的 效率, 後續 更可以 進一 步建立 文件 倉儲 (Document Warehouse)[13],以便對該文件進 行文件探勘 (Text Mining) 做準備。對於分類 的結果,本研究將透過分類方法之效能評估, 來驗證其正確率 (Precision Rate) 和回現率 (Recall Rate) 相關指標。 本論文的結構組織如下:第二節對相關研 究做一番說明;第三節說明如何運用「模糊資 訊檢索分類」來對文件做多重分類的問題與解 法;第四節說明「模糊資訊檢索分類」的應用 案例;第五節對分類方法之效能評估做一番討 論;最後總結並討論未來可能的研究方向。. 二、相關研究 2.1 模糊集合理論 根據定義,一個模糊集合可視為一個以模 糊界限來分群所成的集合。假設存在一定義域 (Universe of Discourse) U,在此 U={u1, u2, …, un},則一個針對 U 之模糊集合 A 將如定義 2.1 所述,其中µΑ可視為對應模糊集合 A 的歸屬函 數 (Membership Function),而 µΑ(ui) 可視為 ui (ui∈U) 隸 屬 於 模 糊 集 合 A 的 歸 屬 程 度 (Membership Degree),其值介於 [0, 1] 之間。 定 義 2.1 : 針 對 一 個 定 義 域 (Universe of Discourse) U = {u1, u2, …, un}而言,一個模糊 集合 (Fuzzy Set) A 定義為 Fuzzy Set A = {( ui , µ A ( ui ) ) ui ∈ U }. 假設有兩個針對定義域 U 之模糊集合 A 和 B (在此 U = {u1, u2, …, un}) 分別表示 Fuzzy Set A = {( ui, µΑ(ui))| ui∈U }和 Fuzzy Set B = {( ui, µB(ui))| ui∈U }。則模糊集合 A 和 B 的聯 集運算和交集運算之定義分別如定義 2.2 及定 義 2.3 所示。 定 義 2.2 : 針 對 一 個 定 義 域 (Universe of Discourse) U = {u1, u2, …, un}而言,模糊集合 A = {( ui, µΑ(ui))| ui∈U }和模糊集合 B = {( ui, µB(ui))| ui∈U }的聯集運算定義為.

(2) {. A ∪ B = ( ui , µ A∪ B ( ui ) ) µ A∪ B ( ui ) = Max ( µ A ( ui ) , µ B ( ui ) ) , ui ∈ U. }. 定 義 2.3 : 針 對 一 個 定 義 域 (Universe of Discourse) U={u1, u2, …, un}而言,模糊集合 A = {( ui, µΑ(ui))| ui∈U }和模糊集合 B = {( ui, µB(ui))| ui∈U }的交集運算定義為. {. A ∩ B = ( ui , µ A∩ B ( ui ) ) µ A∩ B ( ui ) = Min ( µ A ( ui ) , µ B ( ui ) ) , ui ∈ U. }. 最後,我們介紹模糊集合理論中 α-截集 (α-level set or α-cut) 的概念[20][21]。α-截集 是在模糊集合與普通集合相互轉化中的一個 重要概念,在模糊決策中也經常用到。針對一 個模糊集合 A 的α-截集 Aα 如定義 2.4 所示。 定 義 2.4 : 針 對 一 個 定 義 域 (Universe of Discourse) U={u1, u2, …, un}而言,一個模糊集 合 A = {( ui, µΑ(ui))| ui∈U }的α-截集 Aα定義為 Aα = {ui µ A ( ui ) ≥ α , ui ∈ U }. α ∈ [0, 1]. 普通集合 Aα是對原來的模糊集合 A 的歸 屬度先確定一個限定值α (0 ≤ α ≤ 1) 之後,再 把歸屬度 µΑ(ui) ≥ α 的元素挑選出來而得。在 Aα的定義中要注意兩點: 1. A 是模糊子集,但 Aα是普通集合; 2. Aα的直觀意義是 ui 對 A 的歸屬度達到或超 過α的就算 ui 是 A 的元素。 而α-截集性質為[21]: (A∪B)α = Aα∪Bα (A∩B)α = Aα∩Bα 若 α1 、 α2 ∈ [0, 1] , 且 α1 ≤ α2 , 則 Aα1 ⊇ Aα 2 。 由上述第 3 點可知:α-截值越低,Aα越大;α截值越高,Aα越小。當α = 1 時,Aα最小。 所以,為了迎合使用者的主觀意識及提供 多重分類的彈性,模糊訊息檢索分類引用了α截集的觀念可做為分類過程中的一個模糊項 臨界值 (Threshold)。這個臨界值用以滿足限 制條件的最低程度。. 1. 2. 3.. 2.2 分類的觀念和回顧. 1. 互斥(Exclusive) 與非互斥 (Non-Exclusive) (或稱重疊 (Overlapping)):前者是指一資料 只能被分到一類別中。後者是指容許同一 資料被分到多個類別。例如:在圖書分類 中,一本名為「自然語言與資訊檢索」的 書,可以被分到「自然語言」類,也可以 被分到「資訊檢索」類。 2. 監 督 式 (Supervised) ( 或 稱 非 固 有 (Extrinsic)) 及非監督式 (Unsupervised) (或 稱固有 (Intrinsic)):前者是指事先設定好類 別,然後將欲分類的資料歸到與之相似程 度較高的類別。例如:大家所知道的圖書 分 類 法 , 這 種 方 法 稱 為 分 類 (Classification)。後者是指事先不設定有幾 類,只要欲分類的資料被視為相似,就被 分為同一類。 3. 階 層 式 (Hierarchical) 與 非 階 層 式 (Non-Hierarchical) ( 或 稱 平 面 式 (Partitional)):前者是指分類具有階層性。 例如: “電腦通訊” 這個類別又包含了 “程 式設計”、 “電腦遊戲” 等類別,而 “電腦 遊戲” 類別又包含了 “遊戲軟體”、“遊戲週 邊” 等類別。以分群 (Clustering) 的觀點來 看,階層式的分類有一個很大的好處,可 以根據其樹狀結構得知資料是在什麼階段 被合併 (Merge) (從樹葉開始往上看到樹根) 或被分開 (從樹根開始往下看到樹葉)。後 者是指分類不具階層性,即平面式的分 類。例如:將人劃分為男人與女人,即可 以視為平面式的分類。以某個角度來看, 可以將階層式的分類視為平面式分類的特 殊情形。 Classifications. Non-Exclusive (Overlapping). Exclusive. Extrinsic (Supervised). Intrinsic (Unsupervised). 2.2.1 分類的定義及目的 分類就是將資料 (Data) 或物件 (Object) 做某種方式的歸類,其主要作用在於將性質相 近的資料或物件,放在同一個地方,使得人們 要從眾多資料中查詢到所需的資料時,能夠更 有效率且迅速地取得。尤其在此資訊爆炸的時 代,如果沒有做分類的話,要從龐大的資料庫 內尋找資料將是使用者的一大困擾,因此分類 的重要性更形突顯。. 本論文所採用的分類方法:是融合上述之 非互斥 (亦即做重覆分類)、監督式 (亦即本身 就有類別) 與階層式所進行的研究。. 2.2.2 分類的方法及型態. 2.2.3 分類與分群. 根據 [7][8] 的研究,分類的型態有很多 種,而 Lance and Williams (1967)[8] 則將分類 的問題型態以一樹狀結構圖表示,如圖 2.1 所 示。圖 2.1 的樹狀圖定義了不同種類的分類問 題型態,圖中的每一個節點分別說明如下:. 分類 (Classification) 與分群 (Clustering) 的區別說明如下: 1. 分類 (Classification):在分類的做法上,首 先要定出類別並試圖用某些特性來描繪此 類別。這 些特性通常 必須具備辨 識能力. Hierarchical. Partitional. 圖 2.1:分類型態之樹狀圖.

(3) (Discrimination Value),亦即它常常在某一 類中出現,而幾乎不會在其他類別中出現。 如何決定類別,也許非常主觀,直覺認為要 這樣分,也可能是先瀏覽過欲分類的資料, 然後訂出類別。另外,也可以先做分類之 後,利用因素分析 (Factor Analysis) 重新決 定類別[6]。 2. 分群 (Clustering):分群即是將一些具有共 同特性的文件群集在一起,目標是將相關的 文件組合在一起[1]。最直覺的做法就是將 資料依序讀入,與現有的類別比較相似度 (Similarity),相似度如果大於某一定程度, 即將此文件歸於此類,否則就自成一類,直 到所有的資料都已分類完畢。當然,我們必 須把原始資料用某種方法做適當地表示,例 如 : 選 定 一 些 特 性 (Property) 或 屬 性 (Attribute) 來描述這些資料,如此也才有衡 量相似性的依據。分群在資訊檢索方面佔很 重要的地位,也有許多這方面的研究成果發 表[9][4]。對一個檢索系統而言,若此系統 將資料事先做分群,以樹狀結構來儲存,當 一個查詢來時,就不必做線性搜尋 (Linear Search) 而只要做樹狀搜尋 (Tree Search), 可以省去許多搜尋時間。. 2.3 模糊資訊檢索分類系統架構 2.3.1 模糊文件檢索架構 所謂的「文件」(Documents),指的是一 個資訊體,其內容可以包含文字 (Text)、圖形 (Graphics)、動畫 (Animation)、語音 (Voice)、 視訊 (Video) 等多媒體。然而,由於不同的媒 體有不同的特性,因此在本論文中所探討的仍 是以文字為主體的文件。 文件檢索的流程大致可以以圖 2.3 表示。 其中,查詢 (Query) 是使用者對系統所下的命 令 (Command),至於其命令的格式則因系統 之不同而有差異,通常可包含搜尋樣型 (Search Pattern)、文件資料庫 (Document Base) 之 名稱、 符合 文件數 之上 限以及 輸出 裝置 (Output Device) 等。所謂的「搜尋樣型」,指 的是由描述字和邏輯運算子「NOT」 、 「AND」 及「OR」所組成的片語,這是一個查詢的最 基本部份,不可或缺。而其他部份則選擇性地 可有可無。 查詢在經過語法、語意分析後,系統便開 始 從文件 資料 庫中尋 找符 合搜尋 樣型 的文 件,最後回應給使用者一份符合文件的清單。 文件資料庫中的文件,由於數量龐大,一般並 不適合做全文檢索 (Full-Text Retrieval)。因 此,原始文件必須經過一個抽象化的過程,而 以 簡 化 的 文 件 描 述 (Document Description) 代表原始文件。在抽象化的過程中,原始文件 通常是以對其內容具有描述性或代表性的描 述字 (Descriptor;或稱關鍵詞,Keyword) 來 組成它的文件描述,如圖 2.4 所示。. Analyze Query. Query. Search Matched Documents. Matched Documents. Document Base. 圖 2.3:文件檢索的概略流程 原始文件 描述字(關鍵字). f C h s. 文件描述. {c, f , h, s}. {( c, µ( c) ) , ( f , µ( f )) , ( h, µ( h) ) , ( s, µ( s) )} 圖 2.4:文件抽象化成文件描述. 至於模糊文件檢索的第一步,就是要從改 進文件描述著手。文件描述中的任一描述字, 對於文件的描述程度,應該根據文件之實際內 容而有所不同,而不是一律視為平等,如圖 2.4 中的文件描述應改成{(c, µ(c)), (f, µ(f)), (h, µ(h)), (s, µ(s))},其中µ(c)為 c 對該文件的描述 程度,其餘類推,也就是說文件描述將是一個 描述字的模糊集合。 在過去,關於模糊檢索的研究,為了解決 傳統二值邏輯法的缺失,多是屬於數學模型的 研究[10][17][11][12][14][15];這些研究提供了 一些幫助,使我們得以數學的觀點了解模糊檢 索;不過就實務觀點而言,有些仍難以實作。 以下子節我們將以模糊文件檢索為基礎,提出 應用模糊資訊檢索分類法來進行文件多重分 類的系統架構,如圖 2.5 所示。. 1.3.2 模糊資訊檢索分類架構 模糊資訊檢索分類架構是根植於模糊文 件檢索的基礎上,它按照查詢訊息特性,應用 模糊集合理論 (Fuzzy Set Theory) 和方法來 來預先對文件進行分類,從而提高文件檢索的 效率。模糊資訊檢索分類法的步驟為: 1. 首 先 , 建 立 關 鍵 詞 - 文 件 模 糊 矩 陣 (Keyword-Document Fuzzy Matrix) 及關鍵 詞-類別模糊矩陣 (Keyword-Category Fuzzy Matrix); 2. 其 次 , 建 立 文 件 - 類 別 模 糊 矩 陣 (Document-Category Fuzzy Matrix),並利用 該矩陣建立文件-多重類別模糊矩陣 (Document-Multi-Category Fuzzy Matrix); 3. 第三步則根據 α-cut 來判別文件可被多重 歸屬的類別。而模糊文件檢索的查詢句改為 新加入文件,原為檢索的模型就可成為分類 的模型。圖 2.5 為本研究模糊資訊檢索分類 的系統架構。而在模糊資訊檢索分類系統架 構 中 之 模 糊 分 類 機 制 (Fuzzy Classifier Machine) 部份則是本研究極欲探討之中心 主題,如圖 2.5 陰影部份所示。.

(4) 選定文件資料集合 Documents Enter Query User. User Interface. Analyze Query. Fuzzy Classifier Machine. Display. Ranking Documents with Similarity. Response(q). 萃取分類知識. Fuzzy Retrieval Engine. Document Base. 圖 2.5:模糊資訊檢索分類之系統架構 本研究運用已預先完成的人工分類概 念,延伸模糊文件檢索模型來進行文件模糊多 重分類。利用已分類資料當作學習範本,並且 假設人工分類類別都是正確的。進行模糊多重 分類時,系統會依照新文件的描述項 (關鍵 詞)、描述程度和各個訓練類別所得的類別分 類知識進行比對,相似度較高的類別為文件的 類別。以下章節將說明本研究模糊資訊檢索分 類系統架構之詳細步驟以及如何運用於文件 多重分類的問題與解法。 本研究利用模糊資訊檢索分類法來將一 個查詢和文件內容之間的匹配過程,按照查詢 指令特點,並運用模糊集合理論和方法來對文 件資料進行多重分類,從而提高文件檢索的效 率。而在模糊分類好之後,後續更可以進一步 建立文件倉儲 (Document Warehouse),以便對 該文件進行文件探勘 (Text Mining) 做準備, 探勘出文件所蘊含的訊息。圖 3.1 為本研究模 糊資訊檢索分類架構中模糊分類機制 (Fuzzy Classifier Machine) 之運作流程,也是本研究 欲探討之中心主題。. 3.1 模糊資訊檢索分類步驟 模糊資訊檢索分類系統可分成前端類別 關 鍵字選 取與 後端模 糊多 重分類 兩部 份架 構,參考圖 3.2。下面各小節將分述此模糊分 類機制之方法與步驟。 Class 1. Fuzzy Classifier. Class 2. . . •. 模糊多重分類 分類知識. 各類別的分類知識 (類別關鍵字). 學習資料 定義關鍵詞的頻 率列表. N-Gram選詞法. 定義關鍵詞 集合. 詞彙. 計算關鍵詞在文 件、類別中的歸 屬程度. 計算次數、集中度和廣 度,篩選符合次數、集 中度和廣度的詞彙 關鍵詞 形成類別分類知識. 根據訓練資料分類回收率調整、 決定次數、集中度和廣度門檻值. 計算文件在單一類 別中的歸屬程度. 計算文件在多重類 別中的歸屬程度. 測試資料 (新文件). N-Gram 選詞法. 計算文件 與文件的 模糊相關 係數. 文件與文 件的模糊 相似關係. 確定 α − cut 求得 α − level set 相似樹排序 多重分類且依其 相似性排序的 輸出結果. 三、文件多重分類問題. Fuzzy Information Retrieval Categorization. 區分學習與測試資料. . . •. . . •. Document Warehouse. Documents Class n. 圖 3.1:模糊分類機制之運作流程. 3.2 關鍵詞的選取 從文件自動擷取片語知識,包括專有名 詞,人名,地名,lexical templates 等,對多數 資訊檢索應用,如文件摘要、分類、過濾等都 是相當重要的研究課題。此外,對中文等東方 語言而言,因為書寫時詞與詞間缺乏邊界標 示,高效率片語知識擷取技術需求更加殷切。 由於任一特定文件集合其重要關鍵詞多不會 收錄在辭典中,因此發展中文關鍵詞抽取很難 藉助辭典,必須有其他突破性的作法。. 圖 3.2:文件多重分類步驟 本研究擬採用 N-Gram 選詞方法,這項技 術 已 經 應 用 在 文 件 關 鍵 詞 判 定 (Keyword Identification) 以 及 文 件 分 類 (Document Classification)[24]上。因為 N-Gram 選詞法是 完全不需要辭典且全部依靠語言的統計結果 來決定的統計檢測方法,透過檢測文件集合中 所有字串前後相依程度,語意完整度及在集合 內之重要性,多數中文關鍵詞或片語,特別是 人名以及專有術語都可有效擷取出,並且擷取 出的術語無長度限制。舉例來說,假設一個有 分類價值的專有名詞 AB,其中 A、B 為中文 字,因為電子詞典沒有這個詞,一被斷詞系統 拆成 A 與 B 兩個單字詞以後,原本可以是有 用的關鍵詞,可能因此而不被視為關鍵詞。再 假設另一個有分類價值的專有名詞 ABCD,其 中 A、B、C、D 為中文字,但是電子詞典中 沒有這個詞,其中 AB 與 CD 因為分佈很平均 以致不能成為關鍵詞,然而 BC 經過 2-Gram 篩選後成為關鍵詞,目的還是達到了,並沒有 漏掉有用的訊息。 而在統計句子內字與字的相鄰機率時,若 是以每兩個字為一個單位切開,就叫做 Bi-Gram (2-Gram),每三個字為一組,就叫做 Tri-Gram (3-Gram),其餘類推。N-Gram 就是 文件中任意 N 個連續字元,如「中國社會」此 一字串,當 N 為 2 時將可產生「中國」 、 「國社」 、 「社會」三個索引詞。如此可排除或降低「字 元法」中類似「中國」與「國中」的字串順序 問題,也可省去「詞彙法」中維護詞庫的煩惱。 在 Bi-Gram (2-Gram) 執行步驟中:先統計大 量的語料,統計句子內字與字的相鄰機率。在 斷詞的過程中,找出最大的兩字相鄰機率值, 視此兩字為一詞,並且切割句子為前後兩部 份,繼續此方法,直到任一相鄰兩字的機率值.

(5) 小 於 一 個 設 定 值 。 若 僅 採 用 此 一 Bi-Gram (2-Gram) 選詞方法其特點是不需使用辭典, 也不需用到任何法則的簡單方法;缺點是僅能 找出兩字詞和單字詞,且正確率不是很高。 本研究擬利用 Bi-Gram 做基礎,繼續找出 N-Gram,以進行關鍵詞的選取,不僅語料充 足,且可以擷取的詞彙知識比傳統豐富,包括 任意長度以及不同語言層次的資料串 (Data Stream) 機率,如字串,詞類串,語意串等, 因此關鍵詞的判定將可以有效實施。而對於分 類系統而言,一個具有分類價值的 N-Gram 關 鍵詞應該滿足下列三個條件[23]: 1. 次數要夠:所選出的字詞並非都是有意義的 詞,通常不具意義的字詞出現的次數不會 多,如果定一界限值 (Threshold),去掉出 現次數低於此界限值者,則那些無意義的字 詞大都會被摒除在外。根據[25]實驗所得的 結果,界限值定為 5 時得到最高的回現率。 2. 集中度 (Conformity):一個有分類價值的關 鍵詞,應該要集中出現在某一類或某幾類 中,而不是平均出現在各類中。因此,第二 步利用 Shannon 所提出熵 (Entropy) 的公式 來做篩選,以符合集中度的要求。對於一個 N-Gram Ti,衡量 Ti 的集中度 Entropy 值公 式如下: k. H i = −∑ pij log pij ,j 代表類別 j =1. 其中,pij =. dij. ,dij 表示類別C j 中,出現 Ti 的文件數。. k. ∑d j =1. ij. 當平均分布在各類時,所得到的集中度值 最大 Hj = logNclass (Nclass 代表類別數),相對 的,若只出現在一類中,則 Hj = 1log1 = 0, 因此每一詞彙的 H 值應介於 0 (最集中) 與 logNclass (最分散) 之間,至於其臨界值則視 訓練資料之不同,得經過多次的試驗來決 定,沒有一標準可遵循。根據[24]實驗中, Entropy 界 限 值 訂 定 為 log2 (= -1/2log1/2-1/2log1/2) , 大 於 界 限 值 之 N-Gram 則予以捨棄。而實驗結果發現將 Entropy 界限值定為 log2 是假設一個平均 分佈在兩類中的詞彙能讓它通過,但是後 來發現關鍵詞跨類的現象很普遍,所以, 對單一分類而言界限值定為 log2 可能太過 於寬鬆。但對於本研究屬於重複分類的問 題,Entropy 的界限值定為 log2 就可以了。 3. 廣度 (Uniformity):在某類中出現頻率高的 關鍵詞,如果是出現在此類中許多篇文件 中,則它愈具有分類價值;反之,若只集 中在此類的某一、兩篇文件中,則原因可 能只是一突發事件,或是特定撰稿者的特 殊寫作風格所致,所以此關鍵詞較無分類 價值。因此訂定一個公式來篩選 N-Gram 關鍵詞,以符合廣度的要求[23]。對於一個 N-Gram Ti,衡量 Ti 的廣度公式如下:.  d. Value ( T ) = max  i. t . j.   ×  ∑ d  d. ij. ij. k. ij. ij. j =1. 其中,d 表示類別 C 出現 T 的文件數, t 表示 T 出現在類別 C 的次數。 ij. j. ij. i. i. j. 顯然 Value 的值愈大,此 N-Gram 愈具有 分類的價值。假設有一個 N-Gram,它在 A 類出現 12 次且分佈在 6 篇文件中,以及在 B 類出現一次且分佈在一篇文件中,則此 N-Gram 的廣度依照公式計算如下:  6 × 6 , 1 × 1  = max ( 0.43, 0.14 ) = 0.43   12 7 1 7 . Value = max . 其臨界值與集中度一樣也是端視訓練資料 不同,得經過多次的試驗才決定。本研究 根據[24]來訂定廣度界限值為 0.2,小於界 限值 0.2 則予以捨棄。. 3.3 定義關鍵詞的頻率列表 假 設 一 個 文 件 檔 案 有 n 個 文 件 D1 , D2,…,Dn 組成,每個文件 Dr 由 m 個描述項 (關鍵詞) K1,K2,…,Km 來描述。我們採隨機 選擇的方式來挑選文件 (其一般性越高越好) 並統計每一個描述字在文件中出現的平均次 數,最後將所有的描述字和其出現的次數記錄 成一個頻率列表 (Frequency List),以 FL 表示。 定義 3.1: FL = {( fki , N FL ( fki ) ) i = 1,..., m f } fk :頻率列表中第i個描述字 i. N. FL. ( fk ) :描述字 i. fk 在 N 封文件中出現的平均次數 i. m : 頻率列表中描述字總數 f. 在各事先定義類別訓練組文件的內容 中,所篩選出來的各類別的關鍵字,可聯集成 一個關鍵字集合 (Keyword Set),以 KS 表示。 定義 3.2: KS = {k1 , k2 ,…, km } ,. ki ∈ KS. ( i = 1, 2,…, m ). 3.4 定義模糊關鍵詞集 此一步驟我們利用模糊理論中的歸屬函 數µDr(ki)和µCm(ki)來判斷每一個關鍵詞 ki 在文 件和各分類類別中重要性的程度。我們採用一 種 模 糊 關 鍵 詞 集 (Fuzzy Keyword Set, FKS)[22]的方法來作文件 Dr 的表示,它是一 種用模糊數值來表達關鍵詞在文件中的重要 程度。其計算方式如下: 定義 3.3: FKS ( Dr ) = 其中. µ Dr ( ki ) =. {( k , µ 1. Dr. ( k1 ) ) , ( k2 , µ D ( k2 ) ) , ..., ( km , µ D ( km ) )}. nDr ( ki ). nDr ( ki ) + nFL ( ki ). r. ; r = 1, 2, ..., n. nDr ( ki ) : 關鍵字 k i 在該文件 Dr 中出現的次數 nFL ( k i ) : 關鍵字 ki 在頻率列表中出現的次數. r.

(6) 於是 n 個文件和 m 個描述項的關係可用一個 n × m 階矩陣 M1 來表示,為公式 3.1。 k1. …. k2. km. D1  µ D1 (k1 ) µ D1 (k2 ) … µ D1 (km )    D2  µ D2 (k1 ) µ D2 (k2 ) … µ D2 (km )  M1 =     Dn  µ Dn (k1 ) µ Dn (k2 ) … µ Dn (km )  n×m. m. µCm ( Dr ) =. (公式 3.1). µC. nC. m. n FL. {( k , µ 1. nC. (k ) = i. m. nC. Cm. ( k )) , ( k 1. i. m. i. ( k ) : 關鍵字 k ( k ) : 關鍵字 k i. i. i. i. , µC. (k ). (k ) + n (k ) m. 2. FL. m. ( k ) ) , ..., ( k 2. m. , µC. m. …. km. µC1 (k2 ) … µC1 (km )  . µC2 (k2 ) … µC2 (km ) .    µCk (k2 ) … µCk (km )   k ×m. (公式 3.2). 此步驟主要確定未分類文件所屬類別之 歸屬函數並判斷未分類文件所應該被歸屬的 類別。首先利用 N-Gram 選詞法將未分類文件 做關鍵字篩選,並根據定義 3.2 中所求出的各 類別關鍵字取聯集,定義出一組關鍵字集合。 假設關鍵字集合為{gk1, gk2, …, gkm},則 利用定義 3.3 和 3.4 中之公式分別求出關鍵字 gki 在未分類文件 Dr 和事先定義類別 Cm 的 FKS 表示法,可得到定義 3.5 和 3.6,其中 µDr(gki) 和 µCm(gki) 分別表示關鍵詞 gki 在未分類文件 Dr 及事先定義類別 Cm 中的重要程度。 定義 3.5:. µ Dr ( gki ) =. Dr. nDr ( gki ). r. r. µ C ( gki ) = m. Cm. (公式 3.4). C1 ∩ C3. …. Ck −1 ∩ Ck. (公式 3.5). {. }. µCm∩Cn ( Dr ) = min µCm ( Dr ), µCn ( Dr ) (公式 3.6). 然而,模糊多重分類原則應是使每個文件 至少分到一類中去,所以模糊訊息檢索分類法 引用了 α-截值的觀念做為分類過程中的一個 模糊項臨界值 (Threshold)。這個臨界值用以 滿足限制條件的最低程度且提供多重分類的 彈性。經由觀察公式 3.5 的運算結果,可得出 max[µCm∩Cn (Dr)],在代入公式 3.7,即可確定α截值 (α-cut),其計算方式為: . .  α < min max  µCm∩Cn ( Dr )   (公式 3.7) m ,n  .  . nCm ( gki ) + nFL ( gki ). m. ; m = 1, 2, ..., k. nCm ( gki ) : 關鍵字 gki 在該類別 C m 中出現的次數 nFL ( gki ) : 關鍵字 gki 在頻率列表中出現的次數. }. ( m = 1, 2, ..., k ). (公式 3.8). 四、模糊資訊檢索分類的應用案例. ( gk1 ) ) , ( gk2 , µC ( gk2 ) ) , ..., ( gkm , µC ( gkm ) )}. nCm ( gki ). {. SCm = D µCm ( D ) ≥ α. 於是可以根據普通集合 SCm (i = 1, 2, …, k) 來 進行分類。. ; r = 1, 2, ..., n. 定義 3.6: 1. Ck. 並且得到普通集合,即公式 3.8。. nDr ( gki ) + nFL ( gki ). {( gk , µ. …. C2. 其中 µCm∩Cn (Dr) 是表示文件 Dr 在模糊集 Cm ∩Cn 上的歸屬函數,其計算方式為公式 3.6。. ( gk1 ) ) , ( gk2 , µ D ( gk2 ) ) , ..., ( gkm , µ D ( gkm ) )}. nDr ( gki ) : 關鍵字 gk i 在該文件 Dr 中出現的次數 nFL ( gki ) : 關鍵字 gki 在頻率列表中出現的次數. FKS (Cm ) = 其中. (公式 3.3). i = 1, 2, ..., m. D1  µ C1 ∩C2 ( D1 ) µC1 ∩C3 ( D1 ) … µ Ck −1 ∩Ck ( D1 )    D2  µ C1 ∩C2 ( D2 ) µC1 ∩C3 ( D2 ) … µ Ck −1 ∩Ck ( D2 )  M4 =     Dn  µ C1 ∩C2 ( Dn ) µC1 ∩C3 ( Dn ) … µ Ck −1 ∩Ck ( Dn )  2 n×Cn. . 1. gki ,. 當每一個未分類文件和各個分類類別之 間的相關程度都以模糊理論中的歸屬函數表 示後,接下來我們即利用模糊集合理論的交集 運算 (參考定義 2.3) 來計算每一個未分類文 件在多重分類類別的歸屬度。若將 Cm ∩Cn (m、n =1, 2, …, k) 的歸屬函數用矩陣形式表 示,則得到矩陣 M4,為公式 3.5。 C1 ∩ C2. 3.5 確定文件所屬類別之歸屬函數. {( gk , µ. r = 1, 2, ..., n. 3.6 計算文件於多重類別的歸屬度. 完成此一步驟後,從訓練組文件建立分類模型 便已完成。而接下來便是要利用分類模型將未 分類的文件加以分類。. FKS ( Dr ) = 其中. Dr ,. ; Cm , m = 1, 2, ..., k. 公式 3.4 中,列是對應類,行對應文件。. i. 於是 k 個類別和 m 個描述項的關係可用一個 k × m 階矩陣 M2 來表示,為公式 3.2。 k2. µ D ( gki ) ∑ i =1. C1. m. 在頻率列表中出現的次數. k1. m. D1  µC1 ( D1 ) µC2 ( D1 ) … µCk ( D1 )    D2  µC1 ( D2 ) µC2 ( D2 ) … µCk ( D2 )  M3 =     Dn  µC1 ( Dn ) µC2 ( Dn ) … µCk ( Dn )  n×k. ( k ) )}. 在該類別 C m 中出現的次數.  C1  µC1 (k1 ) C2  µC2 (k1 ) M2 =   Ck  µ (k )  Ck 1. r. m. 如果把所有未分類文件 D1,D2,…,Dn 歸屬於各分類類別 Cm 的程度列成矩陣,就得 到矩陣 M3,為公式 3.4。. m = 1, 2, ..., k. ;. µ D ( gki )µC ( gki ) ∑ i =1 r. 同理,我們運用 FKS 的方法來作類別 Cm 的表示,以模糊數值來表達關鍵詞在類別中的 重要程度。其計算方式如下: 定義 3.4: FKS (C m ) = 其中. 則未分類文件 Dr 與類別 Cm 之間的相關程 度即以歸屬函數µCm(Dr)來加以表示。其計算方 式為公式 3.3:. m. Problem: 假設一個文件檔案有一組文件共 15 份,要用“計算機”,“應用數學”,“資訊科 技”,“自動控制” 4 個描述項來表示,試討論 分類情況。 Solution: 取定定義域 U = {D1,D2,…,D15} 並按描述項初步分為 4 類。首先根據定義 3.3 和定義 3.4 求出 µDr(ki) 和 µCm(ki),(r =1, 2, …, 15;m =1, 2, 3, 4;i =1, 2, 3, 4),即分別求出描.

(7) 述字 (或關鍵詞) ki 在文件 Dr 及類別 Cm 中的重 要程度。 定義 3.3: FKS ( Dr ) = 其中. µ Dr ( ki ) =. {( k , µ 1. Dr. ( k1 ) ) , ( k2 , µ D ( k2 ) ) , ..., ( km , µ D ( km ) )} r. nDr ( ki ). nDr ( ki ) + nFL ( ki ). r. ; r = 1, 2, ..., n. 定義 3.4:. µ C ( ki ) = m. {( k , µ 1. Cm. ( k1 ) ) , ( k2 , µC ( k2 ) ) , ..., ( km , µC ( km ) )} m. nCm ( ki ). nCm ( ki ) + nFL ( ki ). m. 再利用公式 3.3 算出歸屬函數,假設得到了公 式 3.4 中的矩陣 M3 為 µCm ( Dr ) =. µ D ( ki )µC ( ki ) ∑ i =1 r. m. m. µ D ( ki ) ∑ i =1. Dr , r = 1, 2, ..., n ; Cm , m = 1, 2, ..., k (公式 3.3) ki ,. r. C1. C2. C3. i = 1, 2, ..., m C4.  µC1 ( D1 ) µC2 ( D1 ) µC3 ( D1 ) µC4 ( D1 )     µC1 ( D2 ) µC2 ( D2 ) µC3 ( D2 ) µC4 ( D2 )  M3 =     D15  µC1 ( D15 ) µC2 ( D15 ) µC3 ( D15 ) µC4 ( D15 )  15×4 D1 D2. C1 D1  0.63 D2  0.69 D3  0.06  D4  0.58 D5  0.66  D6  0.34 D7  0.60  M 3 = D8  0.37 D9  0.63  D10  0.32  D11  0.46 D12  0.63  D13  0.42 D14  0.44  D15  0.49. C2. C3. (公式 3.4). C4. 0.60 0.76 0.46  0.14 0.27 0.33  0.29 0.53 0.98   0.51 0.62 0.76  0.37 0.52 0.39   0.45 0.64 0.72  0.56 0.69 0.61   0.21 0.40 0.65  0.33 0.45 0.54   0.40 0.57 0.87   0.34 0.52 0.59  0.42 0.55 0.51   0.47 0.64 0.73  0.31 0.47 0.69   0.39 0.55 0.63 . M. M. 4. 4. C1 ∩ C 4. C1 ∩ C 3. C1 ∩ C 4.  0 .6 3   0 .2 7  0 .0 6   0 .5 2  0 .5 2   0 .3 4  0 .6 0   0 .3 7  0 .4 5   0 .3 2   0 .4 6  0 .5 5   0 .4 2  0 .4 4   0 .4 9. 0 .4 6 0 .3 3 0 .0 6 0 .5 8 0 .4 0 0 .3 4 0 .6 0 0 .3 7 0 .5 4 0 .3 2 0 .4 6 0 .5 1 0 .4 2 0 .4 4 0 .4 9. C3 ∩ C4. C3 ∩ C4 0 .4 6 0 .2 7 0 .5 3 0 .6 2 0 .4 0 0 .6 4 0 .6 1 0 .4 0 0 .4 5 0 .5 7 0 .5 2 0 .5 1 0 .6 0 0 .4 7 0 .5 5.                       . 五、分類方法之效能評估 為了評估分類方法的效能,我們使用的度 量值為:正確率 (Precision Rate) 和回現率 (Recall Rate)[2][18]。正確率是使用者每一次查 詢之後,系統提供檢索結果中正確的資料量佔 檢索結果出來的資訊總數比率,用來評估系統 擷取的精確度。回現率是使用者每一次查詢之 後,系統回傳擷取結果裏正確的資料量佔符合 查詢要求的資訊總數比率,用來評估系統擷取 的廣泛程度。 在此以 Cm 類別來說明這兩個度量值的意 義。圖 5.1 為分類方法之效能評估方式。 α α +β α recall = α +δ.  D 1  µ C1 ∩ C 3 ( D 1 ) µ C1 ∩ C 4 ( D 1 ) µ C 3 ∩ C 4 ( D 1 )   D  µ C ∩ C ( D 2 ) µ C1 ∩ C 4 ( D 2 ) µ C 3 ∩ C 4 ( D 2 )  = 2  1 3    D1 5  µ C ∩ C ( D1 5 ) µ C ∩ C ( D1 5 ) µ C ∩ C ( D1 5 )  1 4 3 4  1 3  1 5 × C 125. D1 D2 D3 D4 D5 D6 D7 = D8 D9 D1 0 D1 1 D1 2 D1 3 D1 4 D1 5. SC1 = { D1 , D2 , D5 , D7 , D9 , D12 } SC3 = { D1 , D4 , D6 , D7 , D13 } SC4 = { D3 , D4 , D6 , D7 , D8 , D10 , D11 , D13 , D14 , D15 }. precision =. 由 於 在 本 例 中 所 有 文 件 都 有 µC2(D)< µC3(D),即 C2 ⊆ C3。故只須分為 C1、C3 和 C4 三類,由 M3 代入公式 3.5 和公式 3.6 算得 M4。 C1 ∩ C 3. }. 這裡的分類中,一個文件可以同時屬於多 類,但是這種情形對於文件的訊息檢索分類是 合理的,因此所得結果同實際相符。. ; m = 1, 2, ..., k. nCm ( ki ) : 關鍵字 ki 在該類別 Cm 中出現的次數 nFL ( ki ) : 關鍵字 ki 在頻率列表中出現的次數. m. {. α < min max  µCm∩Cn ( Dr )  = min {0.63, 0.60, 0.64} (公式 3.7) m,n m ,n α < 0.60. 故應滿足 α < 0.60,我們取定 α = 0.59,再按 矩陣 M3,可得文件分類. nDr ( ki ) : 關鍵字 ki 在該文件 Dr 中出現的次數 nFL ( ki ) : 關鍵字 ki 在頻率列表中出現的次數. FKS (Cm ) = 其中. 由 M4 得 maxµC1∩C3 = 0.63, maxµ C1∩C4 = 0.60、 maxµ C3∩C4 = 0.64。再代入公式 3.7,求得α < 0.60。. β. α γ. δ. 圖 5.1:分類方法之效能評估方式 假設所有未分類之文件的數目為 N,當分 類完成後,可能發生的情況有下面四種: 1. 有α篇被歸類於 Cm 類別,且歸類正確。 2. 有β篇被歸類於 Cm 類別,但歸類錯誤。 3. 有γ篇不被歸類於 Cm 類別,且歸類正確。 4. 有δ篇不被歸類於 Cm 類別,但歸類錯誤。 且(α + β + γ + δ) = N,則 Cm 類別的回現率與 正確率如下表示: α ( 擷取之與使用者需求相關文件數 ) 正確率 P (C ) = = α+β ( 擷取之總文件數 ) m. (公 式 3 .5 ). 回收率 R (Cm ) =. α α +δ. =. ( 擷取之與使用者需求相關文件數 ) ( 與使用者需求相關文件數 ). 當類別回現率 R(⋅)或正確率 P(⋅)越高,則 表示分類方法的效能越佳。當然,高回現率與 高正確率是本研究所期望的,但兩者很難同時 滿足,合理的情形是在某個回現率的範圍內, 儘量提高正確率[16]。. 六、結論與未來研究方向 到目前為止,雖已有許多處理文件分類問 題的方法相繼被提出,但是,這些方法均是為.

(8) 處理單一分類問題所設計的,且並不適用於處 理多重分類問題。因此,本研究以模糊理論來 做多重分類的原因如下: 1. 較適合自然語言:人類之語言大都是表示模 糊觀念,所以用模糊數學來做文件分類,理 論上是很適用的。 2. 不確定性:文件之分類本來是不確定的,就 算用人工分類,分類結果也會因人而異,我 們並不能硬性說某一篇文章就是屬於某一 類,而用模糊之歸屬度來說明文件所屬之類 別是較為合理。且應用於多重分類,可以增 加文件資料分類之正確性。 3. 一致性:人工分類常常因為人員的異動,同 樣一篇文章有不同標準的分類,若利用模糊 內積的計算方式來讓電腦自動分類就不會 有這樣的問題。 本研究使用模糊訊息檢索分類應用於文 件多重分類問題的方法,在處理文件多重分類 問題時,比起用傳統處理文件單一分類問題的 方法來處理文件多重分類問題更加的適合。 根據 Survey.com (http://www.survey.com) 的分析結果顯示:其實企業所需要的商業智慧 (Business Intelligence, BI) 大約只有 20% 是由 存放在傳統關聯式資料庫中的結構化資料所 推導出來的。其餘 80% 左右的商業智慧必須 要到各式各樣的商業文件中去找尋。目前企業 界對於這些文件的管理上也僅止於文件本體 的管理,對於文件的內容仍然是以人為閱讀的 方式來吸收,效率不彰且可能流於以偏蓋全。 因此,在資料倉儲與資料採擷 (Data Mining) 已經普遍為企業界所認同與採行之際,學術界 應當加緊腳步邁向下一個挑戰,那就是「文件 倉儲」(Document Warehouse) 與「文件採擷」 (Text Mining) 的深入研究,以協助企業進一步 掌握整體的商業智慧,提昇整體的競爭力。. 致謝 本研究部分承蒙國科會計劃補助,計劃編號 NSC 91-2416-H-327-005,特此感謝。. 參考文獻 [1] Baeza-Yates, R. and B. Ribeiro-Neto, “Modern Information Retrieval,” Addison-Wesley, 1999.. [2] Benkhalifa, M., A. Bensaid and A. Mouradi, “Text Categorization Using the Semi-supervised Fuzzy C-algorithem,” NAFIPS Int’l Fuzzy Info. Processing Soc., 1999, pp. 561-565. [3] Blosseville, M.J. et al., “Automatic Document Classification: Natural Language Processing, Statistical Analysis, and Expert System Techniques Used Together,” ACM Trans. on Info. Sys., July 1992, pp. 51-58. [4] Can, F. and E. Ozkarahan, “A Dynamic Cluster Maintenance System for Information Retrieval,” Proc. the 10th Annual Int’l ACM SIGIR Conf., 1987, pp. 123-131. [5] Dubois, D. and H. Prade, “Fuzzy Sets and System: Theory and Applications,” Academic Press, New. York, 1980. H.S., “Information Retrieval – Computational and Theoretical Aspects,” Academic Press, New York, 1978. [7] Jain, A.K. and R. C. Dubes, “Algorithms of Clustering Data,” Prentice-Hall, Inc., 1988. [8] Lance, G. N. and W. T. Williams, “A General Theory of Classificatory Sorting Strategies: II. Clustering Systems,” Computer Journal 10, 1967, pp. 271-277. [9] Miyamoto, S., “Fuzzy Sets in Information Retrieval and Cluster Analysis,” Kluwer Academic Publishers, May 1990. [10] Murai, M.M. and M. Shimbo, “A Fuzzy Document Retrieval Method Based on Two-Valued Indexing,” Fuzzy Sets And Systems, Vol. 30, 1989, pp. 103-120. [11] Radecki, T., “Fuzzy Set Theoretical Approach to Document Retrieval,” Infor. Processing and Management, Vol. 15, 1979, pp. 247-259. [12] Radecki, T., “Mathematical Model of Information Retrieval Systems Based on the Concept of Fuzzy Thesaurus,” Info. Processing and Management, Vol. 12, 1976, pp. 313-318. [13] Sullivan, D., “Document Warehousing and Text Mining: Techniques for Improving Business Operations, Marketing and Sales,” John Wiley & Son, Inc., 2001.. [14] Tahani, V., “A Conceptual Framework for Fuzzy Query Processing --A Step toward Very Intelligent Database Systems,” Info. Processing and Management, Vol. 13, 1977, pp. 289-303. [15] Tahani, V., “A Fuzzy Model of Document Retrieval Systems,” Info. Processing and Management, Vol. 12, 1976, pp. 177-187. [16] van Rijsbergen, C. J., “Information Retrieval,” 2nd Ed., London, 1979. [17] Yager, R.R., “A Logical On-Line Bibliographic Searcher: an Application of Fuzzy Sets,” IEEE Trans. Systems, Man, & Cybernetics, Vol. 10, No.1, 1980, pp. 51-53. [18] Yang, Y. and C.G. Chute, “An Example-Based Mapping Method for Text Catalogization and Retrieval,” ACM Trans. on Info. Sys., Vol. 12, No. 3, July 1994, pp. 252-277. [19] Zadeh, L.A.,, “Fuzzy Sets,” Information and Control, Vol. 8, 1965, pp. 338-353. [20] Zimmermann, H.-J., “Fuzzy Set Theory – and Its Applications,” 2nd revised edition, Kluwer Academic Publishers, 1991. [21] 吳萬鐸與吳萬釗編著, 模糊數學與計算機應 用,台北市,儒林圖書,9 月,1993. [22] 李孟瑜、曾秋蓉,智慧型自動化網路客服系統 之研究,台灣區網際網路研討會,2001。 [23] 陳淑美,財經新聞自動分類之研究,國立台灣 大學圖書館學研究所碩士論文,1992。 [24] 楊允言,文件自動分類及其相似性排序,國立 清華大學資訊科學研究所碩士論文,1993。 [25] 謝 清 俊 、 陳 淑 美 、 楊 允 言 、 陳 克 健 , Auto classification of Texts,如何利用大型語料庫作 研究研討會,計算語言學會,9 月,1992。. [6] Heaps,.

(9)

參考文獻

相關文件

(1) 廢棄物處理應依回收技術及對人員危害特性分類。. (2)

畫分語言範疇(language categories),分析學者由於對語言的研究,發現

文件編號 PIMS-4-005 文件名稱 業務委外服務個人資料保護作業補充規範範本 版 本 1.0 機密等級 □機密性 □敏感性 一般性. 附件

„ 傳統上市場上所採取集群分析方法,多 為「硬分類(Crisp partition)」,本研 究採用模糊集群鋰論來解決傳統的分群

Segmented Bushy Path 分為兩個步驟,第一個步驟是文件結構的切割 (Text Segmentation),也就是分析文件內容並將文件內容切割成幾個具有代 表的結構。Text Segmentation

Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised

Hofmann, “Collaborative filtering via Gaussian probabilistic latent semantic analysis”, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and

由於資料探勘 Apriori 演算法具有探勘資訊關聯性之特性,因此文具申請資 訊分析系統將所有文具申請之歷史資訊載入系統,利用