• 沒有找到結果。

雲端運算服務環境下運用文字探勘於語意註解網頁文件分析之研究 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "雲端運算服務環境下運用文字探勘於語意註解網頁文件分析之研究 - 政大學術集成"

Copied!
72
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊管理研究所 碩士學位論文. 指導教授:楊建民博士. 立. 政 治 大. ‧ 國. 學. 雲端運算服務環境下運用文字探勘於. ‧. n. al. er. io. sit. y. Nat. 語意註解網頁文件分析之研究. Ch. engchi. i Un. v. 研究生:黃孝文. 中華民國九十九年七月.

(2) 致 謝 時光飛逝,兩年的研究所生活一眨眼便過去了,回顧過去這兩年時光,論文 的完成絕非一己之力所能完成,本論文能順利完成,承蒙指導教授 楊建民博士在 課業上、工作與為人處世各方面的悉心指導,論文撰寫過程中盡其所能地給予引 導協助,由衷感謝。同時要感謝口詴委員政治大學林我聰教授、李有仁教授與台 北大學電子商務中心邱光輝主任提供非常多寶貴意見,在此致上最誠摯的敬意與 感謝。 研究所的求學生涯中,有非常多的成果與收穫,這一切要感謝過程中周遭朋. 政 治 大 宏學長、鈞華學長、宜儒、少華、承翰、世蓉、榕芝以及學弟們,與你們共同生 立 友所給予的協助,感謝同師門的婉瑋學姐、春美學姐、繼鴻學長、世傑學長、俊. 活在「數位創新研究管理計劃室」,除了砥礪學業之外,也讓我增添了很多美好. ‧ 國. 學. 回憶;謝謝我所愛的朋友們,讓我能暫時放下在論文撰寫過程中的不如意,恣意. ‧. 地開懷大笑;特別感謝我摯愛的女朋友,宛婷。感謝妳在背後的默默支持,分享. sit. y. Nat. 我研究上獲得進展的喜悅,撫帄我大大小小不順心的事情,妳是我一路上積極前. io. n. al. er. 進的動力,謝謝妳不離不棄的相伴。. i Un. v. 最後謹以完成碩士學業的榮耀與喜悅獻給用心栽培我的父母與家人,因為你. Ch. engchi. 們的支持,讓我無後顧之憂的完成學業,也期許自己在今後人生的道路上,能夠 不忘記自己的初衷,並且面對未知與困難無所畏懼。在此獻上最真誠的謝意,給 所有曾經幫助過我的人,謝謝你們。. 黃孝文 謹誌於 國立政治大學資訊管理研究所 2010 年 7 月. I.

(3) 摘要 隨著網路的快速成長,資料探勘(Data Mining)及文字探勘(Text Mining)所頇分 析的資料集越來越龐大,透過單一機器執行資料探勘分析受限於記憶體大小及其 計算能力,不僅運算時間大幅增加,分析資料集的檔案大小也因而受到限制;語 意註解萃取出文件的重要內容,凸顯主題加強資料探勘及文字探勘的效果,而資 料探勘、文字探勘和語意註解背後都牽涉到大規模的資料處理,透過雲端運算的 技術使負載帄衡,將運算工作分散至運算叢集中的每一台電腦,不僅加快運算和 儲存的速度,更可降低整體的風險。 本研究使用 Hadoop 軟體實作雲端文字探勘帄台,用於分散式文字探勘及結 果分析,採用涵蓋21578篇新聞文件的路透社資料集(Reuters 21578)進行實證分析, 依照 Mod Apte 切分法分為訓練資料集及測詴資料集用以進行文件分類,文件分 類的步驟分為數個部分,分別為進行資料格式轉換的資料前置處理、針對文件內 容加註更詳盡的連結及描述的語意註解、用以產生分類預測模型的分類器(簡單貝. 政 治 大. 氏分類器、餘集簡單貝氏分類器)與評估文件分類結果的評估器;路透社資料集經 過去除停用字、附加語意註解資料及文本詞彙長度統計分類,再進行簡單貝氏分 類器及餘集簡單貝氏分類器的訓練,比較測詴資料集的分類正確率作為文件分類 實證結果。. 立. ‧ 國. 學. ‧. 本研究根據實驗結果發現,探討去除停用字、語意註解、文件分類演算法及 文本詞彙長度對於文件分類正確率的影響:(1)去除停用字使出現頻率高的停用字. Nat. y. sit. n. al. er. io. 對於分類預測產生負面影響;(2)語意註解作為詮釋資料的取得方式,可增加文件 分類的效果;(3)餘集簡單貝氏分類器,可用以減少偏斜資料對於分類預測結果的 誤判;(4)文本詞彙長度較長的文章則會某種程度主導分類預測結果,造成誤判的 產生,降低分類正確率;透過上述各影響因子的調整使文件分類的結果得到改善, 使得文件分類正確率獲得較佳的效果。. Ch. engchi. i Un. v. 本研究提出之系統以雲端運算環境運行文件分類演算法,使得大型資料集得 以更為迅速取得分析結果,使用語意註解作為詮釋資料的來源,使得文件分類模 型產生過程中有更多資訊可分析,使得機器判斷的正確程度獲得改善,亦可將文 件轉換為語意網文件,供語意網搜尋引擎查詢檢索,未來應加入 Twitter 或 Facebook 等擁有大量非結構化資料的網站之資料,使本帄台得以分析更大規模的 資料,並且考慮資料集類別分佈的集中程度對分類正確率的影響程度,同時應實 作效果更佳的分類演算法,進而改善系統整體的結果。. 關鍵字: 雲端運算、文件分類、語意註解、簡單貝氏分類器. II.

(4) Abstract Nowadays, businesses perform data mining and text mining need to handle large scale dataset. The computational resources of servers are often limited and lack of efficient to compute analytical jobs. But if they could run their data mining jobs under cloud computing clusters, they are able to get results very quickly on a large dataset without "out of memory" problems. In this paper, a series of experiments are conducted to measure and analyze the accuracy of the classification algorithms implemented on Hadoop using Reuters-21578 dataset; the process of text mining consisted of four stages: (1)data preprocessing,. 政 治 大. (2)semantic annotation, (3)classifier, (4)evaluator. Reuters-21578 had divided into. 立. training set and testing set based on Mod Apte Split, processed by stopwords removal,. ‧ 國. 學. appended semantic annotations as metadata and splitted into several subsets according to different document sizes. Experiments outlined several issues that will need to be. ‧. considered when conducting text mining.. y. Nat. sit. According to the experiment results, the researcher found that stopwords removal,. n. al. er. io. semantic annotation, different classification algorithms and different document sizes. i Un. v. could improve the classification accuracy. First, stopwords removal avoids common. Ch. engchi. words from becoming noises that will do harm to classification result. Second, semantic annotation as the extra information could improve the result. Third, complementary naive bayes algorithm could solve the decision boundary problem which naive bayesian cannot handle. Fourth, long documents could dominate the classification results. Sixth, the class imbalance problem could cause a drop of classification accuracy. Text mining result could be improved by adjusting the parameters found above.. Keywords: Cloud Computing, Document Classification, Semantic Annotation, Naive Bayesian Algorithm. III.

(5) 目 錄 誌 謝 ................................................................................................................................. I 摘 要 ............................................................................................................................... II 目 錄 .............................................................................................................................. IV 圖索引 ............................................................................................................................ VI 表索引 ...........................................................................................................................VII 第一章 緒論 .............................................................................................................. 1 第一節 研究背景 ..................................................................................................... 1 第二節 研究動機 ..................................................................................................... 2 第三節 研究目的 ..................................................................................................... 3 第四節 研究架構 ..................................................................................................... 4 第二章 文獻探討 ...................................................................................................... 5 第一節 資料探勘與文字探勘 ................................................................................. 5 2.1.1 資料探勘 .................................................................................................. 5. 政 治 大. 2.1.2 文字探勘 .................................................................................................. 7 2.1.3 資料探勘與文字探勘之差異 .................................................................. 7 2.1.4 簡單貝氏分類器 ...................................................................................... 9 第二節 雲端運算 ................................................................................................... 10 2.2.1 雲端運算的定義 .................................................................................... 10 2.2.2 現有的雲端運算服務 ............................................................................ 16 第三節 MapReduce 軟體設計模型 ....................................................................... 16. 立. ‧. ‧ 國. 學. y. Nat. sit. n. al. er. io. 2.3.1 Google 的分散式資料庫 BigTable ....................................................... 18 2.3.2 MapReduce 軟體設計模型應用於資料探勘之研究 ........................... 20 第四節 實作 MapReduce 架構的框架 .................................................................. 20. Ch. i Un. v. 2.4.1 Hadoop ................................................................................................... 21 2.4.2 DisCo ..................................................................................................... 22 2.4.3 使用雲端運算帄台的其他方案 ............................................................ 23 第五節 現今語意網的相關發展 ........................................................................... 24 2.5.1 鍊結資料(Linked Data) ......................................................................... 24. engchi. 2.5.2 Facebook ................................................................................................ 25 2.5.3 Wolfram Alpha ...................................................................................... 27 第六節 語意註解(Semantic Annotation) ............................................................... 28 2.6.1 語意註解的分類 .................................................................................... 30 2.6.2 語意註解的發展 .................................................................................... 31 2.6.3 語意註解於資料探勘上的應用 ............................................................ 31 第三章 研究方法 .................................................................................................... 32 第一節 研究設計 ................................................................................................... 33 第二節 文本資料集 Reuters 21578 ....................................................................... 35 IV.

(6) 3.2.1 路透社資料集文件格式 ........................................................................ 35 3.2.2 路透社資料集的歪斜資料特性 ............................................................ 37 第三節 資料前置處理 ........................................................................................... 39 3.3.1 斷詞切字(Tokenization) ........................................................................ 39 3.3.2 去除停用字(Stop Words Removal)....................................................... 39 3.3.3 詞幹還原(Stemming)............................................................................. 40 第四節 語意註解 ................................................................................................... 41 第五節 分類器(Classifier) ..................................................................................... 43 3.4.1 簡單貝氏分類器 .................................................................................... 43 3.4.2 餘集簡單貝氏分類器 ............................................................................ 45 3.4.3 簡單貝氏分類器與餘集簡單貝氏分類器的實作 ................................ 45 第六節 評估器(Evaluator) ..................................................................................... 46 第七節 帄台建置 ................................................................................................... 46. 政 治 大 研究成果 .................................................................................................... 48 立 ‧. ‧ 國. 學. 第四章 第一節 去除停用字對文件分類正確率的影響 ................................................... 48 第二節 語意註解對文件分類正確率的影響 ....................................................... 50 第三節 比較簡單貝氏分類器與餘集簡單貝氏分類器之分類正確率 ............... 51 第四節 餘集簡單貝氏分類器消除偏斜資料產生的決策邊界問題之效果 ....... 52 第五節 文本詞彙長度對文件分類正確率的影響 ............................................... 53. Nat. y. sit. n. al. er. io. 第六節 避免模型過適問題 ................................................................................... 54 第七節 類別分佈均勻程度對於分類結果之影響 ............................................... 56 第八節 各階段實驗結論整理 ............................................................................... 57 第五章 結論與建議 ................................................................................................ 60 第一節 結論 ........................................................................................................... 60 第二節 未來研究方向 ........................................................................................... 61 參考文獻 ........................................................................................................................ 62. Ch. engchi. V. i Un. v.

(7) 圖索引 圖 2-1 KDD 步驟圖 .......................................................................................................... 5 圖 2-2 三種雲端運算產業模式示意圖 ......................................................................... 11 圖 2-3 雲端運算架構層次 ............................................................................................. 12 圖 2-4 雲端運算服務比較表 ......................................................................................... 16 圖 2-5 MapReduce 軟體設計模型示意圖 ..................................................................... 17 圖 2-6 MapReduce 軟體設計模型運作過程示意圖 ..................................................... 18 圖 2-7 Bigtable 資料儲存之示意圖 ............................................................................... 19 圖 2-8 Bigtable 資料實際存放的基本單位為 Column Family..................................... 19 圖 2-9 鍊結資料目前加入網站示意圖 ......................................................................... 24 圖 2-10 詮釋資料的種類 ............................................................................................... 28 圖 2-11 語意註解示意圖 ............................................................................................... 29 圖 3-1 本研究之系統架構圖 ......................................................................................... 33 圖 3-2 本研究之文字探勘流程圖 ................................................................................. 34 圖 3-3 路透社資料集之訓練資料的類別分佈狀態 ..................................................... 38 圖 3-4 本研究之系統運作圖 ......................................................................................... 38 圖 4-1 去除停用字對於文件分類正確率的影響 ......................................................... 49 圖 4-2 語意註解對於文件分類正確率的影響 ............................................................. 50 圖 4-3 簡單貝氏分類器及餘集簡單貝氏分類器之分類正確率的影響 ..................... 51 圖 4-4 文本詞彙長度對文件分類正確率的影響 ......................................................... 52. 立. 政 治 大. ‧. ‧ 國. 學. Nat. y. sit. n. al. er. io. 圖 4-5 簡單貝氏分類器的訓練集錯誤率及測詴集錯誤率 ......................................... 55 圖 4-6 餘集簡單貝氏分類器的訓練集錯誤率及測詴集錯誤率 ................................. 55 圖 4-7 資料集中類別分佈對分類結果的影響 ............................................................. 56 圖 4-8 路透社資料集中各詞彙長度的文件之分佈情形 ............................................. 59. Ch. engchi. VI. i Un. v.

(8) 表索引 表 2-1 MapReduce 之開放程式碼框架及其實作程式語言 ......................................... 21 表 3-1 Reuters 21578 資料集的標籤 ............................................................................. 35 表 3-2 Reuters 21578 文件的範例 ................................................................................. 36 表 3-3 路透社資料集的資料分佈 ................................................................................. 37 表 3-4 斷詞切字的輸入及輸出示例 ............................................................................. 39 表 3-5 語意註解輸入資料範例 ..................................................................................... 37 表 3-6 語意註解輸出資料範例 ..................................................................................... 39 表 4-1 簡單貝氏分類器及餘集簡單貝氏分類器之權重值為前 2500 名中各類別的分 佈情形 .................................................................................................................... 52 表 4-2 各階段實驗最佳的參數組合及分類正確率 ..................................................... 57. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VII. i Un. v.

(9) 第一章 緒論 第一節 研究背景 在如今企業資訊應用的環境下,所需分析的資料都是相當龐大的,其中資 料探勘及文字探勘都是運算密集的工作,若是企業採用單一伺服器執行十分吃 力、費時。對於分秒必爭的企業環境來說,如何使用雲端運算環境分散運算的 沉重負擔,以迅速取得分析結果成為一門重要的課題。 雲端運算(Cloud Computing)一詞,由 Google 於2007年下半年所提出,由於. 政 治 大. 它有足夠的能力去提供彈性化的動態 IT 基礎設施、保證服務品質的運算環境和. 立. 可配置的軟體服務,持續不斷地在全球掀起雲端運算的風潮。在學術界與企業. ‧ 國. 學. 界中已有許多的計畫和產品,如 Amazon 使用 EC2(Elastic Compute Cloud)和簡 單儲存服務(Simple Storage Service, S3)為企業提供計算和儲存服務;IBM 在. ‧. 2007年11月推出了“Blue Cloud”為客戶提供雲端運算的帄台;2008年 IBM 和17. y. Nat. sit. 個歐洲研究組織以「無障礙的資源和服務虛擬化」為口號,共同發展名為. n. al. er. io. “RESERVOIR”的雲端運算計畫;Intel、Yahoo!、HP 共同成立的雲端運算測詴帄. Ch. i Un. v. 台(Cloud Computing TestBed)是一個全球性的開放原始碼計畫。此測詴帄台由許. engchi. 多的資料中心所組成,推展軟體、資料中心管理與大規模網際網路運算硬體等 各方面的研究。這三家公司將成立6個卓越中心,擁有以 HP 在系統管理的專門 技術,加上 Yahoo!在帄行運算的成果與 Intel 處理器為基礎的雲算運算基礎架構, 其擁有一千至四千個處理器核心,由來自世界各地的研究者維護運作(謝良奇, 2008)。 語意網的出現,文件得以使用機器友好的格式表示,提供電腦理解網頁內 容的可能性,使得電腦能夠針對其內容進行處理及自動化。但以語意網文件格 式發展出的網站數量仍然鮮少,因而近年來發展出語意註解技術,幫助傳統網 頁製作語意註解,使得語意搜尋引擎的搜尋範圍得以不侷限在少量的網站,提 1.

(10) 供更為精確的搜尋結果,距離實現自然語言查詢的目標已經不遠。 第二節 研究動機 隨著網路的快速成長,資料探勘所頇分析的資料集越來越龐大。透過單一 機器執行資料探勘分析受限於記憶體大小及其計算能力,不僅運算時間大幅增 加,分析資料集的檔案大小也因而受到限制。 電腦的計算能力與時俱進,演變為多核心處理器,提昇 CPU 的計算處理能 力。MapReduce 軟體開發模型可運用在資料探勘,將其運用在雲端運算的環境. 政 治 大. 上,妥善利用運算叢集的運算能力,並且突破資料集大小的限制。. 立. 語意網技術的發展,使得電腦得以解讀所處理文件的內容,但目前網際網. ‧ 國. 學. 路所見仍少有相關應用出現。語意註解作為直接將網頁文件分析後產生語意化 文件 (RDF 檔案)的語意網技術,受到關注但未見其廣泛的應用;語意註解是一. ‧. 種資訊擷取的技術,萃取出文件的重要內容,將其應用在文字探勘上,得以減. y. Nat. io. sit. 少資訊處理量,降低文字探勘演算法的運算時間。同時透過雲端環境進行文字. n. al. er. 探勘的資料存放及演算法運算,能夠達到負載帄衡同時擴大文字探勘範圍的能 力。. Ch. engchi. i Un. v. 資料探勘、文字探勘和語意註解背後都牽涉到大規模的資料處理,透過雲 端運算的技術使負載帄衡,將運算工作分散至運算叢集中的每一台電腦,不僅 加快運算和儲存的速度,更可降低整體的風險。 本研究所提出之雲端文字探勘帄台,將大量的運算需求透過雲端運算環境 分散計算負擔,並結合語意註解技術對資料加註更為詳盡的詮釋資料,比較簡 單貝氏分類器與餘集簡單貝氏分類器運作於雲端運算環境的效果。. 2.

(11) 第三節 研究目的 本研究主要目的分述如下: 一、提出以雲端運算環境作為文字探勘演算法運行的帄台 本研究將以 Hadoop 作為雲端運算系統資料儲存及文字探勘演算法的 運算帄台。Hadoop 為目前最為人使用的 MapReduce 軟體,它提供負載帄 衡、儲存大量資料的功能,作為分散式文字探勘的系統架構,由 Hadoop 管理電腦之間的溝通與協調,可專注於實現演算法的內容。. 政 治 大. 以簡單貝氏分類器及餘集簡單貝氏分類器作為資料分類演算法,同時. 立. 結合 N-gram Word Model 及語意註解技術,處理輸入的測詴資料集後產生. ‧ 國. 學. 模型,將該模型應用於未來資料的分類預測,獲得較佳的分類正確率。. ‧. 二、以路透社資料集在帄台上驗證文字探勘演算法運行之分類正確率. y. Nat. sit. 本研究之實驗使用路透社資料集(Reuters 21578)進行驗證,用以針對本. n. al. er. io. 研究建立的雛型系統進行實驗,驗證本研究提出的雲端文字探勘帄台透過. i Un. v. 大型資料集評估系統的分類正確率,並與 Kibriya et al.的簡單貝氏分類器研 究成果比較。. Ch. engchi. 三、透過語意註解做為詮釋資料的來源改善文件分類之結果 以語意註解作為詮釋資料的來源,透過以本體論為基礎的語意註解帄 台,擷取文件中的重要內容形成本體論實體,提供該文件額外的詮釋資訊。 對文本做語意註解,使得文件分類演算法可分析的資料增加,得到更為正 確的文件分類結果,並且使這些文件具備語意化的條件,未來可由語意搜 尋引擎查詢檢索。. 3.

(12) 第四節 研究架構 本節將本論文之研究架構做以下說明: 第一章. 緒論. 本章對本研究論文進行簡短說明,描述本研究之背景、動機與目的, 最後介紹本論文之研究架構。 第二章. 文獻探討. 政 治 大 類演算法的方法、雲端運算及語意註解技術。 立. 本章以三部分進行文獻整理。詳述簡單貝氏分類器作為資料探勘分. ‧ 國. 學. 第三章. 研究方法. ‧. 首先定義研究設計,提出雲端文字探勘帄台的系統架構,說明路透. sit. y. Nat. 社資料集(Reuters 21578)的前置處理,描述文字探勘採用的簡單貝氏分類. io. al. n. 第四章. er. 器演算法。. 研究成果. Ch. engchi. i Un. v. 詳述本研究之雲端文字探勘帄台系統,針對去除停用字、語意註解 對文件分類正確率的影響、比較簡單貝氏分類器與餘集簡單貝氏分類器 在文件分類正確率進行實驗,依序驗證上述之各影響因子對文件分類正 確率的作用,探討影響因子產生的作用是如何發生的。 第五章. 結論與未來研究. 根據研究之過程及研究結果,歸納本研究的結論,並提出未來可行 的研究方向,以作為後續研究的參考。. 4.

(13) 第二章 文獻探討 第一節 資料探勘與文字探勘 2.1.1. 資料探勘. 隨著時間的累積,各組織的資訊系統中所存放的資料量也隨之增加,這些 大量的資料中潛藏某些特徵和關係。資料探勘可在大量存放的資料中,找出先 前並不知道,但最後可有效理解的資訊。 資料探勘的過程包含很多步驟,每個步驟都會相互影響而使結果不同,許. 政 治 大. 多人認為「資料探勘」和「資料庫中的知識發現」是同義的,但其實資料探勘. 立. 僅是 KDD 的其中一部分程序而已,但研究過程中兩者的關係是密不可分的. ‧ 國. 學. (Fayyad, 1996)。. ‧. 簡而言之,資料探勘可以說是從大量的資料中萃取出知識的動作,. sit. y. Nat. Fayyad(1996) 、 Han (2005) 皆 認 為 資料 探勘是 知 識 發現 (Knowledge Discovery. io. n. al. er. from Data, KDD)其中的重要步驟。. i Un. v. Fayyad et al. (1996)提出簡單明瞭的 KDD 步驟,如圖2-1,說明如下。. Ch. engchi. 圖2-1 KDD 步驟圖 [資料來源:Fayyed (1996)]. 1. 資料選擇 (Selection) 瞭解該領域的知識,挑選與分析工作相關的資料,用以建立目標資料集, 在資料探勘的過程中專注於選擇的資料子集合。 5.

(14) 2. 前置處理 (Preprocessing) 資料集中的資料會包含錯誤、遺失及不完整的資料內容,必頇將其去除, 如此一來才能夠排除干擾和不一致資料的影響,並將格式不同的資料進 行處理,使其具備一致化。 3. 資料轉換 (Transformation) 進行資料的簡化及轉換工作,從大型資料集中進行分析找出有用的資訊, 牽 涉 龐 大 的 運 算 量 , 必 頇 適 時 減 少 資 料 量 , 例 如 降 維 (Dimension. 政 治 大. Reduction)、轉換或編碼等方式。. 立. 4. 資料探勘 (Data Mining). ‧ 國. 學. KDD 過程中最重要的步驟,透過演算法分析資料找出資料潛藏的特徵. al. er. io. 5. 解釋或評估 (Interpretation/Evaluation). sit. y. Nat. 演算法。. ‧. 及規則,包括了資料分群、資料分類、關聯規則、決策樹、統計回歸等. n. iv n C 經過資料探勘找出的特徵或模式,可用圖形工具轉換為容易理解的圖表, hengchi U 供決策支援之用;另外評估資料探勘產生的模式之正確性也是極重要的, 用以判斷產生的模式是否可作為未來商業決策上的應用,例如預測顧客 的消費金額。 由於資料庫中的資料存在多種特徵,故資料探勘方法也是相當多樣化。用 不同的方法和技術找出不同種類的特徵,基於特徵的分析方式與產生的知識型 態,資料探勘的演算方法最常用的為分類分析、群集分析、關聯規則分析。. 6.

(15) 1.. 分類分析 (Classification Analysis) 分類分析是一種依資料屬性建立類別的過程,通常從資料中產生「若 則」法則。. 2.. 群集分析 (Clustering Analysis) 群集分析的目的是要把群集與群集間的差異找出來,同時也要將群集 內物件的相似性找出來。. 3.. 關聯規則分析 (Association Analysis). 政 治 大 每一筆資料庫中的交易資料包含數個交易項目,關聯分析的目的是由 立. ‧ 國. 學. 這些交易資料中,找出交易項目的關聯法則。此關聯法則提供如下列 分析描述「若 X、Y、Z 三種交易項目發生時,會發生交易項目 W 的. y. Nat. io. sit. 文字探勘. er. 2.1.2. ‧. 機率為 p,機率越高表示關連性越高」。. 文字探勘所分析的文字為自然語言所撰寫出來的文件,裡頭包含一些具備. al. n. iv n C 意義的內容,像是報紙新聞、雜誌專欄、文學作品、使用者手冊、部落格、 hengchi U. email 或者線上討論區文章都屬於文字探勘所要分析的資料。在現今資訊爆炸的 時代中,可用來分析的文章已經相當具備規模且持續地成長中。 文字探勘的技術雖發展十分繁多複雜,但其目的卻是相當簡單,旨在從這 些資料的分析中,發掘新的、有用的的資訊。而文字探勘的技術結合數學、統 計、機率、人工智慧、資料檢索及資料庫等相關知識,典型的文字探勘類型為 文 件 分 類 (Categorization) 、 文 件 分 群 (Clustering) 和 資 訊 擷 取 (Concept/Entity Extraction)。. 7.

(16) 2.1.3. 資料探勘與文字探勘之差異. 資料探勘的目的在於發掘隱藏於「資料」之中的模式(Patterns),而文字探 勘正如其字面上的意義,目的為找尋潛藏於「文字」中的模式。資料與文字之 間的差別,就在於結構化與否,資料探勘針對資料庫中所儲存的各種資料進行 分析,資料庫中的內容皆是結構化資料,例如購物交易資料庫中的真實記錄, 裡頭可能包含交易日期、會員等級、產品類別、促銷折扣、交易金額等資料; 反觀文字探勘所分析的文字,是沒有組織的非結構化資料,相較於結構化資料 是較難以演算法處理的。. 政 治 大. 資料探勘可清楚描述為內隱知識的萃取,將潛藏、有用處的知識挖掘出來. 立. (Witten & Frank, 2000),知識是隱藏於資料之中,未知且必頇仰賴資料探勘的自. ‧ 國. 學. 動化技術才得以萃取出的;反觀文字探勘,知識是外顯的並且明確表示在文字. ‧. 當中,不像結構化資料的知識是內隱於其中的,因為大多數的作者在撰寫文章 時,都會儘量在文中明確表達想法,正因為如此,使得知識於文字中是外顯且. y. Nat. io. sit. 明確的。但因為非結構化資料的關係,較難以演算法萃取其中的知識,儘管知. n. al. er. 識是明確表示在文件中的。. Ch. engchi. 8. i Un. v.

(17) 簡單貝氏分類器. 2.1.4. 單純貝氏分類器 (Naïve Bayes Classifier)是一種簡單且實用的分類方法,在 某些領域的應用上,其分類效果優於類神經網路和決策樹。單純貝氏分類器依 據 貝 氏 定 理 (Bayes‟ Theorem) 為 基 礎 , 結 合 各 屬 性 間 彼 此 獨 立 性 事 後 機 率 (Posterior Probability),在計算分類機率時,都是以種類型屬性為考量,並無法 處理數值型的屬性。採用監督式的學習方式,分類前必頇事先知道分類型態, 透過訓練樣本的訓練學習,有效地處理未來欲分類的資料,用於大型資料庫, 可以得出準確高且有效率的分類結果。. 政 治 大. 簡單貝氏分類器(Naïve Bayesian Classifier)的分類原理是透過某對象的先驗. 立. 機率(或事前機率),利用貝氏定理(Bayes‟ Theorem)計算其後驗機率,即該對象. ‧ 國. 學. 屬於某一類的機率,選擇具有最大後驗機率的類別作為該對象所屬的類別,是. ‧. 透過機率統計的計算,達到最小誤差的一種分類方式。. sit. y. Nat. Clark & Niblett(1989)、Cestnik(1990)、Langley et al.(1992) 發現,簡易貝氏. al. er. io. 分類器的分類正確率與其它分類器相比是具有競爭力,簡易貝氏分類器亦常被. n. 其它分類器用作比較的對象。. Ch. engchi. 9. i Un. v.

(18) 第二節 雲端運算 雲端運算(Cloud Computing)為分散式運算技術的一種,核心概念是透過網 絡將旁大的運算處理程式自動分拆成無數個較小的子程式,再由網路上多部伺 服器所組成的龐大系統叢集經搜尋、運算分析之後將處理結果回傳給用戶,透 過這項技術,面對數以千萬計的資訊時,能有效的縮短處理時間。雲端運算除 了提供強大的運算能力之外,最終則是希望無頇安裝任何的軟體,所有的資源 (計算能力、儲存空間、應用服務……等)皆來自雲端,使用者端只需要一個連 上雲端的設備與簡單的介面(例如瀏覽器)即可。 2.2.1. 雲端運算的定義. 立. 政 治 大. ‧ 國. 學. 網路技術逐漸興起時,在畫示意圖時經常使用一朵雲代表網際網路。隨 著網路的發展,除了個人電腦外,更多的設備都具備了上網的能力,例如手機、. ‧. 家電產品或辦公設備。網際網路的作用也不僅僅是瀏覽網頁、收發電子郵件,. sit. y. Nat. 能夠為企業提供電子商務、客戶關係管理等服務;為一般使用者提供部落格、. er. io. 討論區、網路相簿等功能;為研究單位提供運算處理的能力。網路的定義變得. al. iv n C hengchi U 算中的「雲」已經不只是代表網際網路而已,更廣泛地包含了被描繪在那朵雲 n. 更廣,除了連結、路由外,還包含了運算、儲存、服務和軟體等元素,雲端運. 之外的相關事物。 雲端運算中的雲強調對網際網路的使用,而非著重於其運作細節,包含 網路、運算、儲存等基礎建設,及作業系統、應用程式帄台、Web 服務等,重 點在於資源的調度及運用,不是雲的運作細節。 雲端運算的定義百家爭鳴,內容包羅萬象,足見業界對雲端運算的重視, 以下舉出數個普遍為人接受的定義。. 10.

(19) 維基百科(Wikipedia)定義雲端運算為將能夠動態延展(dynamically scalable) 的虛擬化資源,透過網際網路提供服務給用戶的運算模式,像是電力網絡般透 過網路將分享式的資源、軟體及資料,依需求提供給使用者。 國際研究暨顧問機構 Gartner 認為,雲端運算是三大趨勢匯流的產物,包含 服務導向架構(Service Orientation Architecture)、虛擬化技術(Virtualization)和透 過 網 際 網 路 進 行 運 算 處 理 的 標 準 (Standardization of Computing through the Internet);雲端運算的興起,使得那些使用及販售資訊科技服務的用戶得以重新 形塑,找到自己的市場機會。. 政 治 大. 依據美國國家標準和技術協會(National Institute of Standards and Technology,. 立. NIST)第15版的定義,認為雲端運算是一個能夠依需求取用分享的、可組態的資. ‧ 國. 學. 源的一種模式(如網路、伺服器、儲存設備、應用程式、服務)並以最小的管理. ‧. 成本進行提供(Mell & Grance, 2009)。. y. sit. n. al. er. io. 部署模式:. Nat. 根據美國國家標準和技術協會的定義,雲端運算具有三種產業模式及四種. Ch. engchi. i Un. 圖2-2 三種雲端運算產業模式示意圖 [資料來源:gipi (2009)]. 11. v.

(20) 三種雲端運算的產業模式,按其服務類型可分為以下三類:. 軟體即服務 (SaaS). • 特定功能的軟體. 帄台即服務 (PaaS). • 應用程式的託管環境. 基礎建設即服務 (IaaS). • 提供直接操作硬體資 源的服務介面. 圖2-3 雲端運算架構層次. 政 治 大. [資料來源:陳瀅 (2010)]. 雲端軟體即服務 (Cloud Software as a Service, SaaS). 學. ‧ 國. 通過網際網路提供服務,提供用戶使用建構於雲端運算系統上的. ‧. 應用程式,這些應用建構在基礎建設即服務層提供的資源,以及帄台. Nat. io. sit. y. 即服務層提供的環境之上,讓服務藉由網路交付給用戶。. er. 1.. 立. 使用者對於雲端運算系統架構不具備管理及控制權限,僅可調整. n. al. Ch. i Un. v. 少部份的應用程式設定,像是 Google 文件,提供使用者線上文書處理,. engchi. 但使用者對於 Google 文件的相關設定自由度較低,以及微軟的線上客 戶關係管理和 SharePoint、Adobe 的線上影像處理 Photoshop。 透過 Internet 提供軟體的模式,廠商將應用軟體統一部署在自己的 伺服器上,客戶可以根據自己實際的需求,透過網際網路訂購所需的 軟體服務,按訂購的服務多寡和使用時間的長短向廠商支付費用,並 透過網際網路獲得廠商所提供的服務,亦無頇對軟體進行維護,服務 提供商會負責全權管理與維護軟體。. 12.

(21) 2.. 雲端帄台即服務 (Cloud Platform as a Service, PaaS) 介於基礎建設即服務層(IaaS)和軟體即服務層(SaaS)之間,提供帄 台給 IT 管理者和開發人員開發、運行、管理和監控的環境,支援特定 的程式語言或工具,用以構建、測詴及部署應用程式。即透過帄台去 支援整個產品開發的生命週期,從一開始的系統設計到最終的系統上 線,都提供良好的支援,也可滿足雲端運算在擴充性、可用性和安全 性的要求。 對於雲端計算系統架構亦不具備管理及控制權限,但部署應用程. 政 治 大. 式時可調整的組態較 SaaS 多,像是 Google App Engine、Amazon S3、. 立. Salesforce.com 的應用開發帄台和 Microsoft Azure 都屬於這類雲端運算. ‧ 國. 學. 產業模式,提供程式開發者雲端運算的帄台,供開發者部署其應用程. 雲端架構即服務 (Cloud Infrastructure as a Service, IaaS). io. sit. y. Nat. 透過虛擬化技術,抽象化基礎建設的實體資源,實現內部流程自. n. al. er. 3.. ‧. 式,不需要管理機器及網路設定。. Ch. i Un. v. 動化和資源管理優化。以虛擬化後的硬體和相關管理功能的集合,提. engchi. 供核心計算資源和網路架構的服務,使用者可以部署並執行任何軟體, 包含作業系統及應用程式。 對於雲端計算系統架構亦不具備管理及控制權限,但對於作業系 統、儲存資料及部署的應用程式有完整的控制權限。部份狀況下可擁 有網路元件(像是防火牆)的組態調整權限,Amazon 為提供儲存空間所 推出的簡單儲存服務(Simple Storage Service, S3);為企業提供運算能 力的 Amazon EC2 (Elastic Compute Cloud);SQS(Simple Queue Service) 則是針對小型企業和個人消費者提供網路通訊的服務;HP 所提供的 FCS2(Flexible Computing Services)則是為企業提供了運算能力和儲存 13.

(22) 空間的基礎設施,以上皆屬於此類的服務。 硬體資源(如儲存空間)和計算能力(CPU 和記憶體)以應用服務的形 式提供給使用者,如此一來對於專業伺服器與網絡設備,企業可有別 於傳統花錢買設備的方式,改採租用的方法取得資源;使用者可依自 身的需求擴展設備,並根據使用雲端資源的多寡進行付費。 雲端運算的部署模式為下列四種: 1.. 私有雲 (Private Cloud). 政 治 大. 此雲端基礎建設僅限於公司內使用,因而提供對資料安全性及服. 立. 務品質的要求最有效的控制。雲端服務由公司自行管理或委託第. ‧ 國. 學. 三方維護,這一種部署模式賦予公司對於雲端資源的使用狀態極 高的控制能力,也使得企業具有建立及運作雲端服務環境所需的. ‧. 專業知識。. sit. y. Nat. 社群雲 (Community Cloud). io. n. al. er. 2.. i Un. v. 由數個 組織 組成 之 社 群共同 擁有 的雲端 基 礎建設 ,雲 端環境. Ch. engchi. 的建立及運作費用彼此分擔。雖然比起公有雲端費用較高,但享 有較高的資料安全性,此雲端環境由組織自行管理或委託第三方 維護。 3.. 公共雲 (Public Cloud) 提供大眾使用雲端基礎建設、與使用者相關的雲端服務,企業透 過雲端服務提供商(Cloud Provider)可以帶給企業 IT 的效果包含降 低成本、彈性、動態的儲存空間,並使得企業不必花費心思於伺 服器的更新及管理上,專注於核心業務創造更多的獲利。. 14.

(23) 4.. 混合雲 (Hybrid Cloud) 由上述 兩種 或兩種 以 上的 部 署 模 式組成 , 藉由特 定的 標準或 專有的技術捆綁在一起。. 雲端運算被視為 Web 2.0後下一個科技產業的重要商機,美林證券預估未來 五年全球雲端運算的市場規模將可達到950億美元,佔全球軟體市場的12%;賈 特那(Gartner)公司也預估2014年以前,全球企業運用雲端運算所獲得的營收將 突破140億美元,2009年的統計顯示,光是利用雲端服務的營收,就可望達到75 億美元,比起2008年的統計資料大幅提昇17.7%。. 政 治 大 雲端運算的商機使各種科技大廠紛紛積極投入,不僅 IBM、微軟、Google、 立. ‧ 國. 學. Amazon、Oracle、HP 和昇陽等公司展開佈局,台灣公司亦不落人後,例如廣達 於2009年10月耗資一千萬美元取得美商 IC 設計公司 Tilera 的特別股,投入雲端. ‧. 運算晶片的開發;更有消息指出,工研院的雲端運算行動應用研究中心、趨勢. sit. y. Nat. 科技、中華電信和資策會所成立的台灣雲端運算公司,將於2011年起運作,結. al. er. io. 合中華電信的網路資料中心(IDC)和電信網路、趨勢科技的安全產品、工研院的. v. n. 貨櫃資料中心和雲端作業系統,由資策會開發雲端服務及相關的應用,搶攻全 球雲端運算的商機。. Ch. engchi. 15. i Un.

(24) 現有的雲端運算服務. 2.2.2. 針對現有的雲端運算服務,即 Amazon EC2、Google App Engine、Microsoft Azure 與 Yahoo Hadoop,彼此功能的差別(王耀聰、陳威孙, 2008)。. 立. 政 治 大. sit. y. Nat. [資料來源:王耀聰、陳威孙 (2008)]. ‧. ‧ 國. 學 圖2-4 雲端運算服務比較表. er. io. 第三節 MapReduce 軟體設計模型. al. n. iv n C MapReduce 是一種用於簡化大量分散式計算概念的軟體設計模型,一個 hengchi U MapReduce 系統負責分散式運算環境下機器之間的溝通與協調,而程式開發人 員只需要撰寫 Map 及 Reduce 程式。複雜的程式可以撰寫為多個 Map 及 Reduce 程式的串接,不受限於單一機器的記憶體容量,適用於大量資料的分析,利用 這個模型所設計的軟體,會自然呈現帄行運算的形式,可以運算叢集自動分散 運算。分散運算的機制可以透過執行期系統(Run-time)來決定,例如資料輸入、 任務執行排程、錯誤控制與必頇的叢集節點間的溝通等,換言之,開發人員可 以不需要考量任何分散式程式開發工作,讓帄行運算變得更容易開發。. 16.

(25) 圖2-5 MapReduce 軟體設計模型示意圖. 在這個架構之下,因為分散式架構的特性,MapReduce 可以用來處理幾兆 位元組(TeraByte)的資料,並且可以輕易的將運算任務交由運算叢集來運算,這. 政 治 大. 個運算叢集將是可以任何擴增與縮減的。Google 所推出的雲端服務中,許多是. 立. 透過這個軟體設計模型進行開發,可以輕易的達到雲端運算的要求與優點,可. ‧ 國. 學. 以說 MapReduce 是一種符合雲端運算架構要求的演算法,只要軟體架構能夠以. ‧. 這種軟體設計模式進行開發,將可以降低帄行運算軟體開發上的困難(Dean & Ghemawat, 2004)。. sit. y. Nat. n. al. er. io. MapReduce 適合用來實做帄行處理大量資料,顧名思義 MapReduce 是由. v. Map 程式與 Reduce 程式所組成,輸入一組 Key/Value 組合當作輸入資料,Map. Ch. engchi. i Un. 程式產生許多組 Intermediate Key/Value,然後再由 Reduce 程式作相同 Key 的資 料合併,產生最後結果。 Map 程式: map(inKey, inValue) → list(outKey, intermediateValue) Reduce 程式: reduce(outKey, list(intermediateValue)) → list(outValue). 17.

(26) MapReduce 架構的示意圖如圖2-6所示:. 政 治 大 圖2-6 MapReduce 軟體設計模型運作過程示意圖 立 [資料來源:Papadimitriou & Sun (2008)]. ‧ 國. 學. 2.3.1. Google 的分散式資料庫 Bigtable. ‧. Bigtable 為 Google 為 了 存 放 大 量 資 料 所 設 計 的 分 散 式 儲 存 系 統 , 為. y. Nat. io. sit. Slave/Master 架構,由 Namenode 存放目錄架構,Datanode 儲存資料區塊,每筆. n. al. er. 資料皆備份三份置放於不同的 Datanode 中,能夠達到容錯的功能。目前網路上. Ch. i Un. v. 已 有 Cassandra 、 HBASE 、 Hypertable 、 CouchDB 等 實 做 Bigtable 觀 念 的 Column-based 資料庫。. engchi. 儲存方式類似 Excel,但每個資料格可以時間戳記區隔存放多筆資料,取出 資料的方式為(row: string, column: string, time:int64) → string,且具備 Column Family 的特性,Column Family 為儲存的單位,一個 Column Family 能夠包含多 個 Column,實際存放方式如圖2-7及圖2-8所示。. 18.

(27) 圖2-7 Bigtable 資料儲存之示意圖 [資料來源:Chang et al. (2006)]. 政 治 大. 圖2-8 Bigtable 資料實際存放的基本單位為 Column Family. 立. [資料來源:Chang et al. (2006)]. ‧ 國. 學. 另有和 Column-based 資料庫架構上相似、和 Column-based 資料庫獲得相當 程度的關注的 Key-Value 資料庫,為 Column-based 資料庫的簡化版,沒有提供. ‧. Column Family 的功能,其高效率、易用性及彈性使 Key-Value 資料庫的發展逐. er. io. sit. y. Nat. 漸蓬勃。. Key-Value 資料庫與傳統的關聯式資料庫不同之處主要有以下三點:. n. al. 1.. Ch. engchi. i Un. v. Column-based 資料庫的屬性可以靈活增刪,增加一個新的屬性可以直 接在資料寫入 的程式中多加該屬性即可,而關聯式資料庫在新增屬性 時必頇要鎖定住該資料表,資料量大的資料表將會離線幾十分鐘甚至 一天。. 2.. 允許文件之間擁有的屬性不一致,有些資料有 A 屬性而有一些沒有, 關聯式資料庫只能將其設定為 Null 值或0,影響儲存和資料查詢的效 率。. 19.

(28) 3.. 資料都是以附加(Append)方式寫入的,以版本號碼或時間戳記作為最 新資料的辨認,特點是可以追溯資料各版本間的內容變化。因為其附 加寫入方式的複雜度較低(logN,觸發1次寫入資料庫及 logN 寫入 B+ Tree 節點),因此效率較佳。. 2.3.2. MapReduce 軟體設計模型應用於資料探勘之研究. Chu et al. (2006)將 Google 所提出的 MapReduce 軟體設計模型應用於資料探 勘演算法的設計上,用以分散式處理提高機器學習的效率,並透過實驗證明 MapReduce 軟體設計模型應用在資料探勘演算法的實作上,增加處理器核心的. 政 治 大. 數目基本上可以讓執行速度呈現線性提昇。. 立. ‧ 國. 學. Wegener et al. (2009)提到目前尚未出現可在運算叢集上運作的資料探勘工 具,因此提出一系統架構將 Weka 這套資料探勘工具整合於 MapReduce 的運算. ‧. 叢集上,內容包含運算模型及資料儲存模型,藉此突破資料探勘於單一機器上. sit. n. al. er. io. 勘執行效率提高。. y. Nat. 執行的實體記憶體限制,並透過實驗指出該系統架構可使大型資料集的資料探. Ch. 第四節 實作 MapReduce 架構的框架. engchi. i Un. v. 目前實作 MapReduce 架構的開放原始碼框架非常多,各自使用不同的程式 語言撰寫核心程式,表2-1為目前網路上流通的 MapReduce 開放程式碼框架及 其核心程式語言,並且針對主要的 MapReduce 框架 Hadoop、DisCo 作簡要介紹:. 20.

(29) 表2-1 MapReduce 之開放程式碼框架及其實作程式語言 框架名稱 Framework. 核心程式語言 Programming Language. Hadoop. Java. DisCo. Erlang. Octopy. Python. Starfish. Ruby. Skynet. Ruby. Phoenix. C. [資料來源:本研究整理]. 2.4.1. Hadoop. 立. 政 治 大. ‧ 國. 學. Hadoop 是一項由 Apache 軟體基金會所發起的軟體專案,其為一個開放原 始碼分散式運算系統軟體帄台,以 Java 實做,讓開發人員可以輕易的在這個架. ‧. 構上運算大量的資料,協助大資料集的分析,並具備有可擴充性(Scalable)、經. sit. y. Nat. 濟(Economical)、有效率(Efficient)與可信賴(Reliable)等優點。這個軟體帄台基於. io. er. MapReduce 演算法與 HDFS(Hadoop Distributed File System)檔案系統之上,. al. iv n C U h e n g c h i 已經證實可以支援多達25000台 並利用這個龐大的資料叢集進行運算。Hadoop n. HDFS 建立可信賴的儲存叢集,而 MapReduce 演算法將應用程式分割成小塊,. 電腦所構築的叢集,目前也有多個學術單位與 Hadoop 進行合作,利用這個帄 台架構應用在不同的領域上。 Hadoop 是目前最常被使用到的 MapReduce 軟體,其中最主要的元件為 MapReduce 軟體設計模型跟分散式檔案系統 (HDFS),Hadoop 基於資料片段實 際存放於 HDFS 的位置,分配工作給各節點進行分散式運算。 Hadoop 主要的內容有 HDFS (Hadoop Distributed File System)及 MapReduce 軟體設計模型的實作,程式開發者繼承其 MapReduce Class 開發自己欲應用的. 21.

(30) 程式,因大部分程式語言在 Java Platform 上都有實做版本,使用 Java 當作程式 語言意即等同支援大多數語言,目前是最多開發者使用的 MapReduce 軟體設計 模型。趨勢科技的2009騰雲駕霧程式競賽即是採用 Hadoop 當作 MapReduce 軟 體設計模型的雲端運算開發環境。 Nick Jenkin(2009)認為資料探勘演算法實做於 MapReduce 軟體設計模型上 存在著許多困難,並非所有的資料探勘演算法都適合移植到 MapReduce 軟體設 計模型上。因此他的研究提出了使用一般性分散式運算的方式取代 MapReduce 軟體設計模型上執行移植過去的演算法之見解,針對無法適用於 MapReduce 軟. 政 治 大 式運算的技術將演算法作分散式的處理,避免單一機器硬體規格的種種限制。 立. 體設計模型上的資料探勘演算法,是個相當良好的方向,得以透過一般性分散. ‧ 國. 學. 目前 Apache 軟體基金會另外成立了 Mahout 專案,用於建立一個具備擴充. ‧. 性 的 機 器 學 習 函 式 庫 , 將 演 算 法 實 作 於 Hadoop 雲 端 運 算 環 境 上 , 以. y. Nat. MapReduce 軟體設計模型實作,使得演算法具備處理大量資料及分散式運算的. 調整,減少演算法移植過程的大量開發時間。. n. al. 2.4.2. DisCo. Ch. engchi. er. io. sit. 能力。這是一個開放原始碼的專案,可以依照需求針對其中演算法的程式碼做. i Un. v. DisCo 為 Nokia 研究中心所發展出來的 MapReduce 系統,核心程式採用 Erlang 撰寫,值得注意的是開發者所撰寫的 Mapper 及 Reduce 函式皆限定為 Python 撰 寫 , 因 為 Erlang 本 身 即 具 有 帄 行 處 理 的 語 言 特 性 , 適 合 處 理 MapReduce 軟體設計模型的分散式運算工作,操作上較為靈活。. 22.

(31) 2.4.3. 使用雲端運算帄台的其他方案 Amazon Web Services in Education 為 Amazon 所提供的 AWS 之教育版,提. 供研究人員一定的免費額度,讓他們得以使用 AWS 的服務進行研究環境的建置 及運算的帄台,唯一可惜的地方是針對學生所提供的版本功能非常有限,且沒 有包含 Amazon Elastic MapReduce 雲端運算功能。 RIGHTSCALE 為一家提供使用者免費使用 Amazon Web Services 的公司, 但免費期間僅為10 CPU 小時,超出免費使用額度的部份則必頇另外付費,因此 需要輸入信用卡號作為扣款帳戶資訊。. 政 治 大. Google App Engine 為 Google 所推出的服務,使用者能夠使用 Google App. 立. Engine 所提供的 API 進行程式的開發,將程式及資料都儲存於 Google 的雲端帄. ‧ 國. 學. 台上,開發者於 Google App Engine 開發程式時將受限於 API 提供的功能及. ‧. CPU、資料空間的免費額度。. n. er. io. sit. y. Nat. al. Ch. engchi. 23. i Un. v.

(32) 第五節 現今語意網的相關發展 語意網相關技術的發展已持續多年,逐漸從學術界熱烈探討的議題轉換為 實務上的應用,許多網站皆想要透過實現語意網的技術提供與眾不同的服務。 本研究整理幾個現今實現語意網相關技術的案例,分別為 鏈結資料(Linked Data)、Facebook 和 Wolfram Alpha 語意搜尋引擎。 2.5.1. 鏈結資料 (Linked Data). 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖2-9 鏈結資料目前加入網站示意圖 [資料來源:Linked Data]. 由網路之父 Tim Berners-Lee 所提出的概念,將資料發佈在網際網路上提供 其他網站瀏覽搜尋,將傳統的單一資料來源透過鏈結資料的概念成為聯合的資 料來源,鏈結資料作為一種新的資料傳輸中介,連結各網站的結構化資料,並 使其能為機器所閱讀,其他網站定義過的資料綱目及其內容可透過 URI 及 RDF 連結使用,存取相關網路資源的內容。 24.

(33) 鏈結資料所提倡的是語意化網站出版(Semantic Web Publishing),將網站內 容透過語意化的標籤發佈在網際網路上,提供語意化的脈絡,使得電腦可以禮 節這些非結構化資料所包含的結構化資訊,使得資料的搜尋以及整合更為有效。 傳統的關聯式資料庫若欲轉換為鏈結資料的資料格式,可透過 D2R 函式庫 轉換,資料格式不必重新定義,使得關聯式資料庫的內容得以迅速與鏈結資料 中的資料來源結合,擴大資料的內容。 2.5.2. Facebook. 政 治 大 念,使得其他網站得以與 Facebook 連結,將使用者的資料集中在一起,使其精 立 Facebook 在 F8開發者大會中,提出開放圖譜協議(Open Graph Protocol)概. ‧ 國. 學. 準分析使用者的偏好,例如使用者在網路電影資料庫(IMDb)網站中瀏覽喜歡電 影的條目,點選「讚(Like)」鈕即可將這筆喜好記錄傳送至 Facebook 作為電影. ‧. 的偏好記錄。. y. Nat. io. sit. 資料量日漸增多後即可作為更進一步的分析應用,對於廣告商可提供精準. n. al. er. 行銷的相關服務,Facebook 亦可挾此優勢踏入搜尋領域,搜尋開放圖譜協議上. Ch. i Un. v. 所有節點的相關資料,搜尋結果的排序亦可加入使用者點選「讚」鈕的數量, 應能提供更為精準的搜尋結果。. engchi. Facebook 提供的 Open Graph Protocol 是透過 RDFa 的資料格式去實現的, 透過內嵌於 HTML 的內容描述資料的相關屬性。 關於 Facebook 所提出的開放圖譜協議,有幾點尚為人所批評: 1.. 開放圖譜協議尚未具備消除描述事物歧義的能力,例如在 IMDb 網站 上,有許多電影名稱相同的電影,但在描述內容時無法表示兩者的不 同之處,造成原本的電影及翻拍的電影,將會辨識為同一部電影,對 於精確的使用者喜好之蒐集造成不好的影響,以及當使用者點選「讚」 25.

(34) 鈕時,必頇要撰寫特別的處理程式才能分辨電影和演員之間的差別。 但這些問題都已經隨著開放圖譜協議逐漸成熟而解決,關於消除 事物歧義能力的部分,IMDb 網站目前在電影名稱後面附加了拍攝年 份,儘管電影名稱相同,拍攝年份不同即表示不同的電影,如此一來 原創的電影和翻拍的電影之間便獲得了區隔;IMDb 網站先前配合開 放 圖 譜 協 議 所 製 做 的 詮 釋 資 料 僅 包 含 Facebook 應 用 程 式 編 號 (fb_app_id)、標題(og:title)和網站名稱(og:site_name),無法做到電影、 演員以及其他電影幕後人員的區分,但隨後加上了類型(og:type)的詮. 政 治 大 者是喜愛該電影或是該演員,可更為精準蒐集使用者偏好資料。 立. 釋資料欄位,因此當使用者點選「讚」鈕時,Facebook 可以知道使用. ‧ 國. 學. IMDb 網站中有關電影的描述:. <meta property="og:type" content="movie" />. ‧. <meta name="fb_app_id" content="115109575169727" />. y. Nat. <meta name="og:title" content="Star Trek (2009)" />. al. iv n C property="og:type" h e n g c hcontent="actor_director" i U. n. IMDb 網站中有關導演的描述: <meta. er. io. sit. <meta name="og:site_name" content="IMDb" />. />. <meta name="fb_app_id" content="115109575169727" /> <meta name="og:title" content="J.J. Abrams" /> <meta name="og:site_name" content="IMDb" />. 2.. 開放圖譜協議不支援在同一網頁中描述多重物件,僅可表示整個網頁 是描述一個人物、新聞事件、音樂家或者是一部電影,無法標註網頁 內容中的個體。. 3.. 目前配合開放圖譜協議的網站,並未依照開放圖譜協議的規定內容實 作詮釋資料,例如 IMDb 在描述具備多重身份的人時,會在類型欄位. 26.

(35) (og:type) 將 兩 個 身 份 連 結 起 來 , 像 是 上 述 所 提 到 的 導 演 兼 演 員 (actor_director),這是目前 Facebook 開放圖譜協議沒有支援的物件類 型,使得 Facebook 得針對 IMDb 等網站所傳送過來的資料重新解析, 才能獲得正確的資訊。 4.. Facebook 自身的網頁並沒有依照開放圖譜協議的內容撰寫詮釋資料, 反而要求其他的網站依照開放圖譜協議製作詮釋資料。. 5.. 目前 Facebook 上許多使用者資料是混亂不清且有許多是重複的,若依 照開放圖譜協議製作詮釋資料,務必要先排除這些重複的物件,使得 資料的完整性具備。. 立. Wolfram Alpha. ‧ 國. 學. 2.5.3. 政 治 大. Wolfram Alpha 為一答案引擎(Answer Engine),與我們習以為常的搜尋引擎. ‧. Nat. er. io. sit. 合式的結果,即 Wolfram Alpha 針對問題所認定的答案。. y. (Search Engine)不同,它並不提供包含關鍵字的相關網頁列表,而是提供一個整. al. Wolfram 的實作原理為使用者遞交查詢內容,可以為一般的自然語言問句. n. iv n C (例如英文,目前尚不支援中文),與傳統的語意搜尋引擎不同,Wolfram Alpha hengchi U 將大量的問題建立索引,分析使用者的查詢需求後,將查詢需求與答案配對, 找出最為合適的答案作為查詢的結果。. 27.

(36) 第六節. 語意註解 (Semantic Annotation). 語意註解為資料得以被理解且以更新的存取方式流通,為語法(Syntax)及資 料格式(Structure)增加意義 (Kaarthik Sivashanmugam et al., 2003),詮釋資料 (Metadata)的種類如圖2-10所示。. 立. 政 治 大. 圖2-10 詮釋資料的種類. ‧ 國. 學. [資料來源:Kaarthik Sivashanmugm et al. (2003)]. 詮釋資料分為語法詮釋資料(Syntactic Metadata)、結構詮釋資料(Structural. ‧. Metadata)及語意詮釋資料(Semantic Metadata)。. sit. y. Nat. io. er. 1. 語法詮釋資料 (Syntactic Metadata). al. v. n. 資料來源的詳細描述資料,例如資料使用的語言、資料產生的時間、. i n C U hengchi 資料標題、資料大小、資料格式等等。 2. 結構詮釋資料 (Structural Metadata). 用以描述資料的結構,利於資料的儲存、處理、呈現及資料檢索,例 如 XML 綱目(XML Schema)。 3. 語意詮釋資料 (Semantic Metadata) 描述和資料內容相關的訊息,以特定領域的本體論產生,透過語意詮 釋資料可提供機器解讀資料內容的可能性,並提供更進一步的應用, 比起語法詮釋資料及結構詮釋資料更能提供有意義的描述資料。. 28.

(37) 語意註解為原始資料產生語意詮釋資料,使得資料得以更新的存取方式流 通,註解綱目是以資料檢索系統所萃取出的資訊建構而成。透過語意註解使文 件之間得以相互連結,並具備語意網的特性,簡而言之,語意註解是在分析的 文章中針對特定文字指派實體(Entity)和關係(Relation),使其成為一個本體論具 備描述自身的能力(Davies et al., 2006)。 語意註解是為了辨認出文件中有意義的詮釋資料 (像是個體、關聯等),達 到網路文件語意化的目的,使得電腦能夠透過理解文件內容,針對使用者搜尋 找出有用而正確的資料,這種文件註解方式已經逐漸普遍。. 立. 政 治 大. er. io. sit. y. ‧. ‧ 國. 學. Nat. 圖2-11 語意註解示意圖. n. a l[資料來源:John Davies, et al. (2006)] i v n Ch U i e h n gc 語意註解的另一個用途為豐富文件的內容,為純文字的檔案加入相關的連 結,使用者可以透過這些連結獲取更多相關的知識,目前已有 Inform Engine 將 此功能實現。 透過語意註解的技術可幫助語意網的普及化,實現語意網的願景,使得網 路上的文件可以相互連結,文件以機器可以閱讀的格式;使機器得以理解文件 的內容,未來可以用作自然語言查詢,提供更為精準的查詢結果。. 29.

(38) 語意註解的分類. 2.6.1. 語意註解系統分為 Web-based 與 Ontology-based 兩種,前者透過網際網路 使用語意註解工具,結合網頁內容及語意註解資訊後再顯示給使用者,後者則 是利用本體論的優點達到語意註解自動化,將網頁內容與語意註解系統的本體 論作映射,達到語意註解的功能。本研究所使用的語意註解系統即為 Ontologybase 語意註解系統。 另有一種語意註解的類型,稱作「協同註解」,又被稱為「社會標籤(Social Tagging)」和「分散式分類(Distributed Classification)」,集合眾多個人對網路資. 政 治 大. 源進行標記、以詞分類的新興資訊組織方式。這種自由標記與傳統以專家為基. 立. 礎的圖書資訊組織方式相當不同,目前當紅的 Delicious 網站即是以協同註解的. ‧ 國. 學. 方式,提供使用者創造、分享及結合彼此的註解,達到更高的搜尋精準度,同. ‧. 樣類型的網站還有 Flickr、CiteULike, Youtube 和 Last.fm 等。. sit. y. Nat. 語意註解的使用有助於提昇資訊檢索(Information Retrieval)的效率及精準度,. al. n. 統(又稱作垂直搜尋系統, Vertical Search Engines)。. Ch. engchi. 30. er. io. 舉例來說,文件中各個個體之間的關係可用來實做以個體為基礎的資訊檢索系. i Un. v.

(39) 語意註解的發展. 2.6.2. 紐約時報目前使用了大量的表頭詮釋資料(Metadata)去描述新聞;路透社也 發布了 Open Calais API,透過自動化語意註解 HTML 文件,目的在於改良資料 處理的效能及資料搜尋的精準度。 語意註解於資料探勘上的應用. 2.6.3. Berendt et al. (2002)提出語意網路資料探勘概念(Semantic Web Mining),結 合語意註解與資料探勘,將語意註解產生的語意詮釋資料用於建立語意網,使. 政 治 大 知識得以自動化管理,並用於強化資料探勘的結果,提昇分析結果的正確度。 立. 得語意網的應用得以存取這些原先非結構化的網頁文件;使得這些網頁文件的. ‧ 國. 學. Laclavik et al. (2008)將 MapReduce 軟體設計模型應用於語意註解技術,將 語意註解運算處理分散至運算叢集中的機器中,藉由實驗證明語意註解可以運. ‧. 行在使用 Hadoop 建立的運算叢集上。將 MapReduce 軟體設計模型應用於語意. y. Nat. n. al. er. io. 小越大效率提昇越明顯。. sit. 註解演算法的實作,並較單機進行語意註解的效率提高許多,資料集的檔案大. Ch. engchi. 31. i Un. v.

(40) 第三章 研究方法 根據文獻探討,在對雲端運算、文件分類、簡單貝氏分類器及語意註解做 完大略的介紹後,本研究將提出將簡單貝氏分類器演算法移植到 Hadoop 這套 MapReduce 軟體上的雛型架構,使得資料探勘得以在雲端運算的環境下運作。 本研究將以簡單貝氏分類器及餘集簡單貝氏分類器進行文件分類,以公開 的資料集 Reuters 21578作為實驗上建模的測詴資料。將路透社資料集依照 Mod Apte 切分法將資料分為訓練資料集與測詴資料集,驗證文件的分類正確率,以 測詴資料集最佳的分類正確率作為該實驗的實證結果;測詴本研究提出的雲端. 政 治 大. 文字探勘帄台的分類結果,是否將運算需求分散給各節點帄行運算達到負載帄. 立. 衡(Load Balance),提昇文字探勘的分析效率,用以針對本研究建立的雛型系統. ‧ 國. 學. 進行驗證以示本研究提出的雲端文字探勘帄台之可行性,透過大型資料集評估. ‧. 雲端文字探勘帄台之正確率。. sit. y. Nat. 實驗中探討語意註解技術應用於文字探勘對於分類結果的影響,將資料集. al. er. io. 進行語意註解,擷取文件中的重要內容產生語意化資料,作為詮釋資料附加於. v. n. 文件內容中,使文字探勘演算法在運算過程中獲得更多的資訊,改善文件分類 效果。. Ch. engchi. 32. i Un.

(41) 第一節 研究設計 本研究以 Hadoop 作為雲端運算系統帄台,用於分散式文字探勘及結果分 析,使用 Mahout 的演算法作為文件分類演算法。文字探勘分為兩個部份,分別 為分類器(Classifier)與評估器(Evaluator),兩者以模型(Model)連接,模型是由分 類器以訓練資料建模而成,過程中產生的資料均存放於 HDFS 中,以供存取。. 立. 政 治 大. y. ‧. ‧ 國. 學. Nat. n. al. Ch. er. io. [資料來源:本研究整理]. sit. 圖3-1 本研究之系統架構圖. i Un. v. 本研究之系統的資料輸入為路透社的 Reuters 21578資料集,透過文字探勘. engchi. 的資料前置處理步驟(Data Preprocessing),資料集切分為訓練資料(Training Set) 及測詴資料(Testing Set)。簡單貝氏分類器根據訓練資料建模產生模型,接著將 測詴資料用於驗證模型的準確度。分類的結果將透過語意註解使其具備語意網 的自我描述能力,作進一步的語意網應用。. 33.

(42) 立. 政 治 大. ‧ 國. 學. 圖3-2 本研究之文字探勘流程圖 [資料來源:本研究整理]. ‧. 文件分類的流程詳述如圖3-2,文件分類為分析待分類文件的特徵,並與已. y. Nat. sit. 知類別中文件所具備的共同特徵進行比較,然後將待分類文件歸類為特徵最接. n. al. er. io. 近的類別。本研究之文字探勘可細分為資料格式轉換、詞幹還原、特徵抽取及 語意註解等步驟,其中各模組為: 1.. engchi. i Un. v. 資料格式轉換:路透社資料集為 SGML 格式,將其轉換為文字資料, 格式化成為. 2.. Ch. 統一格式,便於後續處理。. 詞幹還原:還原字根,統一詞性及時態上的變化,避免同義字或相同 字詞的變化形擁有不同的編碼而產生困擾。. 3.. 特徵抽取及語意註解:去除停用字並應用語意註解技術增加與該文件 之主題相關的詮釋資料,並從文件中抽取出反應文件主題的特徵。. 4.. 統計:進行詞頻統計,計算 TF-IDF 值,以及特徵與類別的機率。. 5.. 分類器:訓練簡單貝氏分類器與餘集簡單貝氏分類器,產生文件分類 預測模型。 34.

(43) 6.. 評估器:針對分類器的預測結果進行分析。. 以下各節將針對各主要模組進行更為詳細的說明。 第二節 文本資料集 Reuters 21578 3.2.1. 路透社資料集文件格式. Reuters 21578是由路透社(Reuters Newswire)自1987年2月26日到1987年10月 9日間收集的新聞文件,該資料集涵蓋21578篇新聞文件,由22個 SGML 格式的 檔案所組成,每一個檔案各包含1000篇文件,最後一份則僅有578篇文件。如表. 政 治 大. 3-1所示,該資料集中每一篇文件都以標籤<REUTERS>做為一篇文件起始,. 立. 並以</REUTERS>作為一篇文件的結束。. ‧ 國. 學. 表3-1 Reuters 21578資料集的標籤. ‧. Nat. y. <REUTERS TOPIC=?? LEWISSPLIT=?? CGISPLIT=?? OLDID=?? NEWID=???>. sit. [資料來源:本研究整理]. n. al. er. io. 文件大多已經經過人工區分類別,TOPIC 屬性紀錄該文件是否存在主題;. i Un. v. LEWISPLIT 屬性則是為了符合 Modified Apte split 訓練-測詴文件集區分法,這. Ch. engchi. 個版本的資料集剔除了 Reuters 21578資料集中沒有標註類別的文件,並且選擇 至少有一個訓練資料和測詴資料的類別而得到的資料集,路透社資料集中的文 件皆以專家事先進行分類;OLDID 屬於早期的 Reuters 22173資料集編號,目前 已經不使用而僅作為新舊資料集的;NEWID 代表文件編號;CGISPLIT 不在本 研究考慮的屬性中,屬於另一種切分資料集的方法。. 35.

(44) 表3-2 Reuters 21578文件的範例 <REUTERS TOPICS="NO" LEWISSPLIT="TRAIN" CGISPLIT="TRAINING-SET" OLDID="16322" NEWID="1002"> <DATE> 3-MAR-1987 09:19:31.96</DATE> <TOPICS></TOPICS> <PLACES><D>usa</D><D>taiwan</D></PLACES> <PEOPLE></PEOPLE> <ORGS></ORGS> <EXCHANGES></EXCHANGES> <COMPANIES></COMPANIES> <UNKNOWN> &#5;&#5;&#5;G &#22;&#22;&#1;f0295&#31;reute d f BC-TAIWAN-REJECTS-TEXTIL 03-03 0137</UNKNOWN> <TEXT>&#2; <TITLE>TAIWAN REJECTS TEXTILE MAKERS EXCHANGE RATE PLEA</TITLE> <DATELINE> TAIPEI, March 3 - </DATELINE><BODY>Central bank governor Chang Chi-cheng rejected a request by textile makers to halt the rise of the Taiwan dollar against the U.S. Dollar to stop them losing orders to South Korea, Hong Kong and Singapore, a spokesman for the Taiwan Textile Federation said. He quoted Chang as telling representatives of 19 textile associations last Saturday the government could not fix the Taiwan dollar exchange rate at 35 to one U.S. Dollar due to U.S. Pressure for an appreciation of the local currency. The Federation asked the government on February 19 to hold the exchange rate at that level. The federation said in its request that many local textile exporters were operating without profit and would go out of business if the rate continued to fall. Reuter &#3;</BODY></TEXT> </REUTERS>. 立. 政 治 大. ‧. ‧ 國. 學. er. io. sit. y. Nat. [資料來源:本研究整理]. al. n. iv n C h e n9603 以及不使用的三個主要集合,分別有 h i U 篇及 8676 篇。每個類別中 g c篇、3299. 本研究的實驗,採用 Modified Apte Split 區分法,將資料集做出訓練、測詴. 的數量不一,有 90 個類別中的文件。. 36.

(45) 3.2.2. 路透社資料集的歪斜資料特性. 路透社資料集依據 Mod Apte Split 資料集切分法,將資料切分為訓練資料 集、測詴資料集及不使用資料集三個部分,分別具有9603筆、3299筆及8676筆 資料,總共具有90個類別,本研究採用52個類別作為實驗所用的資料集,藉此 避免資料集過大,無法在單一機器上執行文件分類演算法的情況發生。 表3-3 路透社資料集的資料分佈 序號 #. 類別 Class. 訓練資料數目 Train Set #. 測詴資料數目 Test Set #. 資料總數 Total #. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34. earn acq crude trade money-fx interest money-supply ship sugar coffee gold gnp cpi cocoa grain alum jobs reserves copper ipi rubber iron-steel nat-gas bop veg-oil tin cotton wpi orange retail pet-chem gas livestock housing. 2840 1596 253 251 206 190 123 108 97 90 70 58 54 46 41 31 37 37 31 33 31 26 24 22 19 17 15 14 13 19 13 10 13 15. 1083 696 121 75 87 81 28 36 25 22 20 15 17 15 10 19 12 12 13 11 9 12 12 9 11 10 9 9 9 1 6 8 5 2. 3923 2292 374 326 293 271 151 144 122 112 90 73 71 61 51 50 49 49 44 44 40 38 36 31 30 27 24 23 22 20 19 18 18 17. n. engchi. 37. y. sit. er. io. Ch. ‧. Nat. al. 學. ‧ 國. 立. 政 治 大. i Un. v.

(46) strategic-metal lei zinc carcass fuel income lumber heat lead meal-feed dlr instal-debt potato tea cpu nickel jet platinum Total. 立. 9 11 8 6 4 7 7 6 4 6 3 5 2 2 3 3 2 1 6532. 政 治 大. 6 3 5 5 7 4 4 4 4 1 3 1 3 3 1 1 1 2 2568. 15 14 13 11 11 11 11 10 8 7 6 6 5 5 4 4 3 3 9100. [資料來源:本研究整理]. 學 ‧. ‧ 國. 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖3-3 路透社資料集之訓練資料的類別分佈狀態 [資料來源:本研究整理]. 圖3-3為路透社資料集中 52 個類別資料分佈的狀況,可以發現大多數的訓 練資料皆分佈在 acq 及 earn 這兩個類別,其餘類別的資料筆數相較之下少了很 多,是極不帄均的類別分佈,依據歪斜資料的定義,訓練資料之類別的機率分 38.

(47) 佈不對稱,亦即某些類別的資料筆數較其他類別多時,我們即可稱此資料集具 備歪斜特性,而訓練資料的歪斜特性,將對簡單貝氏分類器的分類正確度造成 負面影響,第四章中的詴驗將會驗證這一點。 第三節 資料前置處理 (Data Preprocessing) 3.3.1. 斷詞切字 (Tokenization). 將語句拆解為單字,包含空白及標點符號等等,表3-4為斷詞切字的示例。 表3-4 斷詞切字的輸入及輸出示例. 政 治 大 輸出: < Jerseys, dresses, wigs, and, inflatable, crowns> 立 輸入: Jerseys, dresses, wigs, and inflatable crowns.. [資料來源:本研究整理]. ‧ 國. 學. 3.3.2. 去除停用字 (Stop Words Removal). ‧. 字詞分為兩種:功能字詞(function)與內容字詞(content)。前者常用於表示. y. Nat. io. sit. 文法結構,像是 the, to 和 and 等常出現文件中的字詞;後者給予文件的內容含. n. al. er. 意,像是「The prancing blue cat is on a snowboard」中即包含了四個內容字詞. Ch. i Un. v. (prancing, blue, cat, snowboard)與四個功能字詞(the, is, on, a),分別表示內容及文 法結構。. engchi. 39.

參考文獻

Outline

相關文件

(二)使用 PHP 語言、MySQL 資料庫與 Apache 伺服軟體開發互

(三)使用 Visual Studio 之 C# 程式語言(.Net framework 架構)、Visual Studio Code 之 JavaScript 程式語言(JavaScript framework 架構) ,搭配 MS

畫分語言範疇(language categories),分析學者由於對語言的研究,發現

語言的意義在於使用 ,而使用又是 因應著不同遊戲情境而定,因此語 言意義具有 豐富性、多變性、..

敦煌患文雖然是禮懺法門的應用文書,有點格式化與過分老套的語言形式,但是卻保存

Does your cat like water or milk?. It likes water./ It

語文運用 留意錯別字 辨識近義詞及詞語 的感情色彩 認識成語

大學教育資助委員會資助大學及絕大部分專上院 校接納應用學習中文(非華語學生適用)的「達 標」