語意分析(Semantic Analysis)

第二章文獻探討

第一節語意分析(Semantic Analysis)

現今網路已大量使用語意分析技術，比如：在搜尋網站的輸入框打入關鍵字的第一個字，搜尋引擎馬上就列出相關的關鍵字，而通常候選的關鍵字中就有你想要打入的文字？或者是網路購物系統推薦的物品，而剛好也正是你想要的？這些都是運用語意分析與資料探勘技術才能精準投放使用者的需求。

自動化運算科技發展如火如荼，專家們無不費心研究電腦類神經演算的技術以期望簡化人類作業流程，使用電腦替代人工，經由電腦學習過程，可以將人類的判斷機制及制式化的操作自動化節省人工的成本。並且由於 web 2.0 網際網路發達，人們在網路上透過部落格（Blog）、社群網站、手持裝置、監測器各種裝置上傳了文字、影音、圖片累積了巨量的資料，這些來自生活環境的資料是以難以想像的速度成長。這些巨量的資料也稱為大數據（Big Data）。

由於這些儲存資料有著非結構化的特性，如果可以經由電腦學習自動整理與分析這些資料，並且從資料中擷取特定的數據，建立起關聯資料庫（relational database），便可以分析出人們的各種行為，比如商品或趨勢的情緒反應。讓企業掌握關於市場的行銷趨勢，或是產品的觀感與口碑，進而開發需求或是進行商業行為獲利。電腦自動化運算是具有經濟產值的技術。其中分析文字結構的語意分析便成為目前電腦人機溝通領域研究的重要課題。

在城田真琴、梁世英等人鍾慧真（2013）《大數據的獲利模式》一書中對於廣義巨量資料的定義為「在 3V：數量（volum）、多樣性（variety）、速度（velocity）

的方面難以管理的資料，以及為了儲存、處理與分析這些資料的技術，還有包括

為了分析這些資料，並且能夠從中萃取有用資訊或洞見的人才與組織」。如圖 2-1 所示，從以往系統化儲存的結構化資料運用，到後來運用資料處理與分析技術來分析非結構化資料，都屬於狹義的巨量資料範圍，加上人才、組織就成為了廣義的巨量資料，然而要如何在這些資料中尋找隱藏的重要訊息，將每個點狀的非結構化資料連結成線狀的關聯資料庫，則得仰賴分析技術，其中機器學習

（Machine Learning）、語意分析為資料處理技術的核心課題。

圖 2-1：廣義的巨量資料

資料來源：梁世英、鍾慧真（譯）（2013）。Big Data 大數據的獲利模式（原作者：城田真琴）。（頁 54）

一、語意分析技術

針對非結構性的資料處理，語意分析技術（Semantic Analysis，SA）因為可以從文章中確定詞彙之間的關係，電腦可以透過學習建立語意空間，建立語意庫，

進而應用於資料探勘、巨量資訊搜尋，成為企業做決策的因素，所以在社群網路研究中方興未艾。在本研究中文章內容需要先分析為部落格文章類別，以語意分析技術流程可以分成三個步驟：

(一) 建立目錄索引：

使用 Ncapture 擷取網路文本與社群資料。

(二) 字詞處理：

斷詞演算是處理語意分析重要的前置作業，主要目的是要從文章內容中擷取出代表詞彙。中文斷詞處理方法分為詞庫斷詞、混合斷詞法與 N-Gram 斷詞法，

詞庫斷詞需使用現有語料庫來分析，而 N-Gram 斷詞法主要用於尋找新字詞，由於各有利弊，所以也有研究先使用語料庫斷詞後交由 N-Gram 找出新字詞的混合斷詞方法。

(三) 集合文章的詞彙：

經由標題與文章內容所分析的詞彙，透過抽象化取得抽象語法，並將詞彙的權重做權重加成，關聯性越大的詞彙，數值越高，也越能代表文章的屬性，由於部落格用詞日新月異，所以本研究詞彙用資料探勘方式定期搜尋文章，使用人工智慧方式進行，自建部落格詞彙的中文詞庫。

由於 web 2.0 蓬勃發展，社群網站所累積的資料量相當龐大，學術界在語意分析處理也引進了本體論（ontology）的概念（Lord, Steven, Brass & Goble, 2003），

表達特定領域中詞彙與詞彙之間的關係，內容包括有物件（object）、物件特徵

（property）與物件間的關係（relation），讓電腦可以搜尋、認同文字意義，有效使用在提升同意詞或多意詞的分類精度（Choi, Song & Han, 2006）。

由以上可得知，語意分析的趨勢，主要從社群網路快速累積的巨量資料上，

將社群相關資料，分析為有價值的數據，部落格支援 XML 與 RSS 等資料，是語意分析主要的分析來源，因為這些開放式文字交流格式廣泛應用於部落格，使得資料來源大開，與此技術相關的技術，如：潛在語意分析（LSA，Latent Semantic Analysis，簡稱 LSA）、巨量資料（Big Data）、資料探勘（DataMining）或是網頁探勘（Web Mining），其中十分相關的語意庫技術發展也如火如荼，如利用機器學習（machine learning），將大量資料與訊息完整及有效的解譯，以期推升知識密集度（Mika, 2005），以及建立更有效的部落格搜尋技術提供給企業使用

（Chen,Tsai & Chan，2008）。

二、潛在語意分析發展與應用

潛在語意分析是指將文章中所含的象徵詞彙分析出來，並且將語意與語意相對應的關聯性建構出詞意空間。透過資料庫技術、資料探勘、詞意處理技術將詞彙、文章、句子所含的語意內容表現出來，最早是由 Deerwester 等人（1990），

利用數學線性代數建構詞彙與詞彙關聯的語意空間模型，應用於代表意義相近的詞彙，比如「棒球」與「大聯盟」，透過奇異值分解（Singular Value Decomposition）

與維度約化（Dimension Resuction），可以推導出隱含在文章中的關聯性，在自然語言以及搜尋檢索應用層面極廣，LSA 可以在語意空間中正確表達詞彙與語句的關聯性，在使用上由於部落格文章多接近口語文字，LSA 的分析方法可以比較接近部落格文章所要表達的意思，也因此本研究選擇 LSA 模型來進行部落格文章語意的分析，並且將分析結果與部落格日誌分類方式做媒合，提出主題類別圖片與部落格網頁樣版配色的關聯方法。

由於斷詞方法、語料庫、語意分析技術都影響建立的語意空間精確度，所以斷詞演算法的實驗研究，語料庫建立的技術，還有以分群方式與關聯度方式精進中文分析技術的研究皆如雨後春筍一般出現在學術研究上：

(一) 斷詞演算：

郭益豪（2013）使用 N-Gram 斷詞法改良的潛在語意分析，將新聞文件做為測試資料集，做關鍵字的數量與權重比較，陳稼興、謝佳倫等人許芳誠（2000）

運用遺傳演算法提出改良的非人工斷詞模型，可以依據詞彙長度與語句出現次數，

呈現較佳的斷詞結果，陳明蕾、王學誠等人柯華葳（2009）在自動比對詞彙與詞彙的潛在語意分析技術上著墨不少，研究網頁裡有斷詞以及詞頻分析工具，可以輸入文章查詢文章用詞的頻率。

(二) LSA 演算技術：

彭華瑞（2002）提出可以擷取長距離資訊的語言模型，用於改良原有 N-gram 模型的缺點，黃信捷（ 2008）以分群方式製作文章摘要器（ clustering text summarizer），根據研究中指出使用 LSA+SOM 語句摘要器準確率有 53.39%。

除了將範圍分群，另外陳家毅（2011）依照句法結構增加權重方式，實驗三種權

Strapparava & Mihalcea（2008）研究可以從文本中判別出憤怒，厭惡，恐懼，快樂，悲哀和驚奇六種基本情感的鑑定方式。域方向為主，如 Stone & Dennis（2011）運用 TASA（Touchstone Applied Science.

Associates）語料庫研究 1089 個網頁發展出以眼球運動科技，來設定網頁上語意分析預測模型，將體感科技與語意分析連結。

由於語言字詞結構不同、語系差異，語料庫內容也會不同，以中文而言，

有以下幾個著名的中文語料庫資源：

表 2-1：國內中文語料庫列表

網站名稱網址網址及簡介

漢字偏誤語料庫 http://free.7host05.co m/bluekid828/%20

由鄧守信教授帶領製作，漢語學習者之漢字偏誤數據資料庫。

CWS 中文詞彙特速描系統

http://wordsketch.ling.

sinica.edu.tw/

除了一般的關鍵詞及語境查詢外，

更提供了詞彙特性速描（ word sketches）、語法關係以及同近義

詞分析等自動產生的語法知識古漢語語料庫 http://www.sinica.edu.

tw/ftms-bin/ftmsw3 或

近代漢語標記語料庫 http://www.sinica.edu.

tw/Early_Mandarin/

為應漢語史研究需求而建構的語料

現代漢語平衡語料庫 http://www.sinica.edu.

tw/SinicaCorpus/ 或 http://www.sinica.edu.

tw/~tibe/2-words/mod ern-words/ 或

http://www.sinica.edu.

tw/ftms-bin/kiwi.sh

主要針對語言分析而設計，由中央研究院資訊所、語言所詞庫小組完成，內含有簡介、使用說明，現行的語料庫是 4.0 的版本。

唐詩三百首 http://cls.admin.yzu.ed u.tw/300/

以國中、小學學生為主要使用對

樹圖資料庫 http://treebank.sinica.e du.tw/

「中文句結構樹資料庫」是中央研究院詞庫小組從中央研究院平衡語

料庫（Sinica Corpus）中，抽取句子，經由電腦剖析成，結構樹並加

中英雙語知識本體詞網 http://bow.sinica.edu.t w/

結合詞網，知識本體，與領域標記的詞彙知識庫。

搜文解字 http://words.sinica.edu .tw/

文國尋寶記 http://www.sinica.edu.

tw/wen/

漢籍電子文獻 http://www.sinica.edu.

tw/~tdbproj/handy1/

包含整部 25 史與整部阮刻 13 經、 w/HLM/home.htm

元智大學中國文學網路系統研究室 http://elearning.ling.sinica.edu.tw/resources.html

三、以部落格為來源做語意分析的相關研究

網際網路上的文章內容資訊聚集虛擬平台初步分類有：部落格、討論區、電子佈告欄、微網誌、電子郵件與社群網站，以上能夠聚集較長文章的平台以部落格為首選，也因此許多語意分析是基於部落文章為內容來源的研究，以部落格為主的研究整理出兩大議題：

(一) 分類推薦：使用群聚演算法可以找出同種類或相近的部落格文章，以便進行瀏覽推薦，鄭光廷與吳欣怡（2013）研究結合使用者偏好度、社群緊密度與文章新鮮度為多維度指標作部落格的個人化數位內容推薦，提升文章閱讀次數以及部

在文檔中中文語意分析應用於部落格自動配色系統之研究 (頁 19-27)

第二章 文獻探討

第一節 語意分析(Semantic Analysis)

第二章文獻探討

第一節語意分析(Semantic Analysis)