第二章 文獻探討
第一節 語意分析(Semantic Analysis)
現今網路已大量使用語意分析技術,比如:在搜尋網站的輸入框打入關鍵字 的第一個字,搜尋引擎馬上就列出相關的關鍵字,而通常候選的關鍵字中就有你 想要打入的文字?或者是網路購物系統推薦的物品,而剛好也正是你想要的?這 些都是運用語意分析與資料探勘技術才能精準投放使用者的需求。
自動化運算科技發展如火如荼,專家們無不費心研究電腦類神經演算的技術 以期望簡化人類作業流程,使用電腦替代人工,經由電腦學習過程,可以將人類 的判斷機制及制式化的操作自動化節省人工的成本。並且由於 web 2.0 網際網路 發達,人們在網路上透過部落格(Blog)、社群網站、手持裝置、監測器各種裝 置上傳了文字、影音、圖片累積了巨量的資料,這些來自生活環境的資料是以難 以想像的速度成長。這些巨量的資料也稱為大數據(Big Data)。
由於這些儲存資料有著非結構化的特性,如果可以經由電腦學習自動整理與 分析這些資料,並且從資料中擷取特定的數據,建立起關聯資料庫(relational database),便可以分析出人們的各種行為,比如商品或趨勢的情緒反應。讓企 業掌握關於市場的行銷趨勢,或是產品的觀感與口碑,進而開發需求或是進行商 業行為獲利。電腦自動化運算是具有經濟產值的技術。其中分析文字結構的語意 分析便成為目前電腦人機溝通領域研究的重要課題。
在城田真琴、梁世英等人鍾慧真(2013)《大數據的獲利模式》一書中對於 廣義巨量資料的定義為「在 3V:數量(volum)、多樣性(variety)、速度(velocity)
的方面難以管理的資料,以及為了儲存、處理與分析這些資料的技術,還有包括
12
為了分析這些資料,並且能夠從中萃取有用資訊或洞見的人才與組織」。如圖 2-1 所示,從以往系統化儲存的結構化資料運用,到後來運用資料處理與分析技 術來分析非結構化資料,都屬於狹義的巨量資料範圍,加上人才、組織就成為了 廣義的巨量資料,然而要如何在這些資料中尋找隱藏的重要訊息,將每個點狀的 非結構化資料連結成線狀的關聯資料庫,則得仰賴分析技術,其中機器學習
(Machine Learning)、語意分析為資料處理技術的核心課題。
圖 2-1: 廣義的巨量資料
資料來源:梁世英、鍾慧真(譯)(2013)。Big Data 大數據的獲利模式(原作 者:城田真琴)。(頁 54)
一、語意分析技術
針對非結構性的資料處理,語意分析技術(Semantic Analysis,SA)因為可 以從文章中確定詞彙之間的關係,電腦可以透過學習建立語意空間,建立語意庫,
進而應用於資料探勘、巨量資訊搜尋,成為企業做決策的因素,所以在社群網路 研究中方興未艾。在本研究中文章內容需要先分析為部落格文章類別,以語意分 析技術流程可以分成三個步驟:
(一) 建立目錄索引:
使用 Ncapture 擷取網路文本與社群資料。
(二) 字詞處理:
13
斷詞演算是處理語意分析重要的前置作業,主要目的是要從文章內容中擷取 出代表詞彙。中文斷詞處理方法分為詞庫斷詞、混合斷詞法與 N-Gram 斷詞法,
詞庫斷詞需使用現有語料庫來分析,而 N-Gram 斷詞法主要用於尋找新字詞,由 於各有利弊,所以也有研究先使用語料庫斷詞後交由 N-Gram 找出新字詞的混合 斷詞方法。
(三) 集合文章的詞彙:
經由標題與文章內容所分析的詞彙,透過抽象化取得抽象語法,並將詞彙的 權重做權重加成,關聯性越大的詞彙,數值越高,也越能代表文章的屬性,由於 部落格用詞日新月異,所以本研究詞彙用資料探勘方式定期搜尋文章,使用人工 智慧方式進行,自建部落格詞彙的中文詞庫。
由於 web 2.0 蓬勃發展,社群網站所累積的資料量相當龐大,學術界在語意 分析處理也引進了本體論(ontology)的概念(Lord, Steven, Brass & Goble, 2003),
表達特定領域中詞彙與詞彙之間的關係,內容包括有物件(object)、物件特徵
(property)與物件間的關係(relation),讓電腦可以搜尋、認同文字意義,有 效使用在提升同意詞或多意詞的分類精度(Choi, Song & Han, 2006)。
由以上可得知,語意分析的趨勢,主要從社群網路快速累積的巨量資料上,
將社群相關資料,分析為有價值的數據,部落格支援 XML 與 RSS 等資料,是語 意分析主要的分析來源,因為這些開放式文字交流格式廣泛應用於部落格,使得 資料來源大開,與此技術相關的技術,如:潛在語意分析(LSA,Latent Semantic Analysis,簡稱 LSA)、巨量資料(Big Data)、資料探勘(DataMining)或是網 頁探勘(Web Mining),其中十分相關的語意庫技術發展也如火如荼,如利用機 器學習(machine learning),將大量資料與訊息完整及有效的解譯,以期推升知 識密集度(Mika, 2005),以及建立更有效的部落格搜尋技術提供給企業使用
(Chen,Tsai & Chan,2008)。
二、潛在語意分析發展與應用
14
潛在語意分析是指將文章中所含的象徵詞彙分析出來,並且將語意與語意相 對應的關聯性建構出詞意空間。透過資料庫技術、資料探勘、詞意處理技術將詞 彙、文章、句子所含的語意內容表現出來, 最早是由 Deerwester 等人(1990),
利用數學線性代數建構詞彙與詞彙關聯的語意空間模型,應用於代表意義相近的 詞彙,比如「棒球」與「大聯盟」,透過奇異值分解(Singular Value Decomposition)
與維度約化(Dimension Resuction),可以推導出隱含在文章中的關聯性,在自 然語言以及搜尋檢索應用層面極廣,LSA 可以在語意空間中正確表達詞彙與語 句的關聯性,在使用上由於部落格文章多接近口語文字,LSA 的分析方法可以 比較接近部落格文章所要表達的意思,也因此本研究選擇 LSA 模型來進行部落 格文章語意的分析,並且將分析結果與部落格日誌分類方式做媒合,提出主題類 別圖片與部落格網頁樣版配色的關聯方法。
由於斷詞方法、語料庫、語意分析技術都影響建立的語意空間精確度,所以 斷詞演算法的實驗研究,語料庫建立的技術,還有以分群方式與關聯度方式精進 中文分析技術的研究皆如雨後春筍一般出現在學術研究上:
(一) 斷詞演算:
郭益豪(2013)使用 N-Gram 斷詞法改良的潛在語意分析,將新聞文件做為 測試資料集,做關鍵字的數量與權重比較, 陳稼興、謝佳倫等人許芳誠(2000)
運用遺傳演算法提出改良的非人工斷詞模型,可以依據詞彙長度與語句出現次數,
呈現較佳的斷詞結果,陳明蕾、王學誠等人柯華葳(2009)在自動比對詞彙與詞 彙的潛在語意分析技術上著墨不少,研究網頁裡有斷詞以及詞頻分析工具,可以 輸入文章查詢文章用詞的頻率。
(二) LSA 演算技術:
彭華瑞(2002)提出可以擷取長距離資訊的語言模型,用於改良原有 N-gram 模 型的 缺點 ,黃 信 捷 ( 2008) 以分 群方 式製 作文 章摘 要器 ( clustering text summarizer),根據研究中指出使用 LSA+SOM 語句摘要器準確率有 53.39%。
除了將範圍分群,另外陳家毅(2011)依照句法結構增加權重方式,實驗三種權
15
Strapparava & Mihalcea(2008)研究可以從文本中判別出憤怒,厭惡,恐懼,快 樂,悲哀和驚奇六種基本情感的鑑定方式。 域方向為主,如 Stone & Dennis(2011)運用 TASA(Touchstone Applied Science.
Associates)語料庫研究 1089 個網頁發展出以眼球運動科技,來設定網頁上語意 分析預測模型,將體感科技與語意分析連結。
由於語言字詞結構不同、語系差異,語料庫內容也會不同, 以中文而言,
有以下幾個著名的中文語料庫資源:
表 2-1: 國內中文語料庫列表
網站名稱 網址 網址及簡介
漢字偏誤語料庫 http://free.7host05.co m/bluekid828/%20
由鄧守信教授帶領製作,漢語 學習者之漢字偏誤數據資料庫。
CWS 中文詞彙特速描系 統
http://wordsketch.ling.
sinica.edu.tw/
除了一般的關鍵詞及語境查詢外,
更 提 供 了 詞 彙 特 性 速 描 ( word sketches) 、語法關係以及同近義
16
詞分析等自動產生的語法知識 古漢語語料庫 http://www.sinica.edu.
tw/ftms-bin/ftmsw3 或
近代漢語標記語料庫 http://www.sinica.edu.
tw/Early_Mandarin/
為應漢語史研究需求而建構的語料
現代漢語平衡語料庫 http://www.sinica.edu.
tw/SinicaCorpus/ 或 http://www.sinica.edu.
tw/~tibe/2-words/mod ern-words/ 或
http://www.sinica.edu.
tw/ftms-bin/kiwi.sh
主要針對語言分析而設計,由中央 研究院資訊所、語言所詞庫小組完 成,內含有簡介、使用說明,現行 的語料庫是 4.0 的版本。
唐詩三百首 http://cls.admin.yzu.ed u.tw/300/
以國中、小學學生為主要使用對
樹圖資料庫 http://treebank.sinica.e du.tw/
「中文句結構樹資料庫」是中央研 究院詞庫小組從中央研究院平衡語
17
料庫(Sinica Corpus)中,抽取句 子,經由電腦剖析成,結構樹並加
中英雙語知識本體詞網 http://bow.sinica.edu.t w/
結合詞網,知識本體,與領域標記 的詞彙知識庫。
搜文解字 http://words.sinica.edu .tw/
文國尋寶記 http://www.sinica.edu.
tw/wen/
漢籍電子文獻 http://www.sinica.edu.
tw/~tdbproj/handy1/
包含整部 25 史與整部阮刻 13 經、 w/HLM/home.htm
元智大學中國文學網路系統研究室 http://elearning.ling.sinica.edu.tw/resources.html
18
三、以部落格為來源做語意分析的相關研究
網際網路上的文章內容資訊聚集虛擬平台初步分類有:部落格、討論區、電 子佈告欄、微網誌、電子郵件與社群網站,以上能夠聚集較長文章的平台以部落 格為首選,也因此許多語意分析是基於部落文章為內容來源的研究,以部落格為 主的研究整理出兩大議題:
(一) 分類推薦:使用群聚演算法可以找出同種類或相近的部落格文章,以便進行 瀏覽推薦,鄭光廷與吳欣怡(2013)研究結合使用者偏好度、社群緊密度與文章 新鮮度為多維度指標作部落格的個人化數位內容推薦,提升文章閱讀次數以及部
(一) 分類推薦:使用群聚演算法可以找出同種類或相近的部落格文章,以便進行 瀏覽推薦,鄭光廷與吳欣怡(2013)研究結合使用者偏好度、社群緊密度與文章 新鮮度為多維度指標作部落格的個人化數位內容推薦,提升文章閱讀次數以及部