• 沒有找到結果。

關鍵字之自我組織圖訓練

三 研究方法

3.4 關鍵字分群

3.4.2 關鍵字之自我組織圖訓練

圖 3-8 關鍵字之向量模型

3.4.2 關鍵字之自我組織圖訓練

經關鍵字之向量化處理後所得到的關鍵字向量,再輸入自我組織圖進行分群 訓練,最後使用上述的標記(labeling)過程將各關鍵字標示於訓練後之自我組織圖 上。在此所謂標示即是計算此關鍵字與所有神經元鏈結權重向量的距離,找出權 重距離最小的神經元後,則將此關鍵字標記至此神經元上。透過這個過程,我們

22

可以將相關的關鍵字標示於同一神經元上,如此則能夠聚集相似度高的關鍵字於 一群,被分群在同一神經元上之關鍵字應具有相同主題,而這些關鍵字又會具有 許多共用的文件神經元,也就是完成分群的目的,而透過標示的過程,也能逐漸 的收斂相似度高的關鍵字於同一鄰近區域。

3.5 情感分析

此步驟最大目的在於針對文字訊息分析其所隱含之意見,而後進一步分析使 用者之情緒狀態。情感/意見分析模式可分為兩種,其一為訊息進行極性(polarity) 分析,例如判斷此訊息所隱含之意見為”贊成”、”中立”或”反對”等尺規不同之極 性,屬於極性分析者,在此概稱為意見探勘。另一種為非極性分析,即判斷訊息 為某一狀態,而此種屬於非尺規的區分,例如”喜”、”怒”、”哀”、”樂”等。本研 究將針對尺規等級進行研究,利用關鍵字分群後獲得的特徵圖進行意見探勘,歸 納出所有神經元之極性,再利用文件與意見分數探勘後之結果做關聯連結,取得 文件神經元所對應至極性神經元,當一文件群組屬於某一極性之概念時,即可被 歸類至該概念群組,意即我們可以用這些極性來代表文件群組之語意。

3.5.1 意見分數

在此我們想要針對一關鍵字群組所表達之意見等即給予評定,自”最讚同”

至”最反對”間予以評等。作法為賦予一關鍵字一意見分數,若其為 1 則代表”讚 同”-1 則代表”反對”。舉例而言,”贊成(approve)”、”開心(happy)”之分數為 1;”

不贊成(disapproval)”分數為-1 等。探勘方法為採用投票法來進行,令 So(ki)為關 鍵字 ki之意見分數、Ki為關鍵字群組。則關鍵字群組 Ki之意見分數為其概念之 意見分數總和:

(3.4)

由於我們在式(3.4)中已將意見分數與以正規化,故 S(Ki)之值將落於+1 與-1 之間,

代表不同之同意程度。

23

由於我們逐一將每一關鍵字群組予以評分,賦予它一個群組各自擁有的專 屬極性分數,最後依據此分數之性質,給予各群組之情感極性。如下圖 3-9 所示:

圖 3-9 關鍵字群組之極性示意圖

3.5.2 關聯發掘

此步驟主要是發掘出文件群組所隱含的情感極性,利用完成文件向量與關 鍵字向量的訓練後,會得到兩張特徵圖,其一為文件分群圖,其二為關鍵字分群 圖。這些特徵圖可以呈現文件間或關鍵字間之關聯,然而文件群組與關鍵字群組 間的關聯卻難直接獲得,其原因是此特徵圖間並不存在直接的對應關係,以下我 們將發展一方法來發掘此二特徵圖間之關聯,如下圖 3-10 所示:

24

圖 3-10 特徵圖關聯示意圖

要找出不同特徵圖之間的關聯,首先我們必須將一文件分群圖之神經元對 應至另一關鍵字分群圖之某一神經元上。假設 Pk為關鍵字群組 Ki內之關鍵字向 量,Pd為文件群組 Dj內之文件向量,其中 Nc(Dj)為群組 Dj之鄰近群組所構成之 集合,則關鍵字群組 Ki與文件群組 Dj間之相似度是 S(Ki,Dj):

(3.5)

在此舉一例說明。對某一文件群組 Dj 而言,當 S( , )是所有 S( , ),

1<=i<=n 中最大時,其所對應的關鍵字群組為 Ki。其步驟為先計算文件群組 Dj

與所有關鍵字群組間的相似度,相似度為文件向量與關鍵字向量進行內積計算,

再除以每個關鍵字群組之關鍵字字數進行正規化處理,最後找出其中最大的相似 度之群組對應至該文件群組。舉例來說,當關鍵字字數共有 10 個,而 K1神經元 上 的 關 鍵 字 有 {K1、 K2、 K4、 K6} , 則 此 關 鍵 字 向 量 , 即 式 (3.5) 之 Pk, 為 {1,1,0,1,0,1,0,0,0,0}。若文件神經元 Dj 的文件向量,亦即式(3.5)中之 Pd,為 {0.2,0.0,0.4,0.4,0.71,0.51,0.0,0.0,0.52,0.64},為了找出關鍵字向量 Pk的最相似的文 件向量,我們將進行兩向量之內積相似度計算,其值為{0.2+0.0+0.4+0.51},再 除以關鍵字向量之長度 4,作正規化處理,則 Dj 與 K1的相似度為 0.2775,接著 依 序 計 算 4 個 鄰 居 文 件 神 經 元 Dj-10 、 Dj-1、 Dj+1 、 Dj+10 , 分 別 為 {0.3,0.41,0.5,0.0,0.0,0.62,0.1,0.0,0.0,0.41}、{0.1,0.21,0.0,0.0,0.34,0.0,

0.14,0.1,0.16,0.0}、{0.0,0.13,0.14,0.8,0.3,0.41,0.0,0.0,0.0,0.0}、{0.0,0.46,0.85, 0.13,0.31,0.71,0.0,0.0,0.6,0.14},利用上述之相似度計算公式,依序計算其與 周遭 4 個鄰居之相似度後,其值分別為 0.33、0.08、0.34、0.33,接著將 5 個神 經元之相似度進行加總後,再除以 Nc(Dj)集合之長度,即文件群組 Dj之鄰近群

25

組的集合的長度,其集合長度為 5,進行正規化處理,讓其值範圍受限於 0~1 之 間。

決定了各文件群組之對應關鍵字群組後,可以用以下方式來偵測訊息之情 感。一新進文件 dI先依第二節所述進行前置處理並轉換為一文件向量 dI。此輸 入文件向量再與文件分群圖中之所有神經元比較以找出最近的文件分群 CI。若 CI對應至某一關鍵字分群 KI,則文件 dI會被視為擁有此對應關鍵字群組 KI之情 感傾向與權重值。

26

四 實驗結果 4.1 實驗步驟

本研究所使用之實驗資料集來源為由高雄應用科技大學李俊宏教授所整理 而成之 Twitter 之文字訊息,其內容為 Twitter 自 2012 年 01 月至 2012 年 03 月中 所收集之訊息,總共約一億筆網路文字訊息。而為了達到較好的效果,我們捨棄 了包含關鍵字數過少(少於 2 個字)之訊息。本研究共蒐集其中之一萬筆訊息,並 將蒐集到的資料以隨機的方式分為訓練資料集與測試資料集,本研究參考前人研 究經驗,將訓練集與測試集以 7:3 比例隨機混合挑選,各包含 7000 與 3000 份 文件。再利用第三章所述之方法將其轉換為文件向量,隨後再進行自我組織圖的 分群訓練,建立文件之分群圖。再利用文件分群圖建立關鍵字向量後,進行第二 次的自我組織圖訓練且建立關鍵字分群圖。最後透過關聯挖掘來計算出文件群組 之相對應之關鍵字群組來進行本研究所提之情感傾向之偵測,並且進行評估。

4.1.1 前置處理

本研究前置處理的步驟包含文件正規化與無效文件篩選,此步驟目的在於 將無效字元去除以得到文本文件,並剔除無效文件以提升分群訓練之品質。本研 究去除訊息中各種型式之多媒體物件,並擷取出其中之有效文字部分構成文本文 件。本研究亦會捨棄非英文語系之無效文件,只保留英文語系之文本文件,以降 低後續情感關鍵字比對效果不佳之可能性。圖 4-1 為正規化後之文件之範例。

27

圖 4-1 正規化後之文件

在處理完文件之篩選後,將進行關鍵字之選取。由於文件中包含許多無意 義的贅字、或是一些不包含太多語意的字詞,因此需要作關鍵字的選擇。為了保 留最具情感語意的字作為關鍵字,本研究將採用 Hu and Liu[13]等人提出之全詞 性情感詞彙集來進行詞彙比對,並選擇比對成功之字詞作為關鍵字。圖 4-2 為關 鍵字選取後之結果,在每個關鍵字後面的數字為此字詞於文件中出現的次數。

圖 4-2 關鍵字選取之結果

經過關鍵字選取流程後,本研究將分別依其出現次數,建立不同之文件集。

28

其中文件集 V2包含出現次數大於 2 之關鍵字,共包含 1847 個關鍵字;文件集 V3包含出現次數大於 3 之關鍵字,共包含 1614 個關鍵字;文件集 V4包含出現次 數大於 4 之關鍵字,共包含 855 個關鍵字。

完成前述步驟後,我們將文件進行向量化。首先我們依上述方式建立字彙 集,再使用 3.2.3 節之方法將文件轉換為二元文件向量。圖 4-3 為二元文件向量 圖。

圖 4-3 二元文件向量圖

4.1.2 分群與標記

在完成前置處理後,我們接著使用 SOM 對訊息文件向量與關鍵字向量先後 進行訓練。訓練後將進行一標記過程,將文件與關鍵字標記於自我組織圖之優勝 神經元上,進而針對上述兩種不同特性之向量各得到一張分群特徵圖,分別為文 件群集圖與關鍵字群集圖,圖中每一神經元即代表著一個分群,由於 SOM 分群

29 idiots, why would you cry when your master dies?

Why would you not rejoice at the remot ...

2. " Ride for him , cry for him , die for him , sit right in front of the judge right hand up straight lie for him"

3. You gotta chill in these lonely streets. One day im gonna kill all those muthafuckas that made me cry.

4. I just want to scream fuck you in your face and then cry to you about home much ilu

30 Neurone25:

1. You got to admire james pease for helping out the rays the only problem is the only race he is going to win is to the ...

2. Another uncomfortable tidbit: "electable" candidates who do win tend to screw GOP over on important issues.

3. I will make it fair for everyone.3 lucky fans will win an autographed photo when reaches 5k.This way e ...

4. Good. One less excuse to use if we fail to win this game.

Neurone26:

1. Whenever someone calls me ugly, I get super sad and hug them, because I know how tough life is for the visually impaired.

2. I think Lennox Mall misses me!!! But right now Wal-mart needs me... my fridge is lookin super sad!!

Neurone27:

1. im allways willing to support a good charity event Sam cycling or crawling im there lol ;0)

2. Unfortunately, 97% of twitter users will not RT this for support cancer. But the 3% who do are the ones willing to

3. happy born day to the man that made me so ambitious today! never steers me in the wrong direction & always willing to support. love ya pops!

Neurone.36:

1. Aw lol. if you are anything like her after she watched it every noise scared her aha bless her!

2. is now lying down in a darkened room after the trauma of hovering. Bless 3. Having a very powerful

conversation with Darryl Coley.> wow God Bless him appreciate that man he is a musical genius

4. My vacuum cleaner is making a distinctly TARDIS-esque noise.

While kinda cool, it is somewhat disconcerting.

31

自我組織圖神經元數量為 100,學習速率為 0.1、0.4、0.7,最大訓練週期由 200 至 700。此表為字彙集 V2、V3、V4之文件集的關鍵字分群之最佳結果。

32

4.1.3 情感偵測

得到文件與關鍵字之分群結果後,便可針對關鍵字群組進行意見的探勘,

最後再依文件群組與關鍵字群組之間存在的關聯,來進行訊息的情感偵測,分述 如下。

4.1.3.1 意見分數

此步驟的目的在於針對每一個關鍵字群組進行意見評分,發掘出關鍵字群 組中之情感極性及分數,作為該分群之意見傾向。由於關鍵字分群圖上的每個群 集,是由所有關鍵字以不重複的方式予以標記上,因此被標記在同一個神經元之 上的關鍵字,所採用的特徵值彼此間的相似度極高,且這些關鍵字往往能反映出

此步驟的目的在於針對每一個關鍵字群組進行意見評分,發掘出關鍵字群 組中之情感極性及分數,作為該分群之意見傾向。由於關鍵字分群圖上的每個群 集,是由所有關鍵字以不重複的方式予以標記上,因此被標記在同一個神經元之 上的關鍵字,所採用的特徵值彼此間的相似度極高,且這些關鍵字往往能反映出

相關文件