國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
13
的進⼀步探討,探索更多結合⽂字資料與味覺、嗅覺相關的感官屬性研究之可 能性。
2.3 以深度學習為基礎之情緒分析
情緒分析為透過探勘多媒體資料的探勘,來挖掘個⼈對於特定實體
(Entity),如⼈、事、物甚⾄議題等的感受。在全球資訊網(World Wide Web)與社群媒體(Social media)發展的推波助瀾下,⼀般個⼈得以透過⽂
字、影像聲音等資料形式,⼤量⽣產表達自我感受的內容並廣為傳播,多元且
⼤量資料為資料探勘技術提供相當豐富的應用發展前景。[23]目前情緒分析的 應用範疇相當多元,舉凡⾦融業之股票市場趨勢分析、出版、音樂、電影等內 容產業、電⼦產品與民⽣消費品產業的使用者意見研究[24],甚⾄是政治領域 針對選舉或公共政策的民意調查等,均能看見其涉⾜之蹤跡[25]。
現今電腦資訊科學在機器學習與深度學習技術的發展與運用下,對不同形 式資料進⾏⼈類情緒分析的相關研究已有不少成果,⽽自然語⾔處理領域對⽂
本資料進⾏深度學習之情緒分析,可說是目前與情感計算相關科目中發展最為 成熟、完整的領域。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
對⽂本的分析傳統上以針對⽂句的句法(syntactic)與語意(semantic)為主 [26]。目前⼤多數主流的研究途徑是將事先標註情緒屬性標籤⽂本資料輸⼊深 度學習模型,進⾏監督式學習(Supervised learning)。然⽽,在現實世界有著
⼤量⽂字資料是沒有經過事先標註的,為了充分運用這些資料已解決真實問 題,⼀些新的研究⽅法類型,如透過現成之辭典(Lexicon)或專家以其專業知 識協助事先定義詞彙,以幫助提升模型成效之半監督學習(Semi-supervised learning)⽅法亦有長⾜的發展[27]。在 2017 年,Google 的 Vaswani 等學者發 表了為深度學習領域帶來了重⼤影響的論⽂《Attention Is All You Need》[1],
其中提出了運用注意⼒機制的Transformer 模型。Transformer 模型之架構以是
⼀以編碼器-解碼器(Encoder-Decoder)結構為主,透過輸⼊⼀連串的資料序 列,在每⼀個階段輸⼊皆會以自迴歸(Auto-regressive)⽅式運用前⼀個資料的 資訊學習彼此之間的關聯。其運用了同為 Google 所提出之⽂字嵌⼊(Word embedding)技術[28],將⽂字映射到特定向量空間,以向量形式來分析彼此的
圖
2.3-1
傳統情緒分析中情緒(Sentiment
)之基本架構[2]
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
15
關聯及相似度,⼤幅減少了⽂字形態差異與歧異性對傳統自然語⾔處理所造成 的障礙。
Transformer 模型採用的的注意⼒機制最早為電腦視覺領域所開發,參考⼈
類⼤腦讓視覺透過聚焦在重點訊息,忽略其他不重要部分以節省認知資源的注 意⼒原理進⾏設計,改良了傳統進⾏序列形式資料深度學習之遞迴神經網路模 型(Recurrent Neural Network, RNN)只處理前⼀個序列之詞向量的缺點,注意
⼒機制將編碼器所⽣成之所有詞向量全部提供給解碼器,讓解碼器根據不同任 務特性決定「注意⼒」的焦點,以此賦予輸⼊或輸出的字詞給予不同的權重⾼
低,建立長距離⽂本字詞之間的關聯並進⾏輸出,使深度學習模型能藉此強化 圖
2.3-2 Transformer
模型架構圖[1]
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
學習效率,並解決傳統遞迴神經網路模型的不⾜之處。此⼀機制首先被延伸應 用於機器翻譯領域之⽂本分析[29]上,開啟了自然語⾔處理相關應用之先河。
Transformer 模型更進⼀步改良了注意⼒機制,提出新的「自注意⼒機制(Self-attention)」,讓編碼器在處理輸⼊及解碼器處理輸出之時,皆同時關注自⼰序 列中的所有資料元素,以獲得更為完整的上下⽂資訊。
圖
2.3-3
自注意⼒機制圖解[30]
Google 在 2018 於 Transformer 模型的基礎上推出專門用於自然語⾔處理的 BERT 模型[31],其透過雙向學習的設計以便同時有效地運用上下⽂的資訊,並 以預訓練(Pre-training)結合精調(Fine-tuning)的⽅式,運用維基百科
(Wikipedia)等⼤型公開語料庫事先訓練出具有⼀定程度效能之模型, BERT 已被證實在包括情緒分析在內等多個⽂本分類任務上有壓倒性的優秀表現,已 有儼然成為自然語⾔處理領域新⼀代標準模型之姿[32]。
2019 年 6 月,Google 再度推出基於進⼀步改良之 Transformer 模型架構,
效能比 BERT 更為強⼤的預訓練自然語⾔處理模型 XLNet[33]。研究者 Yang
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
17
等⼈注意到BERT 機制的⼀個缺陷,即其在預訓練階段時,會隨機對句⼦中 15%的詞彙標記(Token)14用隱藏的遮罩(Mask)來替代,等到預測時再嘗試還 原成原本的字,以便藉此充分運用上下⽂資訊,但遮罩在精調階段時並不存 在,這會造成兩個階段之間資料不對稱(Input noise)的問題。有鑑於此,
XLNet 提出了稱為 Permutation language modeling (PLM) 的創新模型機制,避 免在預訓練時使用遮罩,以解決了此⼀問題,且其亦能充分運用⽂本的上下⽂
資訊,藉此讓XLNet 在情緒分析等⽂字分類任務上,達到超越 BERT 的更好表 現[34]。
自然語⾔處理之情緒分析受Transformer 模型之賜,學習與預測能⼒雖有⼤
幅提升。然⽽,傳統專注於處理單⼀屬性的⼆元分類模型,若要用於處理具有 多個向度的嗅覺、味覺屬性進⾏辨識,架構似已不⾜適用之。
近年來在監督式學習的任務上,研究焦點多聚焦於如何讓模型從多個彼此 不同的屬性中做出正確的分類判斷。此⼀發展對於情感計算及自然語⾔處理的
⽂本情緒分析任務亦有很⼤的幫助,提升了相關技術應用於味覺與嗅覺感知屬 性研究之可⾏性。本研究亦將就此做進⼀步之回顧探討。
14 在自然語⾔處理領域中,指對句⼦序列切割後,所得到具有意義的最需小詞彙單元,