• 沒有找到結果。

一 緒論 1.1 研究背景

社會網路(social network)服務與網站近年來蓬勃發展,網路上的所有行為皆 可用「互動、分享、關係」作為詮釋,造就了新型態資料整合與分享模式,並讓 網路世界和現實生活之間的界限越來越模糊。宏觀而言對於資訊科技、人際關係、

社會發展、乃至國家經濟等層面皆造成巨大影響;另從微觀的角度觀之,開啟了 人際關係間新的交流模式。人們花費越來越多的時間在使用網路上,人際間之通 訊頻率相較於以往之媒介,增加數以倍計,而社群網路的使用時間在 2011 年首 度超越搜尋引擎。據美國著名的市場研究公司 com.score 發表的 2011 年度社群網 路報告[1],指出目前全球網路使用者的行為,每五分鐘就有一分鐘是在瀏覽社 會網路,而每十位網友中,就有一位造訪過 twitter,網站用戶量也比去年同期增 長 59%。據 Nielsen 公司 2011 年第三季之統計[2]指出,美國人每月花在 Facebook 網站的時間為 Yahoo!的三倍,Google 的四倍,如此足以證明社會網路儼然成為 被普遍接受的社交管道。

社會網路所提供的服務也具多元化,常見的有訊息發布、首頁建立、部落格、

個人檔案維護、影音上傳、應用軟體(apps)等。雖然一般印象中使用者常花費大 量的時間於遊戲或應用軟體的使用上,但據實際使用者的使用統計[3]指出,

Facebook 的使用者約花 27%的時間於觀看訊息與網頁、21%的時間用於觀看/維 護個人檔案、17%花在觀看/上傳影音上、而花在應用程式地時間僅占 10%。以 Facebook 網站而言,藉由朋友關係的建立,使用者可以將訊息透過分享傳播予 朋友及其追隨者;反之,使用者也能隨時得知朋友之近況分享且給予回應,在發 布與回應之中,訊息的傳遞以滾雪球的方式如病毒般向四周擴散而去,因此個人 或企業用戶將會越來越倚重訊息發佈管道以獲得最大的個人與商業效益。

由上述之統計資料顯示,社會網路之使用者主要活動集中於內容的發表及分 享。常見的社會網路中 使用者的活動主要集中於內容的分享,如文字(Facebook、

2

Twitter 等)、影像(Flickr、Picasa 等)、影片(Youtube 等)等。然而,其中最大內容 量的當屬文字訊息。如何從如此大量的文字內容中發掘具價值之知識,已成為現 今之熱門研究課題。

由於社會網路服務的使用者與資料日益增加,對於資料分析的需求量也隨之 增長,此類訊息多半屬於非結構化的資訊(unstructured)被儲存著,因此挖掘其中 有用的訊息即是相當重要的研究議題。目前社會網路分析與探勘(social networks analysis mining)相關研究如雨後春筍般相繼被提出與研究,大量解析網路中非結 構化的資訊,將其轉化作為可利用之市場行銷、人際互動分析等應用。傳統以來 分析社會網路主要有兩種方式,其一為基於圖論(graph theory)之連結分析(link analysis)方法為主,主要是藉由結點之特性與結點間之連結關係來發掘一社會網 路中重要的個體、群體、乃至人際關係;其二為內容分析方法(content analysis),

藉由分析社會網路中各結點內與結點間之內容來發掘隱含其中之知識。

從文字中發掘隱含知識之技術屬於文本探勘(text mining)的範疇。其中最主 要的核心技術之一在於發掘文件中之概念與其關聯,利用發掘出之概念,可作為 其類別,進而達成文件分類。

在社會網路之文字訊息具有下列特性:

I. 訊息長度極端化:在社會網路中所發布的文字訊息大多屬於個人心情 的抒發、現況的描述、或是針對新聞的引用與評論等。然而,這些訊 息的建立多為即時性與隨性式,故長度大多不長,甚至包含一、兩個 字。另一方面,使用者也常引用新聞報導、部落格文章、產品評測等 長度頗長的訊息。

II. 訊息內容抽象化:社會網路中之文字訊息經常包含一些較不具體的內 容且文句較無結構,甚至只包含表情符號而不具任何一般文字。然而 對於社會網路文字訊息而言,此類訊息反而有重大的涵義,主要是因 為這類訊息中隱含著大量的情感價值。

3

III. 訊息量巨大化:社會網路訊息由於大多為心情抒發與訊息分享,因此 所產生之訊息量極為巨大且即時,並且容易因特定事件突然爆炸性的 增加。如 2011 年 3 月日本大地震發生時,Twitter 的訊息發佈量達到七 億三千六百萬則,較前日均量超出 20%。

由於社會網路之文字訊息具有許多不同於一般文字文件之特性,固在進行文 本探勘時便具有其差異性與困難度。因此必須發展適合社會網路之文字訊息之前 置處理與探勘程序。針對社會網路之文本探勘應用頗為廣泛,在本論文中將針對 情感分析進行應用之開發:

本研究之焦點為自動化之情感分析(Sentiment analysis)或意見探勘(Opinion mining),情感分析主要為分析一訊息之情感狀態,如作者當下抒發之情感或作 者欲引發之情感,另外也包含作者對於某一訊息之評價與判定。通常我們針對訊 息予以好、壞、或中立等評價,或賦予一訊息”快樂”、”悲傷”等情緒判斷。

1.2 研究動機

社會網路中文字訊息之分享扮演極其重要的角色,顯而易見其間必定隱含著 可觀的商業、政治、經濟、情報、國安、醫療等利益。其間所隱含之情感或意見 若能被成功的發掘,則可應用於多種領域。如若能從這些文字訊息中,發掘使用 者對商品或品牌之偏好,則可對其發送可能為其所喜好之商品促銷訊息,擴大行 銷成果。若能從文字訊息發掘使用者之政治傾向,便可對其進行適當之政治宣傳。

醫療上,若能偵測使用者之心理狀態異常,則可給予適當之醫療意見,甚至若判 斷其可能對自身或他人產生危害時,亦可發送訊息於社福或相關警察單位採取防 範措施。在國安應用上,若能偵測出恐怖組織及其網路,則可對其可能發生之恐 怖行為予以制止與防護。上述各例只是一小部分社會網路文字訊息情感偵測之可 能應用,若能針對所需核心技術提出可行之解決方法,其應用層面將更為廣泛與 深入。然而由於社會網路訊息之特性,在其間進行情感分析便相對困難,如何發 展一適用於社會網路訊息之方法便成為現今重要之研究課題。

4

1.3 研究目的

本研究的目的,主要針對於社會網路之短文訊息開發一情感分析方法,冀希 能為社會網路訊息情感分析應用提供一可行之解決方案。依此目的,本研究將發 展下列社會網路之文字訊息情感分析機制:

1. 處理:針對社會網路訊息進行清理與精煉。本研究將針對社會網路訊息 保留其重要的語意甚至是情感概念,且進行文字處理程序之開發。本研 究之文字處理程序要進行的步驟包含取樣、斷詞、關鍵字比對與選取、

文件向量化等。

2. 情感分析:針對所蒐集到的社會網路之文字訊息進行探勘與分析。本研 究將利用分群法群聚類似文件之特性以偵測社會網路文本中所隱含的 概念。此類概念為社會網路中所重視之訊息情感傾向。

1.4 研究架構

本論文共分五個章節。第一章為緒論,說明本論文之研究背景、動機與目的。

第二章則針對情感分析與概念偵測進行探討。第三章詳細說明本論文之研究方法、

架構。第四章為實驗結果,包含實驗資料前置處理、文件的分群與標記流程、與 情感偵測,並根據前一節所提及實驗設計,進行實驗結果呈現與評估分析。最後 第五章為結論與分析,針對研究成果進行討論。

5

相關文件