• 沒有找到結果。

股市趨勢預測之研究 -財經評論文本情感分析 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "股市趨勢預測之研究 -財經評論文本情感分析 - 政大學術集成"

Copied!
62
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊管理學系. 碩士學位論文 指導教授:姜國輝 博士. 政 治 大. 學. -財經評論文本情感分析. ‧. ‧ 國. 立 股市趨勢預測之研究. sit. y. Nat. al. er. io. Predict the trend in the stock by Sentiment. n. v i n C h financialU posts analyzing engchi. 研究生:蔡宇祥 中華民國一○五年七月 1.

(2) 摘要 根據過去研究指出,社群網站上的貼文訊息會對群眾情緒造成影響,進而 影響股市波動,故對於投資者而言,如果能快速分析大量社群網站的財經文本 來推測投資情緒進而預測股市走勢,將可提升投資獲利。 過去文本情感分析的研究中已證實監督式學習方法可以透過簡單量化的方 式達到良好的分類效果,但監督式學習方法所使用的訓練資料集須有事先定義 好的已知類別,故其有無法預期未知類別的限制,所以本研究透過深度學習方 法,從巨量資料及裡抓出有關於股市之文章,並透過財經文本的混合監督式學 習與非監督式學習之情感分析方法,透過非監督式學習對微博財經貼文進行文 本主題判別、情緒指數計算與情緒傾向標注,並且透過監督式學習的方式,建 立分類模型以預測上海指數走勢,最後配合視覺化工具作趨勢線圖分析,找出 具有領先指標特性之主題。. 立. 政 治 大. ‧. ‧ 國. 學. 在實驗結果中,深度學習方面,本研究透過 word2vec 抓取有效之股市主題 文章,有效篩選了需要分析之文本,主題模型方面,我們最後使用 LDA 作為本 研究標註主題之方法,因為其文本數量大於議題詞數量造成 TFIDF 矩陣過於稀 疏,造成 Kmeans 分群效果不佳,故後續採用 LDA 主題模型進行主題標注。情. n. al. er. io. sit. y. Nat. 緒傾向標注方面,透過擴充後的情感詞集比起 NTUSD 有更好的詞性分數判斷 效果,計算出的情緒指數之趨勢線能有效預測上海指數之趨勢。此外,並非所 有主題模型之情緒指數皆具有領先特性,僅公司表現與上海指數之主題模型的 情緒指數能提前反應上海指數趨勢,故本研究用此二主題之文本的情緒指數來 建立分類模型。. Ch. engchi. i n U. v. 本研究透過比較情緒指數與單純指數指標分類模型的準確度,前者較後者 高出 7%的準確率。故證實了情感分析確實能有效提升上海指數趨勢預測準確 度,幫助投資者增加股市報酬率。. 關鍵詞:情感分析、Word2vec、LDA 主題模型、K-means、上海股價指數. 2.

(3) 目錄 摘要 .................................................................................................................................. 2 第一章、. 概論 ........................................................................................................ 5. 1、 研究背景 ......................................................................................................... 5 2、 研究動機 ......................................................................................................... 8 3、 研究目的 ......................................................................................................... 9 第二章、. 文獻探討 .............................................................................................. 10. 1、 情感分析 ....................................................................................................... 10 1.1 情感分析的定義 ...................................................................................... 10. 政 治 大. 1.2 情感分析的方法 ...................................................................................... 11. 立. 1.3 情感分析與股價之相關性研究 .............................................................. 13. ‧ 國. 學. 2、 Apache Spark ............................................................................................... 14 3、 Word2Vec ....................................................................................................... 16. ‧. 4、 主題模型(Sentiment Analysis) ............................................................... 18. y. Nat. 4.1 TF-IDF ...................................................................................................... 18. io. sit. 4.1 K-means .................................................................................................... 19. n. al. er. 4.2 Latent Dirichlet allocation(隱含狄利克雷分布) ........................ 19. i n U. v. 5、 文字分類(Text Classification) ............................................................. 23. Ch. engchi. 5.1 支援向量機(Support Vector Machine, SVM) .................................... 24 第三章、. 研究方法 .............................................................................................. 26. 1、 資料蒐集(Data Collection) ..................................................................... 28 2、 文本前處理(Document Preprocessing) ................................................... 29 2.1 中文斷詞(Segmentation/Tokenization) ............................................ 29 2.2 詞性標注(Part-of-Speech Tagging) .................................................. 29 2.3 否定詞處理(Negation Process) .......................................................... 30 2.4 詞性過濾(POS Filtering) .................................................................... 31 2.5 字詞頻率計算 .......................................................................................... 31 3、 Word2vec ...................................................................................................... 32 3.

(4) 4、 文本主題標註(Sentiment Orientation) ................................................. 32 4.1 找出文本熱門議題詞 .............................................................................. 32 4.2 建立向量空間模型(Vector Space Model) .......................................... 33 4.3 透過 K-means 建立主題模型 .................................................................. 35 4.4 透過 LDA 建立主題模型 ........................................................................ 35 4.5 判斷文本主題 .......................................................................................... 36 5、 情緒指標標註 ............................................................................................... 36 5.1 建立財經種子詞集 .................................................................................. 37 5.2 情緒指數計算 .......................................................................................... 38 5.3 情緒傾向標註 .......................................................................................... 38. 政 治 大 6.1 監督式學習的分類演算法 ...................................................................... 39 立 6.2 分類的效果衡量 ...................................................................................... 39. 6、 分類模型建立與分類成效衡量(Classification) ................................... 39. ‧ 國. 學. 7、 視覺化分析 ................................................................................................... 41 第四章、. 研究結果 .............................................................................................. 42. ‧. 1、 實驗資料擷取結果 ....................................................................................... 42. Nat. sit. y. 2、 文本類別標注結果 ....................................................................................... 43. n. al. er. io. 3、 財經文本判斷結果 ....................................................................................... 45. i n U. v. 4、 分類模型實驗結果 ....................................................................................... 51. Ch. engchi. 5、 視覺化分析結果 ........................................................................................... 51 第五章、. 結論與建議 .......................................................................................... 57. 1、 結論 ............................................................................................................... 57 2、 未來研究與建議 ........................................................................................... 59 參考文獻 ........................................................................................................................ 60. 4.

(5) 第一章、. 概論. 1、 研究背景 自 90 年代以後,大陸改革開放後,中國大陸的股市重要性與日劇增,上海 證券交易所目前在亞洲僅次於東京以及香港的第三大證券交易所,在全球也名 列第五名。由於中國的股市從改革開放後才算真正開始,因此其歷程較短,相 較於其他股市易受與論影響, 此外,於 2015 年末的中國大陸股災發現了其輿 論造成了其股市的影響,特別是透過網路輿論決定投資現象的結果日益加重,. 治 政 大 1.股市變化的心理因素:2015 年初,中國股市開始翻轉,指數連續上揚, 立. 有關中國股市波動劇烈的原因,大抵可分為可為以下幾個原因。. 同時,中共宣傳機構大力宣揚大陸股票市場已轉入牛市的訊息,股市的大幅上. ‧ 國. 學. 漲的同時也帶動了中國民眾炒股的熱潮。之後,股市變化急轉直下,其主要原. ‧. 因在於投資者的心理,而非任何實質經濟因素所造成。. y. Nat. 2.中國股市的投資者以個人投資者為主:個人投資者居主導地位,交易帳戶. er. io. sit. 數佔比超過 99%,個人散戶、個人小戶和個人中戶之交易金額佔比最大。另 外,金融時報估個人投資者佔中國股市成交量之 80%至 90%,其中,許多投資. n. al. 者是 25,000. Ch. engchi. i n U. v. 20,000 15,000 10,000 5,000 0 紐約泛歐證交所 納斯達克 OMX 東京證券交易所 上海證券交易所 交易量. 市值. 圖 一: 世界證券交易前五名(wikipedida, 2011) 5. 香港交易所.

(6) 初次投資股票。因中國股市多以個人投資者為主,利多則蜂擁而上,利空 則搶著拋售,股市因此大起大落。 3.股市投資以雜訊交易為主:中國股市之交易價格多數為個人投資者所決 定,而個人投資者多數為雜訊交易者(noise trader),亦即以任何聽到的訊息 作為買賣股票的依據,股市交易人以道聽途說的資訊作為投資的參考,並非是 理性投資人,並造成股市的波動。 以上的這些原因導致了股市價格的波動,而本研究主要探討的原因為第三 點,將要藉由大陸最知名的微網誌新浪微博,來探討在微博上使用者的貼文情. 治 政 大 情感分析是透過自動化分析從文本中找出其隱含情緒的一種方法,隨著巨 立. 緒指標與大陸股市的相關性。. 量資料環境的產生其應用也變得更為廣泛。. ‧ 國. 學. 知名媒體 Thomson Reuters 尋求 Lexalytics 合作開發市場。其中,. ‧. Lexalytics 提供語意平台,Thomson Reuters 則根據金融用戶具體之業務領域. y. Nat. 與應用進行開發,可擷取約 4000 家商業新聞來源,包括電子報、部落格、新聞. er. io. sit. 網站和調研機構網站等,每日新聞索引量達 12 萬篇,並分析出股市與新聞來源 之相關性,根據前述狀況顯示,除了傳統數據型態資料,實有必要於股市趨勢. n. al. 預測進行文本情感分析。. Ch. engchi. i n U. v. 研究調查單位 Wikibon 指出 2013 年全球巨量資料的軟體、硬體服務產值已 達到 186 億美元,研究機構 IDC 也指出,巨量資料技術與服務市場將在 2018 年 成長為 415 億美元,連較趨保守的金融產業不得不因應巨量資料帶來的重大改 變,又由於文本情感分析與巨量資料 5V 的 Variety 有關,所以文本情感分析屬 於巨量資料分析的一部分。. 6.

(7) 治 政 大 現在有許多的方法來預測股票市場的漲跌,從以前的技術分析、價值分 立 圖二 BigData 5V 涵蓋要素. 析,到近年來的程式高頻交易,這些方法最終的目的都是想從中分析出所研究. ‧ 國. 學. 的股票是否該值得投資,目前隨著網際網路的興起,導致了影響股市漲跌的因. ‧. 素更加錯綜複雜,大部分的投資者都是透過股票指數或是該公司所提供之財務. y. Nat. 報表來做預測與分析,然而這樣的分析方式沒有關注到其中最重要的一環,也. er. io. sit. 就是消息面的問題,近年來,隨著知識,技術知識的傳遞以及電腦計算能力增 加,使用電腦來預測分析股市的參考價值已經逐漸受到重視,本研究將透過使. n. al. i n 用者對於股市正負面詞的權重高低來評斷市場狀況。 Ch engchi U. 7. v.

(8) 2、 研究動機 許多研究指出,網路上所產生的訊息會隨著社會網路的催化而快速傳遞, 並且進而造成群眾造成影響,進而造成影響股市的波動。 美國佩斯大學的博士生亞瑟•奧康納(Arthur O’Connor),追踪了標普指 數中的公司在社交媒體上的受歡迎程度,比較它們的股價。他發現 Facebook 上 的粉絲數、Twitter 上的聽眾數和 Youtude 上的觀看人數,都和股價密切相 關。品牌的受歡迎程度,還能預測股價在 10 天、30 天之後的上漲情況。可見 其社群網路及巨量資料,加劇了網路文本資訊對於大眾情緒影響程度。. 政 治 大 Learning) 與監督式學習法(Supervised Learning)兩類。Chaovalit and 立. 過去常用之情緒分類方法,主要可以分成非監督式學習法(Unsupervised. ‧ 國. 學. Zhou(2005)比較這兩類方法,發現其監督式學習法雖具有較高的準確率,但需 花費大量時間對標記完成之語料進行訓練;而非監督式學習法的效能則仰賴其所. ‧. 參照的詞性標記程式(POS tagger)。該實驗結果顯示後者準確率不及監督式學. sit. y. Nat. 習法,卻具有即時性(Real-Time)的優勢。本研究將會針對社群網路的財經文本. al. er. io. 提出一套混合監督事學習與非監督式的情感分一方法,對於大陸股市(上海、深. v. n. 圳、香港指數)與微博上相關的財經貼文進行分析,先透過非監督式的方法進行. Ch. engchi. i n U. 文本標注與情緒傾向標注,而後再用監督事學習方式賴建立分類模型來預測大 陸股價之走勢。 目前常見的研究許多研究中使用 K-means 來進行非監督式學習的主題標 註,但是歷史的研究顯示 K-means 處理大量的文本資料時容易遇到文本數量遠 大於議題詞數量的狀況,造成 TFIDF 矩陣過於稀疏進而影響其分群結果,本研 究將使用 TF-IDF 配合 K-means 以及 LDA 主題模型作為文章主題標註的方法。. 8.

(9) 3、 研究目的 情感分析的最終目的是想要找出人對於某人事或物所發表的評論,所發表 的評論包含的隱含的情感或是態度。在情感分析中,最初被用於預測使用者的 正面或是負面的情感傾向指標,除了正負向的評論判斷外,也將中立評論納入 考量中。目前有廣泛應用於不同的資料來源,例如透過各大財經新聞網站的產 業報導與發人的專業評論作為探討,進而預測台灣電子股價的趨勢(劉羿 廷,2015)以及分析 GooglePlay 的 App 使用評論,並用來幫助 APP 開發者快速找 到產品的優缺點,進而改善 App 的品質(林育龍,2014). 政 治 大 做分類,若是將類別設定為正負向兩類,則可以判斷文章的正反情緒傾向,而 立. 許多情感分析研究中,通常會使用分類分群的技術將不同的評論或是文章. ‧ 國. 學. 將類別設定為不同的主題或是議題類別,可用來判斷文章的主題或是主旨。 過去研究已經指出網路文章對於大眾的情緒會造成影響,而若以投資股市. ‧. 的角度來看,若能運用情感分析於大量的財經文本,進而了解整個環境的趨. sit. y. Nat. 勢,進而對股票市場做出反應,改善投資的效率以及報酬率,本研究將針對以. al. er. io. 下四項進行詳細的分析與探討:. v. n. 1.不同於過去研究只針對研究者所內容網站做蒐集,本研究搜集了微博. Ch. engchi. i n U. 2012 年微博資料,並且透過監督式搜尋的方式將擁有股市相關詞彙之貼文找出 來,且由於微網誌是使用者自建其內容網站,較能分析出其遭受否些時事事件 後之情感分析狀態,且由於微網誌有其字數之限制,人們較容易在較短的文章 中表達內心想法。 2.最主要使用非監督式的方法分析文本,先以非監督事學習進行主題與情 緒傾向標注,解決過去需耗費人力進行類別標注且無法預期文本中存在未知主 題的限制,然後再透過監督事學習方法提高分類的準確度 3.使用非監督式的學習方法建立 LDA 主題模型,並針對其微博財經文本將 其標注不同的主題進而分析其情緒指標。 9.

(10) 4.使用監督式的學習方法:除了將股市議題之文本從該資料集抓取出來之 外,將具有指標性意義的國際指標總體指標 大陸經濟成長指標、個大股市之技 術指標等建立分類模型,並且驗證其效果。. 第二章、. 文獻探討. 1、 情感分析 1.1. 情感分析的定義. 政 治 大. 文本情感分析又稱為意見挖掘(Opinion Mining),是指用自然語言處理、. 立. 文本挖掘以及計算機語言學等方法來識別和提取原始文本中的主觀信息. ‧ 國. 學. (Cambria et al., 2013),在資訊檢索中是相當重要的議題情感分析的目的是 為了找出作者在某些話題上或者針對一個文本兩極的觀點的態度(Pang and. ‧. Lee, 2008; Liu, 2012; Feldman, 2013)。這個態度或許是他或她的個人判斷. y. Nat. sit. 或是評估,也許是他當時的情感狀態,或是作者有意向的情感交流。. n. al. er. io. 常見的情感分析所適用的範圍可分為為句子層次的推論,段落層次和全篇. i n U. v. 文章層次的情緒偵測方法。因為微博的字數限制,本篇研究專注在句子層次的. Ch. engchi. 情緒,其偵測方法,包括評論目標(target)、意見詞(opinion word)等。並且 探討一些使用文件分類相關技術於情緒分析的文獻,彼此最大的差異在於偵測 情感方法上的差異。 情感分析的發展對於商業行銷與科技互動等具有高度的應用價值,包括依 照使用者情緒推薦相符合的文章、音樂等商品。葉庭瑋、王正豪 (2013)研究透 過知名微網誌 Twitter 的英文短句中的情緒詞彙進行推文 (tweet) 情緒分 類,其結果顯示短篇文件所包含的語境和詞彙通常比較不足夠,所以短篇文件 的文件分類效果通常會比長篇的文件分類效果不佳。 有別於傳統文件分類,該 10.

(11) 研究透過分析情緒詞彙與修飾關係進行以句子為基礎的情緒偵測 (sentencebased emotion detection) 問題。 郭俊桔、張育蓉 (2013) 研究透過情緒分析探究社群網路上(如 Plurk)之 使用者對於圖書館的意見屬於正向或負向,並以圖形方式顯示評估結果,可及 時提供圖書館業務調整與改善使用者滿意度 。其研究蒐集網路上圖書館的使用 者意見進行人工標記,建立相關情緒分析辭典後,使用 SVM 等分群工具探討圖 書相關語料分類的效果外,提出導入程度詞、否定詞與情緒詞權重、及情緒極 性與情緒類別等兩種情緒分析方法。研究結果顯示情緒極性與情緒類別得到較. 政 治 大. 佳的圖書館使用者滿意度之評估結果。進一步也證實所有建置之情緒分析辭典 的可靠性。. 情感分析的方法. ‧ 國. 學. 1.2. 立. 現有的文本情感分析方法的大致可以分為成四種,分別為關鍵詞識別、詞. ‧. 彙關聯、統計方法和概念級技術。關鍵詞識別是利用文本中出現的清楚定義的. sit. y. Nat. 影響詞(affect words),例如"開心"、"難過"、"傷心"、"害怕"、等等,來影. al. er. io. 響分類。Zhuang 等人針對電影評論進行情緒的分類。其研究使用 Stanford. v. n. Parser 工具來解析句子結構並找出字與字之間修飾關係,進一步定義意見詞的. Ch. engchi. i n U. 情緒傾向。而在中文工具方面則有中研院的 CKIP 斷詞工具、OpenSource 的 Jieba 斷詞工具進行前處理,Ex:去除高頻詞,去除停止詞,標記磁性等等。做 完上述步驟後將以 NTUSD 詞性字典做分類,例如:[很好]、[完美]是正向辭彙, [差勁]、[低落]是負向辭彙,根據龔建彰的研究發現,建立中性詞集可以讓字 詞判別更加準確,除此之外,根據劉奕廷研究指出,NTUDSD 並無內建財經情緒 詞集,因此要擴充種子詞集,以滿足該詞集沒有財經方面的詞彙,如[上漲]、 [漲幅]等正向以及[下跌]、[跌幅]等負向財經詞彙。 詞彙關聯除了偵查影響詞以外,還附於詞彙一個和某項情緒的「關聯」 值。 游和正、黃挺豪、陳信希其研究透過詞彙關聯並以以不同領域之語料進 11.

(12) 行分析,探討文章領域、詞彙極性、與情緒分類三者之間之關聯,繼而達到分 析不同領域、不同語言文章中詞彙極性之程度,以了解在不同的語料中,詞彙 極性變化的情形。 統計方法透過機器學習中的方法,比如潛在語意分析(latent semantic analysis),SVM(support vector machines)等一些更能量化情緒指標的方法 其目的探測出情感持有者(保持情緒狀態的那個人)和情感目標(讓情感持有 者產生情緒的實體)。要想挖掘在某語境下的意見,或是獲取被給予意見的某項 功能,需要使用到語法之間的關係。語法之間互相的關聯性經常需要通過深度. 治 政 大 快速準確地偵測部落格主觀評論的語句,藉此過濾部落格的廣告、新聞、轉錄 立. 解析文本來獲取,蕭瑞祥、姜青山等人研究透過 SVM 將部落格文章做分類,能. 等文章,位讀者找出具部落格作者主觀評論性質的文章。. ‧ 國. 學. 概念級的算法思路權衡了知識表達(knowledge representation)的元. ‧. 素,比如知識本體 (ontologies)、語意網絡(semantic networks),因此這. y. Nat. 種算法也可以探查到文字間比較微妙的情緒表達。例如,分析一些沒有明確表. er. io. sit. 達相關信息的概念,但是通過他們對於明確概念的不明顯聯繫來獲取所求信 息。李謦哲的研究以 2014 年的選舉為主題並利用 FFCA 模糊概念點陣特性,來. al. n. v i n 尋找相關子議題,並透過情緒分析處理來對主題底下的回應給予極性分類,能 Ch engchi U 快速的尋找選民對政治議題的情緒觀感,並找出不同議題間的關聯性。. 12.

(13) 1.3. 情感分析與股價之相關性研究. 至今許多的研究已指出外部情緒對於股票市場中的雜訊交易會有相當大的 影響。Ahmad, Oliveira, Manomaisupat, Casey & Taskaya(2002)的研究指 出,影響財務市場消息面的常經由新聞、與企業年度報告等形式發佈。研究中 認為不論其資訊來源形式為何,其中新聞消息中所隱藏的情緒指標資訊,對制 定投資策略而言是相當重要的元素,Wuthrich, Cho, Leung, Permunetilleke, Sankaran, Zhang & Lam(1998)選定五個世界主要股市指數作為趨勢預測之標 的,有美國道瓊工業平均指數(Dow Jones Industrial Average)、香港恆生指. 政 治 大 指數(Singapore Strait立 Times Index)、倫敦金融時報指數(Financial. 數(Hang Seng Index)、日本日經指數(Nikkie 225 INDEX)、新加坡海峽時報. ‧ 國. 學. Times 100 Index)等不同區域之國家股市;透過專業財經網站,在股市開盤前 蒐集大量且即時之財經新聞,並以數種文字探勘技術 (k-Nearest Neighbor、. ‧. neural network)作情感分析工具,用以預測香港當日即將開盤的股價趨勢及. sit. y. Nat. 可能的收盤價格(closing price)。預測結果為下列三種,股價為上漲趨勢. al. er. io. (漲幅超過 0.5%)、下跌趨勢(跌幅超過 0.5%)或是持平(介於 0.5%~-. v. n. 0.5),研究結果證實平均準率(average accuracy)比隨機投資策略的效果要. Ch. engchi. i n U. 好(46% > 33%)。該研究透過財經專家學者或投資分析師,訂出約 400 個與股 價漲跌可能的關鍵字組合,作為後續訓練分類器時的詞庫,但當時因技術上的 限制,該研究的缺點在於需要事前人工建立篩選關鍵字。 上述研究皆證明外部情緒指標與股價波動有一定程度的相關,由於交易市 場擁有快速傳遞訊息的機制,可以立即將所發生的資訊吸收消化後反應至股價 上,相較於國外相關文獻與學者的論點,傾向支持美國的股票市場具有弱式效 率性,至於大陸股市,由於強勢政策指導下,以及許多學者研究指出,大陸股 市並非弱式效率性股市,因此本研究假設其外部資訊會嚴重影響股價,可以透 過投資者本身的情感來分析這些資訊,獲取報酬。 13.

(14) 2、 Apache Spark 本研究透過 Spark 大數據分析工具實作了本研究所使用之演算法,2012 年 加州大學柏克萊分校研究團隊提出(Zaharia et al.,2012),以 Spark 實現在分 散式叢集下,具有高容錯的內記憶體運算機制,其稱為彈性分佈式資料集 (Resilient Distributed Datasets ,RDDs),其具有下列兩項特性: . 將資料值存放於記憶體之中,讓需要多次存取資料的運算,如迭代式演算法 (iterative algorithms)或交互式資料挖掘(interactive data mining)上 更加有效率。除此之外,其具備有良好的記憶體管理機制,當記憶體不足時. 政 治 大 以 lineage 紀錄 RDD立 轉換(transformations)或運算(actions)過程。因此當 彈性地將資料釋放並儲存回硬碟之中。. . ‧ 國. 學. 資料遺失時,可透過 lineage 回溯至上一次的階段重新運算。讓恢復過程中 無須重頭開始計算,讓其具有高的資料容錯性。. ‧. RDDs 高容錯性的內記憶體運算機制,解決 MapReduce 在運算過程中資料無法. sit. y. Nat. 重複使用(reuse)與分享(sharing)的問題。由於在現有分散式運算框架下,迭代. al. er. io. 運算都需來回讀取,存於外部儲存裝置上的資料 (如分散式檔案管理系統,. v. n. distributed file system),此過程中資料複製與硬碟 I/O 時間都造成整體運算. Ch. engchi. i n U. 時間提升。在實驗結果中得知以 spark 運行迭代式運算相較於 spark 快上 20 倍 的速度並在交互式的詢問 1TB 資料只產生 5-7 秒鐘時間延遲。 Spark 提供程式開發介面,實現 RDD 內記憶體運算機制,並支援 Python, Scala, Java 等程式語言撰寫開發。透過 API 介面定義驅動程式中多個 RDD 上的 內容,包含記錄多個儲存於 HFDS 的資料區塊位置與紀錄 RDD 運算的流程的 lineage。以驅動程式連結叢集節點上的工作者(worker),讓工作者讀取 RDD 定 義的 HDFS 資料區塊並載入記憶體內,等待到來自於驅動程式的運算指令,流程 如圖三所示。. 14.

(15) 圖 三 spark 運行過程(Zaharia et al.,2012). 在 Spark 上有兩種 RDD 運作模式: . 治 政 大 RDD 之間的轉換(產生 RDD 可以定義來自外部儲存裝置上資料區塊,亦或是 立 轉換(transformations),RDD 本身為一個多重資料區塊集合、唯讀的特性。. 新的 RDD),例如 map、filter、flatMap 等轉換方法。. ‧ 國. 學. . 運算(actions),由於 RDD 轉換為一個惰性(lazy)運作模式,只有當運算方. ‧. 法(如 count、collect、reduce)被驅動時,才執行 RDD 轉換。緊接接著進行. y. Nat. 資料運算,並回傳計算結果或是將資料寫回外部儲存裝置中。. er. io. sit. 在 進 入 運 算 (action) 工 作 前 , RDD 之 間 轉 換 過 程 中 其 存 在 著 依 賴 關 係 (Dependency),分別為兩種依賴關係類別:狹依賴(Narrow Dependency) ,和廣. al. n. v i n 依賴(Wide Dependency) 。如圖十二所示在狹依賴中,父 RDD 只單純提供給單一 Ch engchi U 的子 RDD。而廣依賴中,父 RDD 提供給多的子 RDD。. 圖 四 RDD 間的依賴關係(Zaharia et al.,2012) 15.

(16) 兩種依賴關係對於運算排程上存在著不同的差異,狹依賴可以在各個叢集結 點同時平行化執行轉換父 RDD,而廣依賴則必須等待所有的父 RDD 轉換完畢。除 此之外容錯機制上也有所影響,當子 RDD 遺失時,狹依賴中只需恢復其對應單一 的父 RDD,但在廣依賴中則必須將所有相關的父 RDD 進行恢復動作。 整體的 RDD 運行流程,使用者會透過不同的方式操作 RDD,如果這些操作只 是屬於轉換類型,那 RDD 只是記錄下來父子之間的依賴關係(lineage),當運算 方法被觸發時,排程機制才會檢視 RDD 上的 lineage graph 並建立起一個 DAG 階 段進行運算流程,排程機制會將 narrow 類型的 RDD 盡可能的放在同一個階段處. 政 治 大. 理。因此,RDD 的依賴關係界定讓運算排程上更加有效率(如圖五為例)。. 立. ‧. ‧ 國. 學 er. io. sit. y. Nat. 圖 五 spark 工作排程範例(Zaharia et al.,2012). n. al. 3、 Word2Vec. Ch. engchi. i n U. v. Word2vec 透過詞建立嵌入式模型。透過淺層和雙層神經網路,用來訓練以 重新建構語言學之詞文本,網路以詞表現,並且需猜測相鄰位置的輸入詞,在 word2vec 中 bag-of-words 假設下,詞的順序是不重要的 訓練完成之後,word2vec 模型可用來映射每個詞到一個向量,可用來表示 詞對詞之間的關係。該向量為神經網路之隱藏層 Word2vec 依賴 skip-grams 或 continuous-bag-of-words(CBOW)來建立神 經詞嵌入。 16.

(17) •. skip-grams :透過 n 個詞,word2vec 透過一串詞組預測某一缺漏的詞 w. •. CBOW :透過詞 w,word2vec 來預測一串 n 個詞. 股市新聞:近日 A 股下跌,今日盤中逆勢反彈,個股需注意體質 透過上述驗算法運算結果則為。 skip-grams :對於每一個 word, 使用該 word 周圍的 word 來預測當前 word 生成的概率。如使用新聞、近日、 A 股、今日、盤中、逆勢、反彈、個 股、注意、體質來生成 股市。. 治 政 大 率。如使用新聞、近日、 A 股、今日、盤中、逆勢、反彈、個股、注意、體質 立 CBOW :對於每一個 word,使用該 word 本身來預測生成其他 word 的概. 中的每個 word。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 六 Word2vec 演算法、CBOW 與 Skip-gram. 17.

(18) 4、 主題模型(Sentiment Analysis) 4.1. TF-IDF. 許多研究會利用 TFIDF 結合 K-means 或是 LDA 來進行文本主題的判別,其 先透過計算字詞於各篇文章中的詞頻(Term Frequency, TF)與逆向文件詞頻 (Inverse Document Frequency, IDF),進而相乘得出 TFIDF 值,其公式如下: 𝑇𝐹𝑖,𝑗 =. 𝑁𝑖,𝑗 ∑𝑘 𝑁𝑘,𝑗. 𝐼𝐷𝐹𝑖 = log. |𝐷| 1+|{𝑗:𝑡𝑖 ∈𝑑𝑗 }|. 𝑇𝐹𝑖,𝑗 詞頻為在一文件𝑑𝑗 中,字詞𝑡𝑖 出現的總數𝑁𝑖,𝑗 佔該文件中所有字詞數量. 治 政 大 要性越高,其出現的頻率就會越高,TF 值也會越高。 立. 總和∑𝑘 𝑁𝑘,𝑗 的比重。其意義在衡量一個詞在一個文件中的重要程度,當詞的重. 𝐼𝐷𝐹𝑖 為所有的文件數量|𝐷|除以包含詞𝑡𝑖 的文章數量,將除數部分加 1 以避. ‧ 國. 學. 免該詞不包含在所有文件中導致除數為零之情況。IDF 用於衡量一個字詞於所. ‧. 有文件中的普遍重要性,當該字詞出現於越多的文章中,代表該字詞越普通,. io. er. 𝑇𝐹𝐼𝐷𝐹𝑖,𝑗 = 𝑇𝐹𝑖,𝑗 × 𝐼𝐷𝐹𝑖. sit. y. Nat. IDF 值就會越低。. 結合 TF 和 IDF 並使用 TF-IDF 來衡量一個詞對於某篇文章的重要性時,若. al. n. v i n 該字詞在某篇文章中的出現次數很高,而在其他文章出現次數很低,即可得到 Ch engchi U. 一個高權重的 TF-IDF 值,而 TF-IDF 值越高,則可代表該字詞對於特定文章的 重要性越高。再以字詞於各篇文章中的 TFIDF 值組成向量來代表該字詞,建立 向量空間模型。. 圖 七: TF-IDF(brandonrose.org, 2014) 18.

(19) 4.1. K-means. K-Means 分群是一種群聚分析的方法,目的是把數量為 n 個的文章集合, 根據其屬性分為 k 個分類。假設有一組觀測 (x1, x2, …, xn),且其中的每 一個觀測值都持有 D 維度向量,K-Means 分群的目標是將 n 個觀測值分割成 k 個集合(k ≤ n) S = {S1, S2, …, Sk},以盡量少與群中心的差異平方和, 其公式如下:. 政 治 大 透過 TF-IDF 將文章轉換成文字矩陣之後,透過 K-means 分群演算法來對向 立. ‧ 國. 學. 量進行分群,找出相似的體詞,分類示意圖如圖八所示,建立主題模型(林育 龍, 2014),但其研究發現 K-means 的分群結果會造成某一群過於群聚,並不適. ‧. 合用於情緒分析時之分類。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 八:K-means, k=3(mathworks, 2015). 4.2. Latent Dirichlet allocation(隱含狄利克雷分布). LDA 是一種由文章,主題和詞所構成的主題模型,它可以將文檔集中每篇文 檔的主題按照機率分布的形式給出。主題模型目的在一系列文章中找到一種結 構。學習到這種”結構”之後,一個主題模型能回答以下這樣的問題:X 文章 討論的是什麼? X 文章和 Y 文章有多相似?如果我對 Z 文章感興趣,我應該先 19.

(20) 讀哪些文章?同時它是一種無監督學習算法,在訓練時不需要手工標註的訓練 集,需要的僅僅是文檔集以及指定主題的數量 k 即可。此外 LDA 的另一個優點 則是,對於每一個主題均可找出一些詞語來描述它。如下圖 XXX 所示,一個主 題當中包括了許多詞彙,同時一個文件是由主題分布所組合,以下範例中分別 以不同顏色來做區別。. 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n Ch 圖 九: 文章由各主題依不同機率分布組合示意圖(Blei&Ng&Jordan,, 2003) engchi U 依圖九所示,整個文檔集有 K 個主題,每個主題是固定詞彙表上的一個多 項式分佈。這些主題被集合中的所有文檔所共享,但每個文檔有一個特定的主 題分佈。每個文檔的主題分布 θm 從 Dirichlet 分佈中抽樣產生,每個主題的 詞分佈 φk 也從 Dirichlet 分佈中抽樣產生,這兩個 Dirichlet 分佈相互獨 立,參數分別是 α 和 β。 (Dirichlet 分佈可以理解為一個分佈的分佈,從 Dirichlet 分佈中抽個樣取出的是一個分佈). 20.

(21) 立. 政 治 大. ‧ 國. 學 圖 十: LDA 機率分布組合示意圖. ‧. 整個文檔集的生成過程如下圖所示:. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 十一: 文章由各主題依不同機率分布組合示意圖(Blei&Ng&Jordan,, 2003). 1、首先從以 β 為參數的 Dirichlet 分佈中,抽樣產生整個文檔集的 K 個 詞分佈,標記為 φ1 至 φk,即上圖左側的 K 個主題;. 21.

(22) 2、對於每一篇文檔: 2.1、從以 α 為參數的 Dirichlet 分佈中,抽樣產生一個主題分佈 θm, 即這篇文檔中各個主題的比重,圖中為右側的直方圖; 2.2、對於文章 m 中的每一個詞: 2.2.1、以概率分佈 θm,選擇 K 個主題中的一個主題,例如為 φi; 2.2.2、以概率分佈 φi,從該主題中選擇一個詞。. 在使用 LDA 時,須設定上述的 α、 β 以及其主題數量,其中 α、 β 的. 治 政 大 糙的主題,較大的 β 值容易造成較粗糙的文本主題分布,所以使用較小的 立. 大小對於文本的分布以及主題會有相當大的影響,較大的 β 值容易造成較粗. α 、β 來提高較特殊主題與被發掘的機率。在主題選擇可以透過建立完成的. ‧ 國. 學. 主題模型計算其 Perplexity,較小的 Perplexity 能建立出來的主題模型最能. ‧. 代表文件的內容。而選擇主題數量較多時,其 Perplexity 值較小,但較不易讓. y. Nat. 人理解。透過調整 α 、β 值來觀察設定,調整至最合理的數目。. er. io. sit. 主題數量的選擇需透過 Perplexity 計算來選擇,需耗費較長的時間來進行 測試,同時不能保證主題中所包含的字會被良好的解釋,仍需要透過專家的評. n. al. 估才能決定適合的數量。. Ch. engchi. i n U. v. 過去的研究指出 LDA 對於未知主題文本資料都有良好的效果。隨著社群網 路的影響,許多研究指出網路文本對於大眾情緒會造成影響,對於投資往往都 會參考網路文本的參考價值,利用 LDA 可以將這些網路文本做分類,進而找到 股市與輿情的相關性(劉羿廷)。 由上述得知之結論,我們可以得到主題分布有以上用途。 22.

(23) 分類: 主題是聚類中心,文章和多個類簇(主題)關聯。分類對於整理和總結 文章集合很有幫助。 生成特徵:LDA 可以生成特徵供其他機器學習算法使用。LDA 為每一篇文章推斷 一個主題分佈;K 個主題即是 K 個數值特徵。這些特徵可以被用在像邏輯回歸 或者決策樹這樣的算法中用於預測中。 降低文章複雜度:每篇文章在主題分佈提供了一個文章簡潔總結。在這個降低 文章複雜度的特徵空間中進行文章比較,比在原始的詞彙的特徵空間中更有意 義。. 政 治 大 5、 文字分類(Text Classification) 立. ‧ 國. 學. 文字分類的目的在於將事先定義好的類別指派給文件或是檔案,於實際上 應用的例子就是將新進的郵件自動的根據其內容,將郵件分成不同的類別,並. ‧. 且可過濾垃圾郵件(賴谷鑫、周照偉、陳嘉玫)。. sit. y. Nat. 為了要透過測試資料驗證結果並以不同指標衡量其成效,對於一群資料而. al. er. io. 言,會希望依據資料的一些特性來將這群資料分為兩群。而就資料分群而言,. v. n. 已知有一些效果不錯的方法。常見的演算法有:簡單貝氏分類器(Naïve. Ch. engchi. i n U. Bayes)、kNN、SVM,Nearest Neighbor、類神經網路(Neural Networks)、決策 樹(Decision Tree)等,如果在正確的使用的前提之下,這些方式的準確率相去 不遠,因此,本研究將使用 SVM 作為分類的方法. 23.

(24) 5.1. 支援向量機(Support Vector Machine, SVM). 支援向量機(SVM)是一種監督式學習演算法。由 Vapnik 在 1995 年提出,其 架構乃根據統計學中結構風險最小化(Vapnik, 1999),其目的在於避免過度訓 練資料而導致研究結果正確率下降。主要方法是將分布在特定空間中的資料, 可能為二維、三維甚至是多維的座標中,找出一個超平面(Hyperplane)將資料 分類。超平面的意義即為高維度中的平面,為一個多項式或是三角函數所組 成。圖五為支援向量機之示意圖: H: 超平面 H1, H2: 距離H最近的平面. Positive Example H1 H. 政 治 大. 立. H2. ‧. ‧ 國. 學 H1. io. y. 圖 十二:支援向量機示意圖. n. al. sit. Nat. H2. er. Negative Example. H. i n U. v. SVM 可針對線性可分問題進行分析,亦可針對線性不可分問題分析,對於. Ch. engchi. 線性不可分主要透過非線性映射演算法,將低維度輸入向量空間不可分樣本轉 化為高維度特徵空間使其成為線性可分,從而得到高維度特徵空間。再採用線 性演算法對樣本的非線性特徵進行線性分析,下列式子表示超平面的輸出函 數: 𝑁. f(x) = 𝑏0 + ∑ 𝑏𝑗 𝑡𝑑𝑗 𝑗=2. 其中bj 為超平面與不同類別最大的邊際距離(Margin),透過計算不同類別 的最大邊際距離即可找出一個超平面來達到最佳的分類效果。 24.

(25) SVM 被證明適用於文字分類的問題,因為文字分類問題的特性上具有三個 特性,包含(1)高維度的特徵空間、(2)稀少不相關的特徵與(3)每個向量的稀疏 性。而 SVM 針對這三個特性可以有效的處理,甚至因為 SVM 適用於高維度的向 量空間,因而可省去特徵詞選取的階段,且和其他分類演算法相比,SVM 平均 可以達到較佳的文字分類正確率(Joachims, 1998)。 (Drucker et al., 1999) 在電子郵件的垃圾信件偵測問題上, SVM 與決 策樹在較低維度 (1000 個特徵)與高維度(超過 7000 個維徵) 兩種資料的向量 表達方式皆有不錯的表現,但是 SVM 的訓練時間明顯的比較少。( Chih-Wei. 治 政 大 (Farhoodi and Yari, 2010)在波斯語文字分類的問題上比較了五種 SVM 的 立. Hsu,2010) 詳述說明了針對使用 SVM 來完成文字分類研究的每一個詳細流程。. Kernel Function,分別為 Linear、Polynomial、RBF、Quadratic 和 Mlp。其. ‧ 國. 學. 中 Polynomial 的 Precision 和 F-measure 為五者最高。(Solimanet al.,. ‧. 2012) 分析手機品牌 Nokia 的線上顧客的評論,並根據研究中所定義的產品特. y. Nat. 性(電池、銀幕、相機、價格、Wifi),使用 SVM 進行線上顧客評論分類。. er. io. sit. (Hao et al., 2009) 結合 Naïve Bayes 和 SVM 提出了一個基於 Naïve Bayes 的 SVM 分類方法,在整體分類的 F Measure 指標中,比起傳統的 SVM 提. al. n. v i n 高約 3%,且速類的速度更快。因為傳統的 SVM 方法只能用在二元的分類問題, Ch engchi U 因為也有不同的研究目的在於將 SVM 用於多類別分類的問題,並作持續改善 (Sun etal., 2011)。. 25.

(26) 第三章、. 研究方法. 下圖是本研究流程圖,主要分為資料選取與資料擷取、文本前處理、文本 主題標註、情緒傾向標注、視覺化分析、建立與驗證模型等六大步驟,根據創 市際市場研究顧問公司在 2015 年 7 月的網月的網路報告如圖所示,台灣目前最 多使用者造訪的微網誌為 Google Plus、新浪微博以及 Plurk,本研究因將要探 討大陸股市與外部消息面之相關性,所以使用了微博的貼文作為本研究之資料 集。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 十三: 研究流程圖. 26. v.

(27) 本研究資料來源來自於香港大學新聞與傳媒研究中心所提供的 2012 年大陸 微博資料集,透過 word2vec 擷取該資料集中以股市關鍵字搜尋股市相關文章。 之後再使用 Jieba 斷詞工具完成文字斷詞,經由詞性標注、詞性過濾和去除高 頻詞等文章前處理過程,並針對微博財經評論分以下階段的情感分析,透過非 監式學習的方法 K-means 以及 LDA 主題模型,對微博情感文本進行主題標註, 再使用監督式學習方法建立分類模型,其中利用情感傾向與議題類別標記結 果,之後使用監督式學習的演算法 SVM 建立分類模型,判斷當文章出現時,其 股市上漲或下跌的可能性為何,最後透過視覺化方法進行整合性情感分析結果 報告。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 27. Ch. engchi. i n U. v.

(28) 1、 資料蒐集(Data Collection) 本研究資料來源來自於香港大學新聞與傳媒研究中心所提供的 2012 年大陸 微博資料集,並使用股市關鍵字做搜尋,將下述的微博文章抓取下來,總共約 25000 篇,共 52 周,每周約 500 則的股市微博貼文。 財經評論的格式包括發佈文章 ID,轉貼文章ID,發布者,轉發文章I D,發布日期,發布內容等等,本研究主要利用發布內容進行情感分析之研 究。. 立. 政 治 大. ‧ 國. 學 ‧. 圖 十四: 微博的貼文評論. n. er. io. sit. y. Nat. al. 28. Ch. engchi. i n U. v.

(29) 2、 文本前處理(Document Preprocessing) 在要標注主題之前,我們須將每個文本的做前處理,將文本資料轉變成文 字矩陣等量化資料,以供後續的研究分析使用。. 2.1. 中文斷詞(Segmentation/Tokenization). 在研究情感分析 情緒指標等相關研究時通常會透過中研院的 CKIP 斷詞系 統或是 OpenSource 的 jieba 斷詞工具,CKIP 雖包含了科學、社會、生活、文 學等詞彙,但沒有財經方面的詞彙,且難以擴充,故本研究透過 Jibea 斷詞工 具進行文章斷詞。將蒐集到的文章資料,透過 Jieba 斷詞工具做處理。 Jieba 中文斷詞前. 立. 學. ‧ 國. A 股今日不被看好. 政 治 大. Jieba 中文斷詞後 A 股\今日\不\被\看好. 詞性標注(Part-of-Speech Tagging). Nat. sit. y. ‧. 2.2. io. er. 文章在經過 Jieba 斷詞工具斷詞後。會參照 Jieba 的字詞詞性表,透過 Jieba 斷詞後,同時會標註每個字詞的詞性,其詞性表示採用 Jieba 所訂之詞. n. al. 性表。 詞性標注前. Ch. engchi. A 股\今日\不\被\看好. 詞性標註後 A 股(N)\今日(N)\不(ADV)\被不(ADV)\看好(V). 29. i n U. v.

(30) 2.3. 否定詞處理(Negation Process). 否定詞會造成文章文意相反,而以中文來說,中文的否定詞一般出現在述 詞前後 否定詞處理前 A 股(N)\今日(N)\不(ADV)\被不(ADV)\看好(V). 否定詞處理後 A 股(N)\今日(N)\不(ADV)\被不(ADV)\看好_NOT (V). 在判斷述詞是否被否定詞修飾時,採用區間判斷的方式處理。因為在中文. 政 治 大. 上否定詞一般可置於述詞(意見詞)前或是後。例如:股市一直不能止跌,其中. 立. 「不能」放置於述詞「止跌」前面作修飾;另外否定詞放置於後方修飾例. ‧ 國. 學. 如::股市一直不能止跌,其中「不能」放置於述詞「止跌」後面作修飾。 本研究中採用區間為 4 的範圍來搜尋在述詞附近可能存在的否定詞(李啟. ‧. 菁、王正豪,2010),即為搜尋述詞前 2 個位置與後 2 個位置是否有存在否定. Nat. sit. 述詞. n. er. io. al. 1. 2. Ch 3. engchi 4. y. 詞,若存在則將該述詞作否定詞處理(如圖八)。. 5. i n U. v. 6. 圖 十五: 區間為 4 的搜尋否定詞示意圖. 30. 7.

(31) 2.4. 詞性過濾(POS Filtering). 為了使情感分析與主題標註更精確,本研究最後只保留具體的名詞以及述 詞。移除其他的多於詞性,根據劉吉軒、吳建良的研究指出,該方法能提高研 究結果的準確率。除了使用 Jieba 內建的停止詞詞庫外,並下載了網路上公開 的停用詞詞庫,另外再加上自建的停止詞詞庫。 去除完多餘的詞性後,進一步透過詳細詞性(Detail Part-of-Speech)過 濾,透過 Jieba 斷詞可顯示詞性於結果上,其中針對最能表達評論內容的體詞 (名詞)和述詞(動詞)作保留,並移除其他多餘的詞性。然而,在體詞中,仍包. 政 治 大 名詞(季節、時間、朝代等)等的名詞(參考附表二)。因此針對 Jieaba 的體詞分 立 含了許多和研究領域不相關的詞,例如:專有名詞(人名、歷史事件等)、時間. ‧ 國. 學. 類表,本研究進一步的利用詳細詞性僅保留能反映正負向的情感的狀態類動詞 (VH 到 VL)作後續分析。. ‧. 詞性過濾前. n. al. A 股(N)\看好_NOT (V). 2.5. y. er. io. 詞性過濾後. sit. Nat. A 股(N)\今日(N)\不(ADV)\被不(ADV)\看好_NOT (V). Ch. 字詞頻率計算. engchi. i n U. v. 為完成文件的量化與分析不同字詞的重要性,會透過計算不同的字詞頻率 如:文件頻率、字詞頻率和逆向文件頻率來提供各個階段情感分析所需要的量 化資訊,並提供機器學習中,分群或分類任務所需要的文件特徵。. 31.

(32) 3、 Word2vec 透過篩選詞性後,就可以透過 Spark Word2vec 為用來產生詞嵌入的模 型。透過淺層和雙層神經網路,用來訓練以重新建構語言學之詞文本,網路以 詞表現,並且需猜測相鄰位置的輸入詞,在 word2vec 中 bag-of-words 假設 下,詞的順序是不重要的,因此我們將上述整理好的字詞陣列數入至該演算法 之中。. 產生語料庫. 熱門議題 詞本. 立. Word2vec. 搜尋”股市”文章. 政 治 模型大 圖 十六: 建立 Word2Vec. ‧ 國. 學 ‧. 4、 文本主題標註(Sentiment Orientation). sit. y. Nat. 本研究在此階段,會以上一階段所標註的詞性篩選出體詞並加入候選詞集. al. er. io. 中,再透過文件篩選出熱門議題詞,再透過 LDA 分群方法歸納出主題,根據林. v. n. 育龍其研究使用 LDA、NPNI-Concor 以及 K-means 分類模型比較的結果,發現. Ch. engchi. i n U. LDA 以及 NPNI-Concor 分類效果最好,而 K-means 分類效果最差,但是 NPNIConcor 為套裝軟體,無法像 LDA 調整自由修改程式碼以及調整參數,遂比較 Kmeans 以及 LDA 作為本研究之文本標註工具。. 4.1. 找出文本熱門議題詞. 因為在評論中只有體詞具有主題性,故本階段前已篩選過本章之體詞,該 階段將這些體詞加入候選詞集,以便進一步篩選。 當文本只留下其體詞時,其越重要的議題其體詞出現的次數會越來越高, 故本研究根據此特性,透過文件頻率塞選出被提及頻率最高的熱門議題詞,再 32.

(33) 使用這些熱門議題詞來建立主題模型,而根據過去研究指出移除文件頻率低於 20 (意及低於百分比 20%以下)的字詞能有較好的分類效果(林育龍,2014),故 本研究將文件頻率門檻設為 20,其篩選熱門以詞的過程如下圖所示。 微博 財經文本. 政 治 大. 圖 十七: 文本議題詞篩選. 立. ‧. ‧ 國. 學. 4.2. 建立向量空間模型(Vector Space Model). y. Nat. sit. 為建立財經詞典以及使用 LDA 作為分類的依據,向量空間模型作為輸入資. n. al. er. io. 料格式以完成監督式學習的分類任務,本研究會使用在文章前處理後所完成的 各文章字詞計算值來建立向量空間模型。. Ch. engchi. i n U. v. 向量空間模型為一個應用於資訊過濾以及評估相關性的代數模型。將文本 文件視為由一組詞條(Term) 所構成,對於每一個字詞,根據其在文件中的重要 程度賦予一權值,我們可將其視為一個 N 維坐標系,以權值為對應的坐標,可 以將文章表現成多維空間中的一點,即為文件向量化。 以圖十一為例,其中以文章為主體,且每篇文章是由一組特徵詞所構成, 並採用 TF-IDF 作為每個字詞在每篇文章中的重要程度的權值,又可稱為文章- 字詞矩陣(Document-Term Matrix)。. 33.

(34) Term1. ... ... .... Document1. TF-IDF. ... ... ... TF-IDF. . .. TF-IDF. ... ... ... TF-IDF. . .. TF-IDF. ... ... ... TF-IDF. . .. TF-IDF. ... ... ... TF-IDF. Documentn. TF-IDF. ... ... ... TF-IDF. Termn. 圖 十八: 應用於監督式學習分類任務之向量空間模型. 在向量空間模式中,為表示詞彙對於文章的特徵與重要程度,會透過計算. 政 治 大. 字彙權重的方式來達成,本研究使用 Term Frequency(TF)和 Inverse Document. 立. 𝑇𝐹𝑖,𝑗 =. 𝑁𝑖,𝑗 ∑𝑘 𝑁𝑘,𝑗. 學. ‧ 國. Frequency(IDF)來計算字彙的權重,其公式如下:. ‧. 𝑇𝐹𝑖,𝑗 指在文章𝑑𝑗 中𝑡𝑖 的詞頻,在以上式子為在一文件𝑑𝑗 中,詞𝑡𝑖 出現的總數. y. Nat. 𝑁𝑖,𝑗 佔該本件中所有詞數量加總∑𝑘 𝑁𝑘,𝑗 的比重。其意義在衡量一個詞在一個文件. n. Ch. |𝐷|. i n U. 1 + |{𝑗: 𝑡𝑖 ∈ 𝑑𝑗 }|. engchi. er. io. al. 𝐼𝐷𝐹𝑖 = log. sit. 中的重要程度,當詞的重要性越高,其出現的頻率就會越高,TF 值也會越高。. v. 𝐼𝐷𝐹𝑖 的衡量方法為所有的文件數量|𝐷|除上包含詞𝑡𝑖 的文章數量,其中若該 詞不包含在所有文件中會導致除數為零,故加上 1 來避免。IDF 的意義在於衡 量一個詞於所有文件中的普遍重要性,當該詞在越多的文章中出現,代表該詞 越普通,IDF 值就會越低。. 𝑇𝐹𝐼𝐷𝐹𝑖,𝑗 = 𝑇𝐹𝑖,𝑗 × 𝐼𝐷𝐹𝑖 結合 TF 和 IDF 並使用 TF-IDF 來衡量一個詞對於某篇文章的重要性時,若 該字詞在某篇文章中的出現次數很高,而在其他文章出現次數很低,即可得到 一個高權重的 TF-IDF 值,而 TF-IDF 值越高,則可代表該字詞對於特定文章的 34.

(35) 重要性越高。. 4.3. 透過 K-means 建立主題模型. 建立 TF-IDF 後,即可透過 K-means 分群方法歸納出主題並建立主題模型, 本研究使用的是 Python gensim 之 K-means 作為主要分析工具。其最主要的使 用方式是先將熱門議題詞轉換成語料庫,語料庫即為向量空間模型將文本以數 字矩陣的方式呈現,K-means 在做設定時只需設定需要分群的數量,本研究將 以 k=4 與 LDA 分群結果做比較。. 熱門議題. 立. 詞本. Kmeans 主題模型. ‧ 國. 學. 圖 十九: 建立 K-means 主題模型. ‧. 透過 LDA 建立主題模型. sit. y. Nat. 4.4. 政 治 TF-IDF 大. 產生語料庫. n. al. er. io. 建立 TF-IDF 後,即可透過 LDA 分群方法歸納出主題並建立主題模型,本研. i n U. v. 究使用的是 Python gensim 之 LDA 作為主要分析工具。其最主要的使用方式是. Ch. engchi. 先將熱門議題詞轉換成語料庫,語料庫即為向量空間模型將文本以數字矩陣的 方式呈現,最後在設定分割之主題數以及 hyper-meter alpha 和 beta,默認 alpha 是 1.0/len(corpus)而 Beta 是 0.1。此外還可設定迭代次數,目前設定 的迭代次數為 8000。 。, 熱門議題. 產生語料庫. TF-IDF. 圖 二十: 建立 LDA 主題模型 35. LDA 主題模型.

(36) 4.5. 判斷文本主題. 根據 LDA 以及 K-means 主題模型分類後,將每篇文本出現的議題詞給予一 個主題,例如:【港股表現欠佳,中港股票基金回報也見紅】,該文本體詞[港 股]、[股票]、[基金]均為股票主題之議題詞,故將該篇文標示為香港股票主 題。. 判斷主題. 政 治 大. 微博財經文本. 立EX: [股票]、[公司]. 公司表現主題. ‧ 國. 學. 公司表現主題: 股票、公司. LDA 主題模型. er. io. sit. y. ‧. Nat 5、 情緒指標標註a. 圖 二十一: 文本主題判斷. n. iv l C n h e之詞集之不足,會先建立種子詞及並且擴 在此階段,為了要彌補 NTUSD ngchi U. 充,再把文本前處理階段篩選出來的述詞與情感詞即進行比對,之後透過該詞 典找除每個字詞的詞性,並給予情緒分數,最後在將文章中的每個字詞加總 後,再依每天收集之文章章數取平均,得到每天的情緒指標。. 36.

(37) 5.1. 建立財經種子詞集. 本研究利用台灣大學語言所開發的 NTUSD 作為種子詞集,NTUSD 內含 2810 個正極字詞、8276 個負極字詞,共 11086 個字詞 但根據過去研究(劉奕廷,2015)發現,NTUSD 的詞典中相當缺乏財經領域之 字詞,例如: 「看多」、「看空」、「壓盤」等,且許多在其他領域中不具有情感 極性存在之字詞,但財經領域中卻存在著正負極性,例如: 「震盪」,故將 2012 年 1 月 1 日至 2012 年 6 月 30 日之財經文本進行人工篩選並選取出財經擴 充詞集,建立含有財經領域字詞之情感詞集,詳細步驟如下. 政 治 大 指數相對比較之結果,並從正向文章中找出高頻率述詞的字詞,經過人工篩選 立 依據上海指數將文章分為正向負向兩類,分類方式是以每一天與前一天脂. ‧ 國. 學. 找出正極字詞,並依相同的方法並從負向文章中找出高頻率述詞的字詞,經過 人工篩選找出負極字詞。此外,還參照了游正和等人的研究利用已知類別之文. ‧. 本訊息擴充專有字詞的方法,將所分析出來的正負極字詞對種子詞集進行擴. n. al. er. io. sit. y. Nat. 充。. 37. Ch. engchi. i n U. v.

(38) 5.2. 情緒指數計算. 在建立完計算評論分數所需要的情感詞集後,即開始加總每篇評論中的述 詞(Vt 和 Vi)的情感分數,若有出現於情感詞集則加總該情感詞的分數,以下為 計算情感分數的計算方法。 𝑆𝑒𝑛𝑡𝑚𝑒𝑛𝑡 𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛 𝑆𝑐𝑜𝑟𝑒 𝑜𝑓 𝐷𝑜𝑐𝑢𝑚𝑒𝑛𝑡 𝑖 ∶ 𝑆𝑂 𝑆𝑐𝑜𝑟𝑒(𝑑𝑖 ) 對於每一篇評論𝑑𝑖 , 會基於所計算出來的情感傾向分數𝑆𝑂 𝑆𝑐𝑜𝑟𝑒(𝑑𝑖 ),給 與一個情感傾向(正面、負面或中立)。其中透過文章中每一個字詞的情感傾向 𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛(𝑤)分數和該詞是否有經負向詞處理𝑁𝑒𝑔𝑎𝑡𝑖𝑜𝑛來判斷,若評論中該. 政 治 大. 詞被標注經負向詞修飾,則乘上負向詞的權重。. 立. 𝑤∈𝑑𝑖. 1 𝑖𝑓 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛(𝑤) = { −1 𝑖𝑓 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒. ‧. ‧ 國. 學. 𝑆𝑂 𝑆𝑐𝑜𝑟𝑒(𝑑𝑖 ) = ∑ 𝑁𝑒𝑔𝑎𝑡𝑖𝑜𝑛 × 𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛(𝑤). y. sit. n. al. er. 情緒傾向標註. io. 5.3. Nat. 1 𝑖𝑓 𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛 𝑛𝑜𝑡 𝑒𝑥𝑖𝑠𝑡 𝑁𝑒𝑔𝑎𝑡𝑖𝑜𝑛 = { −1 𝑖𝑓 𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛 𝑖𝑠 𝑒𝑥𝑖𝑠𝑡. i n U. v. 每篇評論經過情感分數計算結果後,若情感分數大於 0 則標注為正面,小. Ch. engchi. 於 0 則標注為負面,等於 0 則標注為中立(即無法判斷)。無法判斷的評論將直 接丟棄不在後續的階段使用。 > 0 → 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛 𝑆𝑂 𝑆𝑐𝑜𝑟𝑒(𝑑𝑖 ) {= 0 → Neutral < 0 → Negative Orientation. 38.

(39) 6、 分類模型建立與分類成效衡量(Classification) 6.1. 監督式學習的分類演算法. 在建立分類模型階段,會使用已標注好情感類別與微博文章類別。在之前 的研究發現,雖然各個分類方式準確率如使用方法正確,其誤差值為低,但 SVM 所花費之時間以及以難易度來看,SVM 平均的分類效果比起其他的分類方法 較佳,因此本研究使用 SVM 來完成分類工作。 在使用監督式學習演算法 SVM 來建立資料的分類模型中,SVM 的特性在於 其會在特定的空間中,找出一個超平面將不同類別的資料集合分開,並且維持. 政 治 大. 最大的邊際距離以達到最佳的分類效果。本研究使用 Spark 的 mllib. 立. library,裡面內建了 SVM 之演算法,再透過 jieba 斷詞工具以及 TFIDF 字詞矩. ‧ 國. 學. 陣,即可完成 SVM 模型。. 分類的效果衡量. ‧. 6.2. y. Nat. 在分類效果衡量上,本研究使用 Precision、Recall 和 F measure,並使. er. io. sit. 用十折交叉驗證(10 Fold Cross Validation)來評估分類的效能。Precision、 Recall 和 F measure 常在資訊檢索(Information Retrieval)和資料探勘(Data. al. n. v i n Mining)這兩個領域中來評估效能,其中 Precision 為分類的精確率,即被分類 Ch engchi U 為正面情感,而實際類別是正面情感的百分比。Recall 為分類的判全率,即實 際類別為正面情感,而被正確分類為正面的百分比。F measure 則為整合性的 評估 Precision 和 Recall 的效能,以下表一為例說明各項指標的計算方法: 表一:分類效果衡量. 電腦分類 上漲. 下跌. 實際 上漲. True Rising(TR). False Falling(FF). 下跌. False Rising (FR). True Falling (TF). 類別. 39.

(40) TR (True Rising):實際值是「上漲」,而分類結果是「上漲」 TF (True Falling):實際值是「下跌」,而分類結果是「下跌」 FR (False Rising):實際值是「下跌」,而分類結果是「上漲」 FF (False Falling):實際值是「上漲」,而分類結果是「負面」 Precision、Recall 和 F measure 計算公式如下:. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =. 𝑇𝑅 𝑇𝑅 + 𝐹𝑅. 𝑇𝑅 治 政 𝑇𝑅 + 𝐹𝐹 大 (𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙). 𝑅𝑒𝑐𝑎𝑙𝑙 =. 立 𝐹 =2× 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 40. Ch. engchi. i n U. v.

(41) 7、 視覺化分析 在將微博文章標記情感類別和並且驗證分類模型之後,即可建立不同文章 對應到不同情感傾向之議題屬性列聯表。透過對應分析可以將列聯表的行列資 料結構與關係,用二維的圖形化方式呈現,並進一步分析主體(文章)和各個分 析屬性(不同情感傾向之議題)的關係。因此使用對應分析可達到對文章之情感 分析的整理報告。 圖二十二為對應分析結果標注主題與計算完情緒指數之後,即可產生情緒 指數對應不同主題的列聯表,透過 PowerBI 工具將表格數據以圓餅圖、折線圖. 政 治 大. 等圖型化的方式呈現,產生財經文本之情感分析的綜合視覺化彙整報告,利於. 立. 投資者作投資決策之參考. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖二十二:情緒指數與上海指數比較圖. 41.

(42) 第四章、. 研究結果. 在本章節中,將說明透過深度學習搜尋股市相關之文章以及非監督式學習 方法文本類別,並計算不同分類之情感分數,並利用對應分析等視覺化方法呈 每個指標性的結果,與透過監督式學習所完成的分類模型準確率。第一節將透 過 Spark 中 word2vec 搜尋大陸微博資料集所擷取實驗資料;第二節透過 Spark 的 LDA 以及 K-means 來做文章的主題分類評論類別的標注實驗結果;第三節將 呈現視覺化分析的結果;第四節描述建立分類模型以及驗證其準確性。. 1、 實驗資料擷取結果. 治 政 大 本研究使用香港大學新聞與傳媒研究中心的大陸新浪微博(MicroBlog) 立. 2012 年的資料集,本資料集是在 2012 年 1 月到 12 月所收集到的 52 份檔案,. ‧ 國. 學. 每一個檔案解壓縮後約 1GB,一共約為 50GB。資料統計如下所示. ‧. 資料統計. io. er. • Number of deleted messages: 10865955. sit. y. Nat. • Number of weibo messages: 226841122. • Number of censored ('Permission Denied') messages: 86083. al. n. v i n • Number of unique C hweibo users: 14387628 engchi U. 以下是本研究最主要所使用之資料集欄位名稱所示,如下表所示: 表二:實驗資料欄位名稱. mid. uid. text. created_a t. mZwlOvQR2t. uJWAISYYT. 不管是几天还是几个月涨到 10%就卖出,让将本利存入银行. 2012-01-. 买银行短期理财产品,年化收益能达到 12%,第二年将当年. 03. 的 10000 和上年的 11200 一起又在新年投资进去,依次类. 12:19:02. 推,等孩子大学毕业就有 100 万,本金一年一万,共投入 22 万,这就是复利的厉害。 那大家要问能不能实现,我告 诉大家从 1991 年(第二页). 42.

(43) mxMvqR6fwh. uEMB1H05F. 2012/1/3. 欧股新年首日高收 1%. 1:10 m9IpofHNtO. uRUKGQ3X. 买股票之前要先问自己”它有没有可能跌一半?”,这句我. 2012/1/2. 最同意。去年年初时,好多人乐观到完全不考虑这样的可能. 20:51. 性,现在应该也学到了教训吧。我认为接下去要问的是”假 如是好公司,我能否承受这样的跌幅?”,”跌的多时,我 还会不会有子弹去加仓?在什么位置加?”,祝大家今年有 斩获!. mvI9l6FI8G. uKB5URRJB. 吾股丰登 1 号共募了 4500 万,11 日 //@ukn: 好歌配好图. 2012/1/6. ~行情快点好起来吧~股民伤不起收视率也伤不起~. 13:11. 其餘的欄位請見附件 。. 立. 政 治 大. 篩選文本中熱門議題詞. 學. 1.. ‧ 國. 2、 文本類別標注結果. ‧. 該微博資料集含有許多字詞,但只有體詞具有隱含文本主題之特性,故透. sit. y. Nat. 過 Jieba 的詞性標注篩選出體詞,並放置候選議題詞集中。而那些被關注程度. io. er. 越高的議題字詞其在所有文本中被提及的次數也會越高,因此,本研究參照過 去研究方法移除低於文件頻率(Document Frequency, DF) 20 的候選議題字. al. n. v i n Ch 詞,從 2370 個候選議題詞中選出個重要的熱門議題詞,再透過判斷每天股市的 engchi U 上漲或下跌,即可得知當股市上漲或下跌時,出現的重要議題詞回何者。 (1)建立情感詞集 透過過去研究指出,過去學者常用的 NTUSD 的詞典中相當缺乏財經領域之 字詞,故將 2012 年第一、二季財經文本作為詞集擴充資料,並配合人工篩選的 方式建立起情感詞集,NTUSD 裡包含了 2810 個正極字詞、8276 個負極字詞, 共 11086 個字詞,經由擴充後,情感詞集內含 3388 個正向字詞、9248 個負向 字詞,另外還獨立出中性詞集含 1803 個字詞,共 14139 個字詞。. 43.

(44) 表五:議題詞數量. 新增字詞. NTUSD. 擴充詞集. 總議題詞. 3053. 11086. 14139. 正向議題詞. 578. 2810. 3388. 負向議題詞. 972. 8276. 9248. 中性議題詞. 1803. 0. 1803. 本研究經由測試發現,在原有 373 萬個述詞中,透過原有 NTUSD 進行財經. 政 治 大 的中性字詞,然而透過增加過的情感詞集進行財經文本情感字詞的比對,則多 立 文本情感字詞的比對,有將近高達 178 萬筆,約 47.7%的字詞為無法判斷極性. ‧ 國. 學. 出將近 27%中性述詞被判斷出來,此結果也證明本研究所建立的情感詞集比原 本的 NTUSD 在財經文本情感字詞判斷方面有更好的判斷效果。. ‧. 23%. 131 萬. al. 30%. 168 萬. io. 83 萬. n 負向述詞. 112 萬. 無法判別(中性). 178 萬. 2.. Ch. engchi. 47.7%. sit. y. 擴充詞集判別. 35%. i n U. 75 萬. 修正比例 +12%. er. Nat. 正向述詞. NTUSD 判別. v. 45%. +15%. 20%. -27%. 文章主題標註. 為了將文章做進一步的主題標註,需透過不同的分群方法將同類別的議題 詞整併,歸納出能表達同類別議題詞的主題,並建立主題模型.本研究透過 Spark 實作了深度學習以及兩種不同的主題模型,分別是 Word2Vec、K-means 以及 LDA 主題模型,透過 Word2vec 搜尋股市文章,並且比較並且找出主題模型 效果最佳者,以下說明個別模型之判斷結果。 44.

(45) 3、 財經文本判斷結果 在判斷文本主題是否於"股市"資料的階段,首先會透過 Jieba 斷詞工具將每一 篇字詞數大於 8 的文章做斷詞,並篩選出有關於體詞(名詞)的字詞,之後將該 語料庫透過 word2vec 訓練,並篩選出與"股市"有關之前 20 個字詞 其部分 Word2vec,Spark 演算法如下 Step1:透過 jieba 將文章做斷詞,並且遺留下體詞。 Step2:將所有斷好的詞句放進 word2vec 做訓練 Step3:指定並且找出有關於’股市’的 20 個字詞。. 政 治 大 word2vec 之後透過’股市’找到其相關性詞彙如下: 立 Step4:將該字詞集合列印出來。. 股票. 交易日. 高点. 上涨. 走势. 低点. 证券. 上涨. 金融股. 散户. 趋势. y. 下跌. 止跌. 市场. 大陆. sit. 产业. 科技. 政府. 资金. 风险. 理念. n. al. Ch. e n g c 专业 hi. 状况. 投资者. 涨幅. er. 股东. io. 证券. Nat. 月线. 全球股市. ‧. 港股. ‧ 國. A股. 學. 表三:Word2Vec 結果. i n U. v 营收. 美国股市. 集团. 社会. 之後再透過上述詞彙,透過這些相關性詞彙找出有關的貼文,Spark 從該資料 集擷取有關於財經以及公司相關詞彙擷取出有關於 2012 年大陸經濟、股市資訊 每個禮拜約 16000 則,共 831437 則的貼文。 表四:Word2Vec 搜尋結果. 總文件數. 45. 全部的文本. 226841122. 與股市有關之文本. 831437.

(46) 從此資料及可以看出,股市資訊佔總微博貼文的 0.004%,可見大多數人在發文 時,針對股市相關的議題並不是經常在發布。. (1)K-means K-means 分群法是利用議題詞於每篇文章中的 TFIDF 來組成向量,並將每 篇貼文的議題詞向量化並建立起空間向量模型,並使用 Spark 中 Mlib library 的 Kemans 演算法進行分群,建立出模型.。 表 六 K-means 分群結果之議題詞表. 群體. 群體 1. 議題詞比例. 24%. 議題詞數量. 14. 立. 群體 2. 群體 3. 群體 4. 治 31% 政 12% 大 10. 31%. 67. 22. ‧ 國. 學. 列出所有群體前 15 個議題詞中可以發現,有些群體只包含了少數的議題. ‧. 詞,其分群結果相當不平均,部分主題模型所包含之一題詞過少,群體 1 和群. y. Nat. sit. 體 2 個只有 4%的議題詞,而群體 4 只有 3%的議題詞.雖可以透過分群結果發現. n. al. er. io. 其文章集中於群體 3,而群體 3 的文章皆與股市有關有關,這也代表我們所選. i n U. v. 的文章有偏向股市文章的趨勢,此外,透過 F-measure 來比較其分類效果,K-. Ch. engchi. means 分類準確度雖高達 79%。但由於本研究希望個群體分配均勻,有利後面研 究之判斷,故之後不使用 K-means 作為文章分群的判別方式.. 46.

(47) (2)LDA LDA 主題模型是透過 TFIDF 計算機率分的的一種主題模型,並以蒙地卡羅 馬可敷練進行迭代運算,並且透過機率分佈來逼近母體中字詞於主題的機率分 佈而建立的主題模型,其分群結果如下: 群體. 群體 1. 群體 2. 群體 3. 群體 4. 議題詞比例. 24%. 12%. 31%. 31%. 議題詞數量. 21. 14. 37. 33. 表 七 LDA 主題模型之議題詞表. 群體 1. 立. 股市. 股票. 中国银行. 金融. 走势. 大盘. 指标. 收市. 物流股. 档数. io. 企业. 股东. n. al. 资本. 资金. 业绩. 订单. Ch. 群體 3. 子公司. engchi 营收. y. 公司表現主題. 股指. sit. Nat 突破. 群體 2. 指涨. ‧. 均线. A股. 决议. er. 成交量. 股价. 學. 跌幅. ‧ 國. 指数. 治 政 上海股市主題 大. iv 盈余 n U. 财务 货量. 资产. 投資資訊主題. 市场. 产品. 股民. 据说. 方向. 保密. 探秘. 计算机. 大陆. 电力. 电子. 网络. 品牌. 电信. 风险. 云端. 年增率. 装置. 工业. 毛利率. 信息. 学会. 机会. 条款. 技术. 47.

(48) 品质. 镜头. 趋势. 产业. 成长性 群體 4. 论坛. 核电. 市場資訊主題. 市场. 负债. 数据. 经验. 金钱. 股本. 利率. 政策. 土地. 货币. 全球. 人民币. 住宅. 协议. 日K. 泡沫. 能源. 政府. 陆股. 线下. 社会. 宣布. 经济. 重点. 理念. 5日. 成长率. 提示. 标准. 政 部门治 大建议. 立. 流程. 状况. ‧ 國. 學. 從表中可以看出雖然其體詞有部分共用相同的問題,比起上述 K-means 的. ‧. 分群方法其分佈較為平均,群體 1 有 24%的體詞,群體二有 12%,群體 3 與群體. y. Nat. sit. 4 共有 31%,較無特別偏種單一群體之情形,此外我們可以透過下表之字詞分別. n. al. er. io. 歸類不同主題模型給予特定主題,例如主題 1 提及 A 股即標註為上海股市主. i n U. v. 題,主題 3 提及股民則標記投資者資訊主題,依序分別標記主題 2 及主題 4 為. Ch. 公司表現主題以及市場資訊主題. 48. engchi.

(49) (1)主題模型分類效果比較 從上述結果可以看出 LDA 主題模型比起常用的 K-means 有更好的分群效 果,且 LDA 分群出來的群體中的議題詞相似性較高,故本研究進一步用 Fmeasure 來比較其分類效果。 研究結果中發現 LDA 主題模型分類準確度高達 88%。因此,相較於 K-means 主題模型,LDA 主題模型之議題詞分布平均,具有良好的分群結果,且 LDA 主 題模型多出 9%的分類準確度且可清楚定義主題以歸納同類別之議題詞,故本研 究採用 LDA 主題模型來進行後續主題類別判斷與標注之實驗。. 政 治 大 建立完主題模型之後,即可進行文本的主題判斷與標注,依據每篇文本當 立. (2)文本主題判斷與標注. ‧. ‧ 國. 如下表七。. 學. 中所出現的主題議題詞數量,判斷並標記該文本一個或多個主題類別,其結果. 表 八 各主題的文本篇數. al. 投資資訊主題 市場資訊主題. Ch. 97852. e252786 ngchi. sit er. 187551. n. 公司表現主題. io. 上海股市主題. y. 文本篇數. Nat. 主題類別. i n U. v. 260940. 百分比 23% 12% 31% 32%. 2. 主題標注實驗結果討論 本研究主要比較了 K-means 主題模型以及 LDA 主題模型。 結果發現 K-means 主題模型在分析巨量文本資料時,文本數量遠大於議題 詞的數量,使得 TFIDF 矩陣過於稀疏,進而影響到 K-means 分群效果,造成議 題詞分配不均的情況產生。 LDA 主題模型是基於所有主題被所有文章所共享所建立,其符合本研究之財 49.

(50) 經文本多主題的特性,且群體中的議題詞亦能歸納出該群體代表性主題,故 LDA 主題模型最能符合本研究所需之結果。 3. 情緒傾向標注結果 (1) 情緒指數計算與情緒傾向標注 透過第一階段建立完情感詞集後,即可透過比對情感詞集來計算情緒指 數,在依照情緒指數進行情緒傾向標注,根據結果發現,有 88%的文本被標注 情緒傾向,僅 12%的文本為無法判斷的中性情緒傾向,證實了本研究建立的情 感詞集確實有良好的情感傾向判斷效果。 (四) 情緒傾向標注實驗結果討論. 政 治 大. 從情緒傾向標注結果可以看到,仍有約 12%財經文本資料無法判斷正負情. 立. 感,本研究進一步了查看後,發現可能的原因是文本中存在單純數值描述性報. ‧ 國. 學. 導,在財經文本中,有些貼文為單純對上海上市公司作其報表上數值的報告, 例如:「中國移動本月營收為 35 人民幣,其電信業務總營收比重為 90%, 其他. ‧. 業務占總營收比重 10%」,這種文本其含有極少可以作情感判斷的述詞,因此造. y. Nat. n. er. io. al. sit. 成其被判斷為中性傾向文本。. 50. Ch. engchi. i n U. v.

參考文獻

相關文件

在與 WINS 有關的研究之中,除了研發感測器硬體這個領域之外,其它的領域均需要

譚志忠 (1999)利用 DEA 模式研究投資組合效率指數-應用

本研究採用的方法是將階層式與非階層式集群法結合。第一步先運用

如果有事先的預防,則有些事情是可以避免的,再加㆖無線遠距檢測的好點 子因此讓我產生了研究 RFID 的興趣。本論文將設計 RFID 系統㆗的

通常在研究賽格威這類之平衡系統時在於機構之設計是十分的昂貴,本論文

本研究旨在使用 TI-Nspire CAS 計算機之輔助教學模式,融入基礎 統計學的應用,及研究如何使用 TI-Nspire CAS

本研究於 2017 年 2 月至屏東縣 10 所校園採集使用水源及經淨水處理

本研究是以景觀指數進行對 1993 年、2008 年與擴大土地使用三個時期之評 估,其評估結果做比較討論。而目前研究提供研究方法的應用-GIS 與 FRAGSTATS 之使用方法。從 1993 年至