• 沒有找到結果。

利用臉書資訊探討網路新聞的吸引度及極性分析

N/A
N/A
Protected

Academic year: 2021

Share "利用臉書資訊探討網路新聞的吸引度及極性分析"

Copied!
80
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:侯文娟 博士 利用臉書資訊探討網路新聞的吸引度 及極性分析 News Attraction and Polarity Analysis Using Facebook Information. 研究生: 中華民國. 楊登堯 撰. 一 0 六 年 七月.

(2) 摘要 過去人們獲取資訊的途徑只有從談話、書籍、報章雜誌等媒體,資訊量的收 集速度緩慢且數量有限,然而現今網路的發達以及科技改良所賜,網路的方便性 及發達帶給了這個社會資訊化。 社群網站的興起(例如:facebook、twitter),讓許多人開始透過這些網路平台, 迅速傳播新聞資訊或就生活上的知識進行交流與溝通。報紙雜誌等傳統媒體,也 開始透過網路平台進行發佈。 然而在資訊爆炸的時代,人們該如何從這些大量的報導中獲取想要或者喜歡 的資訊,而媒體又該如何從新聞內文中適當的撰寫以便吸引閱聽人,讓人們能夠 喜歡閱讀該報導,並且可以從這些報導當中,發掘現今人們的新聞喜好傾向,這 些都是目前值得研究者探討且著墨的地方。 本研究將首先利用情緒分析的技術,分析現在網路新聞內文經常使用哪些詞 彙或語句,可激發閱聽人的情緒反應以增加其閱讀興趣。其次,為了更進一步了 解新聞極性的趨勢,也就是正向的新聞比較受歡迎還是負向的新聞比較受歡迎, 會先進行斷詞之後,利用 TF-IDF 值尋找出關鍵字,然後利用語料庫進行比對,得 到正向詞與負向詞的資訊,接著再利用 Facebook 提供的讚數當作佐證,就可以看 出現在人們是喜歡哪一類的新聞。 研究結果發現,閱聽者比較常關注負向新聞,並且本研究利用圖斯勒(Marc I.

(3) Trussler)和索羅卡(Stuart Soroka)在加拿大麥基爾大學(McGill University)的實驗結 果相比對,顯示和從心理系角度所做的研究,有相符的結果,進而佐證本研究的 可信度。. 關鍵字:自然語言處理,情感分析,中文剖析器,語意字典 II.

(4) Abstract. In the past, the way of people obtaining information is only from the conversation, books, newspapers and other media information collection, which is slow and limited in number. However, due to the development of network technologies, in the present, the vast amount of information can be retrieved conveniently from internet.. Some community web sites (such as facebook , twitter)make many people start with these network platforms for the rapid dissemination of news or for exchange of knowledge on life. Traditional newspapers, magazines and other traditional media also begin to publish their reports on the network platform.. In an era of information explosion, how people can get information that they want or like from these extensive reports and how news can attract readers are worthy of investigation. Furthermore, the preference tendency of negative news or positive news is also very important.. The study will first take advantage of the sentiment analysis technology to analyze network news by extracting the frequently-used words or phrases in order to increase III.

(5) people’s interest in reading. Second, to further understand the trend of news polarity, that is, whether positive news is more popular than negative news or not. The study segments words, finds keywords using TF-IDF values, and then matches keywords with a sematic dictionary in order to get the polarity informations. Finally, use the number of ’like’ provided by Facebook as corroboration, the trend of news polarity that people like is shown.. The study shows that readers more concerned about the negative news. Comparing to the psychological research of Trussler and Soroka in Macgill University in Canada, the result is consistent. It thereby furthermore support the confidence of this study.. Keywords: NLP, sentiment analysis, Chinese parser, semantic dictionary IV.

(6) 謹獻給. 我的家人,指導教授,以及所有幫助過的人. V.

(7) 致謝 本論文得以完成,首先要感謝我的指導教授侯文娟老師,在這兩年來引導我 做研究。讓我能從零開始,一步步踏進自然語言處理的領域中;在研究遇到瓶頸時, 老師也給我許多幫助和提點,讓我能突破困難,見識到不同的眼界。此外老師也 提供了良好的研究環境讓我們能夠心無旁鶩的投入研究,獲得許多寶貴的知識和 追求學問的方法,此外向老師致上最高的謝意。 感謝我的家人這兩年來的陪伴與鼓勵,讓我能夠無後顧之憂的完成學業,讓 我在迎向未來的挑戰實更有勇氣,更有自信面對。. VI.

(8) 目錄. 摘要.................................................................................................................................. I Abstract ......................................................................................................................... III 目錄..............................................................................................................................VII 附表目錄.................................................................................................................... VIII 附圖目錄....................................................................................................................... IX 第一章 簡介............................................................................................................. 1 第一節 研究背景............................................................................................. 1 第二節 研究動機............................................................................................. 1 第三節 研究目的............................................................................................. 2 第四節 論文組織............................................................................................. 3 第二章 相關研究探討............................................................................................. 4 第一節 大數據................................................................................................. 4 第二節 斷詞系統............................................................................................. 6 第三節 極性分類 (polarity classification) .................................................... 8 第四節 情感分析(Sentiment Analysis).......................................................... 9 第五節 NTUSD ............................................................................................. 10 第六節 TF-IDF .............................................................................................. 11 第三章 研究方法................................................................................................... 14 第一節 緒論................................................................................................... 14 第二節 研究資料........................................................................................... 14 第三節 研究方法與架構............................................................................... 29 第四節 研究方法描述................................................................................... 32 第四章 實驗結果與分析....................................................................................... 36 第一節 抓取 facebook 上蘋果新聞資料 ...................................................... 36 第二節 內文進行斷詞................................................................................... 39 第三節 新增高吸引度與低吸引度語料庫以及擴充字典........................... 40 第四節 TF-IDF 在新聞內文裡面的關鍵字 ................................................. 56 第五章 結論與未來展望....................................................................................... 65 參考文獻....................................................................................................................... 67. VII.

(9) 附表目錄 表 表 表 表 表 表. 1 NTUSD positive 部分詞彙................................................................. 11 2 NTUSD negative 部分詞彙 ................................................................ 11 3 中文斷詞系統詞性表.......................................................................... 22 4 高吸引度所用的詞彙以及極性(節錄) ............................................... 42 5 低吸引度所用的詞彙以及極性(節錄).............................................. 43 6 擴充新聞詞彙...................................................................................... 44. 表 表 表 表 表. 7 計算高吸引所有詞彙出現的詞性機率.............................................. 46 8 計算低吸引所有詞彙出現的詞性機率.............................................. 47 9 高吸引度實驗結果.............................................................................. 53 10 低吸引度實驗結果............................................................................ 55 11 TF-IDF 之新聞判斷正負向(取出高吸引新聞部分) ........................ 58. VIII.

(10) 附圖目錄 圖 圖 圖 圖 圖 圖. 1 大數據定義............................................................................................ 5 2 蘋果粉絲專業...................................................................................... 15 3 爬蟲程式(節錄).................................................................................. 15 4 爬取新聞內文...................................................................................... 16 5 從粉絲專頁得知讚數多寡.................................................................. 17 6 graph API 資料的指令...................................................................... 18. 圖 圖 圖 圖 圖 圖 圖 圖 圖. 7 graph API 資料的指令(讚數).......................................................... 18 8 中文斷詞系統之輸出範例.................................................................. 21 9 斷詞完之後的詞彙與詞性特徵及頻率次數...................................... 24 10 教育部重編國語辭典修訂本............................................................ 27 11 相似詞相反詞的結果輸出................................................................ 27 12"完美"一詞在 NTUSD 所歸類的極性 .............................................. 28 13 擴充辭典並且找出吸引度高低所使用的詞性為何........................ 30 14 現代人喜歡負面新聞或者正向新聞................................................ 31 15 抓取 facebook 上的資料.................................................................. 37. 圖 圖 圖 圖 圖 圖. 16 抓取新聞內文.................................................................................... 38 17 新聞內文進行斷詞............................................................................ 39 18 教育部重編國語辭典修訂本輸出結果............................................ 41 19 NTUSD 負向詞彙 ............................................................................ 41 20 NTUSD 正向詞彙................................................................................ 42 21 新聞寫作之寫作技巧(ref:吳建華老師之新聞寫作技巧) ............. 48. IX.

(11) 第一章. 簡介. 第一節 研究背景 過去人們獲取資訊的途徑只有從談話、書籍、報章雜誌等媒體,資訊量的收 集速度緩慢且數量有限,然而現今網路的發達以及科技改良所賜,網路的方便性 及發達帶給了這個社會資訊化。社群網站的興起(例如:facebook、twitter),讓許 多人開始透過這些的網路平台,迅速傳播新聞資訊或一些生活上知識的交流進行 溝通。傳統報紙雜誌等一些傳統媒體,也開始透過網路平台去發佈。人們開始透 過手機看線上新聞報導,將這些新聞報導資訊化、數位化,每一個資訊、每一則 新聞、每一張圖片、每一個影片,都可以藉著網頁呈現。透過網際網路,人們可 以隨時隨地閱讀文章或者新聞,不用到超商買各家的報紙以便了解生活時事,不 用到書局買一本本的書籍獲取知識。 然而在資訊爆炸的時代,人們該如何從這些大量的報導中獲取想要或者喜歡 的資訊,而媒體又該如何從新聞內文中適當的撰寫以便吸引閱聽人,讓人們能夠 喜歡閱讀你這家報導,並且可以從這些報導當中,發掘現今人們是喜歡比較負面 的新聞或者正向新聞,這些都是目前值得研究者探討且著墨的地方。. 第二節 研究動機 內文是整個文章的脊髓,一則新聞想要表達些什麼,必須從文章內容得知,.

(12) 針對新聞媒體的數位化以及資訊的巨量化,如何在內文表達時,能夠兼顧引起讀 者的相關興趣,以及知道現在讀者喜歡怎樣的報導,是負向報導比較有興趣或者 是正向報導比較有興趣,都是新聞內文的作用。 一篇網路新聞(以蘋果新聞為例)字數大約落在 300 字左右,一篇網路新聞不 可能寫得很冗長,畢竟版面有限,那如何在有限的字數中,用一些吸引的字詞在 新聞文章中吸引閱聽人,激發閱聽人的興趣,是值得研究的方向。此外,閱讀線 上新聞的人越來越多,已經不分年幼老少,那麼年輕人或年長者是喜歡偏正向的 新聞或者喜歡一些負向新聞,這也是一大課題。 如果在一個新聞平台中,報導的文章可吸引更多讀者,將讓他們自家的品牌 報導更加受歡迎。所以許多新聞媒體採用的手法便是運用一些誇大性、或者情緒 性的字詞,嘗試誘發讀者的情緒反應,激發讀者的閱讀興趣,以便增加網路新聞 的點閱率與訂閱率,進而曝光該網路新聞媒體的存在性。. 第三節 研究目的 現在網路上,各家的報導齊聚一堂,每天網路新聞量十分的龐大,如果是以 每日發行報紙的新聞來說,可能就有好幾百則,更不用說隨時可能會有更新或是 即時新聞。所以現在新聞媒體對於文章的撰寫也開始漸漸誇大,且越來越趨於習 慣使用一些情緒激發性字眼,來增進網路新聞的點擊率,進而增加他們的曝光度。. 2.

(13) 再者,網路新聞的主題種類繁多,所以針對不同主題的內容,新聞媒體慣用 的情緒搧動詞彙也會不太一樣。因此本研究將首先利用情緒分析的技術,分析現 在網路新聞內文經常使用哪些詞彙或語句,可激發閱聽人的情緒反應以增加其閱 讀興趣。其次,為了更進一步了解新聞極性的趨勢,也就是正向的新聞比較受歡 迎還是負向的新聞比較受歡迎。會先進行斷詞之後,利用 TF-IDF 值,尋找出關 鍵字,然後利用語料庫進行比對,得到是正向詞或者負向詞的資訊,接著再利用 Facebook 提供的讚數當作佐證,就可以看出現在人們是喜歡哪一類的新聞。 故本研究旨在探討網路新聞內文是否能夠誘發閱聽人的情緒來激發他們的 興趣,進而再探討現在人們是喜歡哪一面向的新聞(正向或負向),最後探討網路 新聞與商業之間的關係。. 第四節 論文組織 本論文的組織架構如下:第一章為簡介,說明研究動機與目的;第二章為相關 研究的討論,介紹該領域相關的研究背景;第三章則是提出本次研究的架構,並 詳細說明本論文所提出的研究方法;第四章為實驗過程與實驗結果;第五章將會說 明本論文的結論以及未來發展方向。. 3.

(14) 第二章. 相關研究探討. 本章節整理相關文獻,作為本研究方法的理論基礎,第一節為大數據,介紹 大數據帶給怎樣的商機以及帶動科技的風潮。第二節將介紹斷詞,說明如何運用 斷詞系統斷出的句子或者詞。第三節將介紹極性分類 (polarity classification), 用 於分類文章為正極性 (贊同)或是負極性 (反對),第四節將介紹情感分析,說明 根據研究目標制定的需求,所使用的方法與結果。第五節將介紹語料資料庫 NTUSD。第六節將介紹 TF-IDF,用於評估一字詞對於一個文件及或者一個語料 庫中其中一份文件的重要程度。. 第一節 大數據 隨著網際網路的發展以及行動載具的普及,網路上的數據內容也跟著大量成 長,成長的幅度甚至到了巨量的地步。而這些大量數據內容通常被稱為「大數據」 (Bollier,2010)。而大數據又可以稱為海量資料、巨量資料、大資料,普遍的定義 是在於儲存數句量的價值(value),可以由大量(volume)、速度(velocity)、和種類 (variety)構成全面性的定義(Russim,2011)(如圖 1)。 一般而言,大數據的定義是 Volume(容量) 、Velocity(速度)和 Variety(多 樣性) ,但也有人另外加上 Veracity(真實性)和 Value(價值)兩個 V。但其實不 論是幾 V,大數據的資料特質和傳統資料最大的不同是,資料來源多元、種類繁 多,大多是非結構化資料,而且更新速度非常快,導致資料量大增。而要用大數 4.

(15) 據創造價值,不得不注意數據的真實性。. volume veracity velocity. value. variety. 圖 1 大數據定義 隨著大數據降臨,如何對於這些數據資訊進行篩選便是值得討論的課題。因 為藉由相關資料的分析,可以篩選出許多有用的資訊,探索網路資訊與社會的脈 動連結,甚至是消費者行為相關趨勢(Bollier,2010;葉乃嘉,2013)。大數據為資 訊社會帶來全面性的影響,甚至捲起一個大數據風潮,包括個人行為、商業模式、 生活型態、策略與管理改變、社會與國家改變(趙麗慧,2014)。因此許多政府組 織、領域專家學者也都開始進行大數據分析的研究,以便了解社會趨勢或者民眾 行為,藉此進行策略上的制定。 在商業研究上,Boyd 及 Crawford(2012)的研究指出,大數據對於市場有非常 大的幫助,一般公司的行銷人員或決策者如果能夠有效的利用大數據的資料而獲 得目標族群的行為,可進而確定一些商業上決策的可行性。針對大數據的行銷策 略運用,如果決策者能有效的看到精髓所在,便能夠對於消費者產生直接或者間 接的影響,然後就可以創符合市場上的需求,再使用一些歸納法的方式歸納策略 上的分析模式,藉此刺激消費者行為與市場潛在需求來滿足行銷行為(呂瑞男,. 5.

(16) 2015)。游綉雯(2015)針對線上旅遊網站評論資料作情緒分析,將評論分類並計算 情緒分數,藉此了解消費者滿意與不滿意的項目。 此外,關鍵字廣告已經成為行銷工具的大宗,網頁搜尋龍頭 Google 的關鍵字 廣告(Google Adwords)收入就佔了其營收的絕大部分,因為關鍵字廣告具有針對 性,可依據特定客戶的喜好、產品特性來設計合適的廣告文案,以此達到吸引客 戶的目的(李凱斌,2011)。 由上述文獻可以得知,大數據時代的來臨與網路密不可分,也直接導致了商 業行為網路化,因此如何將這些資訊數據篩選分類與分析,便是學者們重視的研 究領域。. 第二節 斷詞系統 在自然語言處理上,最基本的處理單位通常是詞,此處的詞指的是語言學家 所定義的「能夠獨立運用,具有完整語意的最小語言成分」 。很多自然語言處理應 用的研究,例如:文件檢索、中文輸入、語意辨識等等,都需要先將本文切割,以 詞為單位後才能進行後續處理。在英文中,每個單字(word)就可成詞,且大都以 空白當作字與字之間的符號,因此無須進行斷詞的前置作業。反之中文字詞和詞 之間並無空白或特定符號區隔,因此將正確的詞切分出來,就成為自然語言處理 的最基礎工作。同樣地,文章的摘要或者文章本身也都是得經過斷詞處理,才進 行後續的處理。. 6.

(17) 傳統用在中文上的斷詞方法一般分為兩大類別,分別是 N-gram 與詞彙法 (Word based) 。近年來中文斷詞的研究主要以詞彙法為主導,但 N-gram 仍為實 務所重視。 (一). 中研院斷詞系統(CKIP) 中研院資訊所、語言所於民國七十五年成立一個跨所合作的中文計算語言研. 究小組,共同合作建構中文自然語言處理的資源與研究環境,為國內中文自然語 言處理及相關研究提供基本的研究資料與知識架構。中文斷詞系統 (http://ckipsvr.iis.sinica.edu.tw/)為其研究之一,其特色為: . 包含一個約十萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等 資料。分詞依據為此一詞彙庫及重疊詞等構詞規律及線上辨識的新詞,並解 決分歧義問題。. . 採用的「中央研究院平衡語料庫」 ,是世界上第一個有完整詞類標記的漢語平 衡語料庫。1997 年開放的研究院語料庫 3.0 版已達到五百萬目詞的規模, 目前正朝向一千萬詞的目標邁進。. (二). Jieba 斷詞系統 斷詞中最著名的便是「結巴(Jieba)中文斷詞」(https://github.com/fxsjy/jieba),. Jieba 的核心演算法為使用語料庫建立 Trie 字典樹,Trie 字典樹的結構為單詞 以及其機率值,首先利用正規表示式將語句中符號與文字切割,接著把屬於文字 7.

(18) 之部分與 Trie 字典樹比對,計算共有幾種斷詞組合並且產生出現的機率值,而根 據這些單詞組合與機率值組合表示成一個有向無環圖(DAG)。若連續出現某個單 字詞,則將這些單字詞組合匯入隱馬可夫模型(Hidden Markov Model),再使用 Viterbi 演算法計算是否能組合成新的單詞,提升斷詞組合之滿意度。結巴(Jieba) 中文斷詞在處理詞語歧義性與新詞識別有很好的效能。 上述所提供的兩者斷詞方法,本研究使用中研院斷詞系統,因 Jieba 斷詞適 合用在簡體文字上,但本研究的新聞用字全部為繁體中文,所以如果使用 Jieba 斷 詞,會有語意上斷詞的問題,影響此研究之結果。. 第三節 極性分類 (polarity classification) 語意分析涉及正反意見在文字語句中的判定,因此必須使用多方視角看待問 題與答案,與此相關的研究包含意見導向的資訊萃取、資訊摘要。語意分析通常 分為三個階段:校準、辨識、與分類所有已經讀取的文句。本研究探討文件階層 (document-level) 的分析,將會著重分析特定類型的評論文件。首先須處理的問 題就是極性分類 (polarity classification),對於目標決定正極性 (贊同)或者是負 極性(反對),部分研究也包括中性的極性,雖然研究成果相當多且廣,極性分類 仍然是自然語言處理系統中重大的挑戰。 接著介紹極性分類的方法。在語言學中,建立一個高效的極性分類可透過以 下特徵:. 8.

(19) . high order n-grams. . 複合形容詞,例如 happy 被視為正,而 terrible 視為負面。. . 詞彙的相依關係. . 來自於中立文件中所描述的詞組 經由極性分類,可以反映正反兩方兩種評論,為了增加精準度,其中一種. 做法是將單純闡述事實的評論去除、以及在中性評論用的用詞特別處理,接著 對於形容詞與關聯名詞做統計,確保面向的評論對象是研究所需。. 第四節 情感分析(Sentiment Analysis) 情感分析主要目的是分類文件或句子意見表達的極性為正向、負向或中立。 常使用的方法是利用情感字典,或是訓練已經標記好的評論,用於建立情感模型 (Sentiment model)。在情感詞典部分,可以是廣義的情緒詞彙,或者是特定領域 的情緒詞彙(Lu and Tsou,2010)。情感分析的技術是關於辨識和整合使用者表達 的情緒或意見,在過去大部分情感分析研究方法中,可以分為監督式(Supervised)、 非監督式(Unsupervised)和半監督式(Semi-Supervised)。 監督式學習可以由訓練資料中學到或建立一個模式,並依此模式推測新的實 例,例如使用以 Maximum Entropy 為主的機器學習演算法(Li et al.,2009);使用 Support Vector Machines(SVM)分類微博文章的情感極性(Sui et al.,2012):而在 Yang 和 Zhou(2011)所提的論文中,作者分析中文句子的語意結構,接著將分析. 9.

(20) 的語意結構依照動詞的句法結構,分成直接和間接的意見,再使用 Maximum Entropy 演算法學習這兩種特徵,對中文句子進行情緒分析。文章情感分類的非監 督式學習方法則是以辭典為主(Wang and Lee,2011;Zhai et al.,2010),Zhang 等 人(2012)提出改善自動化產生情感辭典的方法,並且給予詞彙分數。首先利用已 知的正負向情感詞彙建立初始的種子詞彙,然後定義代表詞彙的語意極性分數的 分數向量,並建立種子詞彙和其他詞彙之間的關聯圖,最後根據向量和關聯圖擴 充種子詞彙;Wang 等人(2013)使用以字典為基 lexicon-based 的方法並結合模糊 理論,首先將情感辭彙進行情緒量化,接著定義分類正向和負向的模糊集合和歸 屬函數,然後透過實驗訓練資料集決定歸屬函數的最佳參數,最後利用模糊分類 器對評論進行分類。另外,Zhuo 等人(2014)應用模糊理論進行情感分析,他們提 出根據情感程度詞彙和中文模糊語意模型對中文文章進行情感分析。而半監督式 學習則是介於監督式與非監督式學習之間,有一部分使用已經標好的資料(labeled data),而剩下尚未被發現的特徵為未標記的資料分類到正確的特徵類別,例如 Zhai 等人(2012)應用半監督式學習於辨識領域的特徵,某些特徵在不同領域有不 同意義,例如"picture"這個詞在相機中代表相片,在電影領域則代表影片。. 第五節 NTUSD NTUSD(National Taiwan University Semantic Dictionary)(Ku&Chen,2007)是 台灣大學意見詞典。此詞典包含了常用的意見詞詞彙,以及該詞彙的極性。將這. 10.

(21) 些詞彙分類成正向極性與負向極性,分別屬於 NTUSD positive、NTUSD negative, 本研究所使用的是舊版的 NTUSD,一共收錄約 2810 個正向詞彙以及 8276 個負 向詞彙。在 NTUSD 中,除了意見詞本身之外,也包含了該意見詞的實際應用、 例句等。以下截錄部分 NTUSD positive 內容於表 1;部分 NTUSD negative 內容 於表 2。可以看出某些情緒詞有發生跨區出現的情形,例如兩張表中的詞彙「入 迷」、「入迷的」。 表 1 NTUSD positive 部分詞彙 了不起. 了不起的. 了解. 人情. 人情味. 入迷. 入迷的. 上等. 大膽. 大膽的. 小天使. 才氣. 才能. 才智. 才幹. 不任性. 不任性的. 中肯. 井然有序. 互相密和著的. 表 2 NTUSD negative 部分詞彙 一下子爆發. 一巴掌. 一再. 一再叮囑. 一陣緊張. 入迷. 入迷的. 入迷的人. 刀刃. 刁難. 匕首. 下垂. 下垂度. 下流. 下流的. 小心. 小卒. 小氣. 小氣的. 小偷. 第六節 TF-IDF TF-IDF(term frequency–inverse document frequency)是一種用於資訊檢索與 11.

(22) 文本挖掘的常用加權技術。TF-IDF 是一種統計方法,用以評估字詞對於一個文件 集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出 現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TFIDF 加權的各種形式常被搜尋引擎應用,作為文件與用戶查詢之間相關程度的度 量或評級。除了 TF-IDF 以外,網際網路上的搜尋引擎還會使用基於連結分析的 評級方法,以確定文件在搜尋結果中出現的順序。 TF-IDF 的主要概念是:如果某個詞或短語在一篇文章中出現的頻率 TF 高, 並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適 合用來分類。TF-IDF 實際上是:TF * IDF,其中 TF(Term Frequency)代表詞頻, IDF(Inverse Document Frequency)代表逆向文件頻率。TF 表示詞條在文檔 d 中 出現的頻率。 在一份給定的文件裡,詞頻(term frequency,TF)指的是某一個給定的詞語 在該文件中出現的頻率,這個數字是對詞數(term count)的歸一化,以防止它偏 向長的文件,因為同一個詞語在長文件裡可能會比短文件有更高的詞數,而不管 該詞語重要與否。對於在某一特定文件裡的詞語 ti 來說,它的重要性可表示為公 式(1): t𝑓𝑖,𝑗 =. 𝑛𝑖,𝑗 ∑𝑘 𝑛𝑘,𝑗. (1). 其中 j 是「某一特定文件」,i 是該文件中所使用單詞或單字的「其中一種」,𝑛𝑖,𝑗 就 是 i 在 j 當 中 的 「 出 現 次 數 」, 那 麼 t𝑓𝑖,𝑗 的 算 法 就 是 𝑛𝑖,𝑗 / 12.

(23) (n(1,j)+n(2,j)+n(3,j)+…+n(i,j))。例如第一篇文件中,被篩選出兩個重要名詞,分別 為「健康」、「富有」,「健康」在該篇文件中出現 70 次,「富有」出現 30 次,那 「健康」的 t𝑓 =70/(70+30)=70/100=0.7,而「富有」的t𝑓=30/(70+30)=30/100 =0.3;在第二篇文件裡,同樣篩選出兩個名詞,分別為「健康」 、 「富有」 , 「健康」 在該篇文件中出現 40 次,「富有」出現 60 次,那「健康」的t𝑓 =40/(40+60)= 40/100=0.4, 「富有」的t𝑓 =60/(40+60)=60/100=0.6,t𝑓值愈高,其單詞愈重要。 逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的 度量。某一特定詞語的 IDF,可以由總文件數目除以包含該詞語之文件的數目, 再將得到的商取對數得到,如公式(2) |𝐷|. 𝑖𝑑𝑓𝑖 = 𝑙𝑜𝑔 |{𝑗:𝑡 𝜖𝑑 𝑖. 𝑗 }|+1. (2). 其中|𝐷|為語料庫中的文件總數,|{𝑗: 𝑡𝑖 𝜖𝑑𝑗 }|則是包含詞語𝑡𝑖 的文件數目(即𝑛𝑖,𝑗 ≠ 0 的文件數目) 。如果該詞語不在語料庫中,就會導致分母為零,因此一般情況下使. 用1 + |{𝑗: 𝑡𝑖 𝜖𝑑𝑗 }|。 因此 TF-IDF 公式如下: 𝑡𝑓𝑖𝑑𝑓𝑖,𝑗 = 𝑡𝑓𝑖,𝑗 × 𝑖𝑑𝑓𝑖. (3). 從公式(3)可看出,某一特定文件內的高頻率詞語,以及該詞語在整個文件集 合中的低文件頻率,可以產生出高權重的 TF-IDF。因此,TF-IDF 傾向於過濾掉 常見的詞語,保留重要的詞語。. 13.

(24) 第三章 研究方法. 第一節 緒論 在資訊爆炸的時代,人們該如何從這些大量的報導中獲取想要或者喜歡的 資訊,而媒體又該如何從新聞內文中適當的撰寫以便吸引閱聽人,讓人們能夠 喜歡閱讀你這家報導,並且可以從這些報導當中,發掘現今人們是喜歡比較負 面的新聞或者正向新聞,這些都是目前值得研究者探討且著墨的地方。 本研究目標為分析現在網路新聞內文經常使用哪些詞彙或語句,可激發閱 聽人的情緒反應以增加其閱讀興趣,以及處理新聞極性的趨勢,也就是正向的 新聞比較受歡迎還是負向的新聞比較受歡迎,進而可以讓各家報章可以利用本 研究去撰寫出一篇吸引度高的新聞報導。. 第二節 研究資料 (一) 研究材料 新聞內文是取自於蘋果新聞,為何選取蘋果新聞而不選取其他家新聞,因為 蘋果新聞是經由統計出來,現今的人們,不管男女老少,都是比較偏好於蘋果新 聞。因此,本研究題材就選取蘋果新聞內文,來做為此研究資料,因為根據專門 進行網站流量等數據分析的市調公司 comScore 最新調查, 《蘋果日報》四月份於 全裝置新聞類別,不重複訪客數量排名居各媒體第一;其中,在手機裝置包括手 機網和 App 排行,也都高居第一。本研究挑取一個禮拜的新聞(時間為 2017 年的 14.

(25) 5/3~5/9),總共約 500 篇新聞,先到 facebook 蘋果新聞的粉絲專頁(如圖 2)去找尋 新聞,尋找完之後,利用爬蟲程式(如圖 3)將所需要的資料,截取出來(如圖 4)。. 圖 2 蘋果粉絲專業. 圖 3 爬蟲程式(節錄). 15.

(26) 圖 4 爬取新聞內文 接下來,需要取得每一篇新聞的讚數多寡,因為要怎麼知道這一篇新聞是否 很多人去點閱,就必須靠讚數多寡判斷。兩種方法可以進行抓取某篇新聞的讚數 數量。方法一:直接到粉絲專頁,挑取剛剛所抓的新聞內文的 po 文,進而可以看 到讚數數量的多寡(如圖 5),可以看到這篇的讚數為 1011。方法二:利用 Facebook 所提供的 facebook for developer1平台,並且透過平台所提供的 graph API,輸入要 抓取資料的指令,進而可以得到 json 資料,json 資料裡面包含新聞標題、新聞內 文、新聞發布時間以及新聞按讚的個數等資訊,並且可以得知是誰給這篇新聞一 個讚的肯定(如圖 6、圖 7)。而且利用 facebook 所提供的開發者人員(facebook for developer),可以直接下取指令,快速的找到想要的資料,並不需到實際的粉絲專 業,去慢慢搜尋想要的資訊。例如:想要得知五月一日的新聞,就可以利用指令的 方式,直接抓取五月一日所有的新聞資訊。不然現在是七月,若想要往回抓取六. 1 https://developers.facebook.com/. 16.

(27) 月份的資料,就必須在粉絲專頁,慢慢的往下滑,找到六月份所有的新聞資料, 這樣子需要花費很長的一個時間,所以建議是利用方法二的方式,可以讓快速去 抓取想要的資料,節省時間並且可以正確的抓取資料。. 圖 5 從粉絲專頁得知讚數多寡. 17.

(28) 圖 6 graph API 資料的指令. 圖 7 graph API 資料的指令(讚數) 由上圖 6 的紅色框可以發現,那一條指令其實就是在抓取蘋果新聞粉絲專頁 裡面的所有資料。可以發現當中有一串數字 105259197447,這一串數字就是粉絲 專頁的 id 代碼,這串 id 代碼要從使用者資料先去找到蘋果日報的名稱,然後再 對應到 id,即可知道。接下來後面那串指令,就是利用 facebook 所提供給的指令, 18.

(29) 去抓取粉絲專頁的內容。指令如下: 105259197447?fields=feed,就可以看到結果的 呈現。呈現方式是利用 json 的格式去輸出,那麼裡面可以看到有 created_time(建 立日期)、message(新聞標題)、story(新聞的內聞)以及每篇新聞所屬的 id。接下來 看到上圖 7,可以再進一步的去看這篇新聞有幾個人按讚,一樣可以去下指令, 抓取按讚個數。抓取指令如下:105259197447_10155332550280390? fields=likes,資 料格是一樣是以 json 的格式輸出,再去計算總共按讚個數即可。 (二) Facebook API 簡介 Facebook API(https://developers.facebook.com/)可以應用在多種環境下,包括 網站(Website)、Facebook 應用程式(Apps on Facebook.com)以及行動應用程式 (Mobile Apps) 。 根 據 不 同 的 平 台 , Facebook 也 提 供 了 不 同 的 SDK(Software Development Kit)給開發者使用,包含了網站上使用的 JavaScript SDK、PHP & Python SDK,以及行動裝置上的 iOS SDK(iPhone & iPad)、Android SDK 等,可以 說無論在哪個平台上皆可看到 Facebook API 的身影。 使用 Facebook API 並不困難,甚至有越來越簡易的趨勢。在過去一兩年間, 由於將 Facebook API 用在網站上的使用人數大幅增加,Facebook 也將常用到的一 些服務包裝成套件供開發者直接套用(Facebook 稱之為 Social Plugin) ,其中包含 最常見的『按讚』、『朋友的動態』、『留言系統』…等。若一般網站開發者需要使 用這些功能,只要到 Facebook 開發者網頁填寫一些必要的資訊(appID、plugin 的 寬度、回傳 url…等),Facebook 便會自動替開發者產生相對應的 plugin 程式碼, 19.

(30) 接著開發者只需要將這些程式碼嵌入網頁中就大功告成了!而在筆者截稿之前, Facebook 甚至開放『留言』(comment) API,進一步將 Facebook 的互動融入在各 個網站中。 但無論 Facebook 提供各種 API,追根究柢,其實大家想要使用 Facebook API 的目的終究是希望能夠擷取使用者以及與使用者相關的一些物件(朋友、網頁… 等)之間的鏈結,也因此 Facebook 將這個概念濃縮成為一個核心概念,稱之為 Social Graph。而存取這些關係的 API,就稱之為 Graph API。 (三) Graph API Graph API(https://developers.facebook.com/tools/explorer/145634995501895/)提 供了可以一窺社群網路的方法,並提供物件本身的資訊以及物件間彼此的鏈結關 係。本處所提到的物件,其實在 Facebook 裡的定義是非常廣泛的,舉凡人、照片、 事件、網頁都可以是一個物件。而鏈結關係就是這些物件間彼此的關係,例如人 跟人之間的關係(朋友/非朋友)、人跟照片的關係(人擁有某些照片、照片上的標 籤屬於某些人等) 、人跟事件與網頁的關係(讚)...等。因此其實也可以說,任何 研究人員需要 Facebook 提供的資訊,Graph API 幾乎都能滿足研究人員的需求。 (四) 中文斷詞系統 本研究利用 CKIP 的中文斷詞系統(http://ckipsvr.iis.sinica.edu.tw/)進行蘋果日 報新聞內文的斷詞。從中研院斷詞系統中,把一篇文章斷完詞之後,然後找出詞 性的特徵。因為是先就有把 500 篇新文抓下來,在這個步驟中,直接把內文貼到 20.

(31) 中文斷詞系統中,輸出結果如圖 8 所示。. 圖 8 中文斷詞系統之輸出範例. 表 3 為中文斷詞系統可能產生的詞性列表,亦即就是斷詞系統所有的詞性 特徵,本研究可以進而利用這些特徵延伸發展,創造屬於自己需要的用法,目 前他曾運用的應用包括語料庫統計值與全球資訊網統計值之比較、斷詞系統曾 使用於 Queried keywords 的研究、電影評論詞性分析,顯示應用是非常廣泛的。. 21.

(32) 表 3 中文斷詞系統詞性表 精簡詞類. 簡化標記. A. A. A. /*非謂形容詞*/. C. Caa. Caa. /*對等連接詞,如:. 對應的CKIP詞類標記2. 和、跟*/ POST. Cab. Cab. /*連接詞,如:等等 */. POST. Cba. Cbab. /*連接詞,如:的話 */. C. Cbb. Cbaa, Cbba, Cbbb, Cbca, Cbcb. /*關聯連接詞*/. ADV. Da. Daa. /*數量副詞*/. ADV. Dfa. Dfa. /*動詞前程度副詞*/. ADV. Dfb. Dfb. /*動詞後程度副詞*/. ASP. Di. Di. /*時態標記*/. ADV. Dk. Dk. /*句副詞*/. ADV. D. Dab, Dbaa, Dbab, Dbb, Dbc, Dc, Dd, Dg, Dh, Dj. /*副詞*/. N. Na. Naa, Nab, Nac, Nad, Naea, Naeb. /*普通名詞*/. N. Nb. Nba, Nbc. /*專有名稱*/. N. Nc. Nca, Ncb, Ncc, Nce. /*地方詞*/. N. Ncd. Ncda, Ncdb. /*位置詞*/. N. Nd. Ndaa, Ndab, Ndc, Ndd. /*時間詞*/. DET. Neu. Neu. /*數詞定詞*/.. DET. Nes. Nes. /*特指定詞*/. DET. Nep. Nep. /*指代定詞*/. DET. Neqa. Neqa. /*數量定詞*/. POST. Neqb. Neqb. /*後置數量定詞*/. M. Nf. Nfa, Nfb, Nfc, Nfd, Nfe, Nfg, Nfh, Nfi. /*量詞*/. POST. Ng. Ng. /*後置詞*/. N. Nh. Nhaa, Nhab, Nhac, Nhb, Nhc. /*代名詞*/. Nv1,Nv2,Nv3,Nv4. /*名物化動詞*/. Nv. Nv. T. I. I. /*感嘆詞*/. P. P. P*. /*介詞*/. T. T. Ta, Tb, Tc, Td. /*語助詞*/. Vi. VA. VA11,12,13,VA3,VA4. /*動作不及物動詞*/. Vt. VAC. VA2. /*動作使動動詞*/. Vi. VB. VB11,12,VB2. /*動作類及物動詞*/. 1. 斜體詞類,表示在技術報告#93-05中沒有定義,即後來增列的。 22.

(33) Vt. VC. VC2, VC31,32,33. /*動作及物動詞*/. Vt. VCL. VC1. /*動作接地方賓語動 詞*/. Vt. VD. VD1, VD2. /*雙賓動詞*/. Vt. VE. VE11, VE12, VE2. /*動作句賓動詞*/. Vt. VF. VF1, VF2. /*動作謂賓動詞*/. Vt. VG. VG1, VG2. /*分類動詞*/. Vi. VH. VH11,12,13,14,15,17,VH21. /*狀態不及物動詞*/. Vt. VHC. VH16, VH22. /*狀態使動動詞/. Vi. VI. VI1,2,3. /*狀態類及物動詞*/. Vt. VJ. VJ1,2,3. /*狀態及物動詞*/. Vt. VK. VK1,2. /*狀態句賓動詞*/. Vt. VL. VL1,2,3,4. /*狀態謂賓動詞*/. Vt. V_2. V_2. /*有*/. T. DE. Vt. SHI. /*是*/. FW. FW. /*外文標記*/. /*的, 之, 得, 地*/. COLONCATEGORY. /* 冒號 */. COMMACATEGORY. /* 逗號 */. DASHCATEGORY. /* 破折號 */. ETCCATEGORY. /* 刪節號 */. EXCLAMATIONCATEGORY. /* 驚嘆號 */. PARENTHESISCATEGORY. /* 括弧 */. PAUSECATEGORY. /* 頓號 */. PERIODCATEGORY. /* 句號 */. QUESTIONCATEGORY. /* 問號 */. SEMICOLONCATEGORY. /* 分號 */. SPCHANGECATEGORY. /* 雙直線 */. 接著如圖 9 所示,會看到 Na、Nf、VH、VC、Neu、D、FW、VE、Nh、VJ、 Dfa、Nd 等等,這些都是由中文斷詞系統所產生的詞性中挑選。在中文斷詞系統 特徵詞中,會選這些詞性做為使用,主要原因是因為中文斷詞系統特徵中會出現 耶些詞性是沒有意義的。像是 T 這個詞性代表語助詞,而研究實驗中無法依語助. 23.

(34) 詞找出是否會影響閱聽者對一篇報導吸引度高低的判斷,故無法用上。去除這些 沒有意義的詞性後,本研究就可以再進一步分析與探討。. 圖 9 斷詞完之後的詞彙與詞性特徵及頻率次數 24.

(35) (二). 利用 NTUSD 的擴充 此部分中應用 NTUSD positive 以及 NTUSD negative 兩份語料做進一步的擴. 充,試圖納入更多新聞內文撰寫方法之高低吸引度的情感詞彙。 NTUSD 為一份詳細標記極性的語料庫。除了情緒詞本失之外,甚至包含該 辭會的相關用法、可能出現的句型。例如:詞彙「不凡」被歸類為正向極性詞彙; 相關的詞彙「不凡的人」同樣被歸類於正向極性詞彙中。 「不凡的人」中多出了「的」 以及「人」兩個修飾詞彙。需要的關鍵是極性詞彙本身,而非相關的修飾詞。雖 然一個詞彙越是明確、描述的越仔細,判斷時的正確率越高;但另一方面修飾詞卻 可能影響擴充時的效率。 為了取出具有明確性的詞彙,於是將 NTUSD positive 以及 NTUSD negative 分別經過斷詞系統做分析。由於不確定斷詞後的情緒詞彙將被判定為哪些類型的 詞性,為了盡可能增加擴充詞彙,同時不漏掉和習慣上認知類型不同的詞彙,因 此本研究加入所有詞性的詞彙,盡可能達到本研究擴充詞典的完整性。 如果與 NTUSD 語料庫進行 positive 和 negative 的比對,如果該詞彙沒有在 該字典裡面,就必須再透過教育部新增詞典,進行相似詞的比對。如果該詞彙的 相似詞如果在 NTUSD 有出現,那麼就將該詞彙歸類為一樣的極性。. 25.

(36) (三). 教育部重編國語辭典修訂本. 教育部重編國語辭典修訂本網路版收錄單字一萬一千多字,詞目十六萬條。可以 字詞、注音、釋義查詢。 需要靠這個工具去做出辭典擴充的判斷,今天有一個詞彙為出現在 NTUSD 與料 庫裡面,那麼就必須到該詞典修訂本來查詢該詞彙的相似或者相反詞,來幫助將該詞 彙歸類為何種極性。. 假設今天有"完善"一詞,於是就到 NTUSD 進行比對,可是在 NTUSD 並沒 有找到"完善"這個詞的存在,所以這時候,就必須到教育部重編國語辭典修訂本 找與"完善"一詞的相似詞,如果"完善"的相似詞有在 NTUSD 裡面的話,就將該詞 歸類一樣的極性。 如圖 10 將"完善"輸入到該詞典搜尋引擎裡面,就會發現會跑出與"完善"這個 詞的相似詞與相反詞以及他的釋義(如圖 11)。. 26.

(37) 圖 10 教育部重編國語辭典修訂本. 圖 11 相似詞相反詞的結果輸出. 27.

(38) 由如圖 11 可以發現,"完善"這個詞彙的相似詞有"完美"、"完滿"、"圓滿"這 三種相似詞,於是分別將這三個相似詞與 NTUSD 去進行比對,可以發現"完美" 這個詞彙,在 NTUSD 裡面是屬於正向詞彙(如圖 12)。於是就可以將"完善"一樣 歸類為正向詞彙,並且將"完善"一詞新增到自己的詞典裡,新增一套新聞高低吸 引度的情感字典。. 圖 12"完美"一詞在 NTUSD 所歸類的極性. 28.

(39) 第三節 研究方法與架構 本研究提出的方法分為兩大部分,即方法一和方法二,方法一主要處理利用 情緒分析的技術,分析現在網路新聞內文經常使用哪些詞彙或語句,可激發閱聽 人的情緒反應以增加其閱讀興趣。且在方法一中擴充一套屬於新聞高低吸引度的 詞彙字典,會與 NTUSD 進行比對的動作,並且藉由教育部字典做為輔助,以便 將詞彙新增到自建的語料庫中。所抓下來的新聞,利用 Facebook 的粉絲專業讚數 當做驗證,並且用讚數平均的方式找出哪些是高吸引度新聞、哪些是低吸引度新 聞。將 500 篇新聞的讚數計算出平均值,如果讚數超過平均值,就把它歸類成高 吸引度,如果低於平均值,就把它歸類為低吸引度。 方法二主要處理新聞極性的趨勢,也就是正向的新聞比較受歡迎還是負向的 新聞比較受歡迎。會先進行斷詞之後,利用 TF-IDF 值尋找出關鍵字,然後利用語 料庫進行比對,得到正向詞或負向詞的資訊,接著再利用 Facebook 提供的讚數當 作佐證。. 29.

(40) 方法一: Facebook 讚數. 網路新聞 500 篇. >1934. <1934. Facebook api. 新聞內文. 低吸引度. 高吸引度. 進行斷詞(中研院) 驗證比對結果 斷詞完的詞彙. 詞性分析. 詞彙與詞性. 是. 比對. 情緒字典語料 庫(NTUSD). 比對結果. 直接新增到自 己的語料庫. 否. 教育部重編國語辭典 修訂本. 再新增到自己的 語料庫. 比對結果(詞彙及詞性). 圖 13 擴充辭典並且找出吸引度高低所使用的詞性為何 30.

(41) 方法二:. 網路新聞 500 篇. Facebook api. 新聞內文. 進行斷詞(中研院). 斷詞完的詞彙. 詞性分析. 詞彙與詞性. 比對. 自建語料庫. TF-IDF(取前五). 極性分類. 正向. 負向. Facebook 讚數. 負向文章讚數平均. 正向文章讚數平均. 圖 14 現代人喜歡負面新聞或者正向新聞 31.

(42) 第四節 研究方法描述 本研究方法可以歸類成以下幾個步驟說明:(一)利用斷詞系統將新聞內文斷 詞,(二)新增自己的語料庫,分成高吸引度語料庫以及低吸引度語料庫,(三)利 用 TF-IDF 找出一篇文章的關鍵詞,各步驟詳細如下:. (一) 利用斷詞系統將新聞內文斷詞 將從蘋果新聞所得到的新聞內文經由中文斷詞系統斷詞完之後,會得到已經 切割完的詞彙,然後將這些詞彙存成 excel 檔,之後統計字頻時候會用到,以及 在看哪些詞性是會影響整篇新聞的吸引度。. 例如:. 新北市一名黃姓男子上周三晚間 8 時許,騎車行經板橋縣民大道與民 權路口,未依路口機車須兩段式左轉,而逕行左轉至民權路,正巧被 停一旁停等紅燈的板橋分局警備隊警員發現將他攔下盤查。未料黃男 下車出示證件供查時,卻疑因自己剛假釋出獄,擔心被警方「誤 會」 ,一時心急下竟在大馬路上將全身衣服脫光,想證明自身清白, 黃男突如其來的舉動也讓警方一度錯愕,直言他實在不必如此。過程 中,黃男在一旁不斷打電話給家人及房東,表情盡顯不耐,警方也表 示查明無誤後會盡速讓他離去。警方後來在機車置物箱內發現一個咖 啡包及一罐裝有液體的瓶子,多問了黃男兩句,黃男為證明自己清 白,竟在大馬路上將全身脫個精光,除讓警方錯愕外,也引起一旁路 人側目,警方雖感錯愕,仍耐心仔細將可疑處一一查明。 《蘋果》記 者騎車行經路口發現黃男突兀的將衣服脫光,立即將過程拍下並待黃 男將衣服穿上後上前詢問。警方表示,當天發現黃男交通違規,遂立 即上前將他攔下。黃男拿出證件供查時,態度起先鎮定,但口中一直 要求: 「可以快點嗎?我跟房東有約」讓人感覺黃男有心虛的感覺。 加上查打資料發現黃男不久前才剛因毒品罪假釋出獄,臉上有吸毒後 易生的爛瘡,手上也有針孔的痕跡,機車踏板上又有數包物品,才會 在黃男同意下查看他身上及車上的物品。黃男解釋咖啡包是他之前去 32.

(43) 旅館住時順手帶走的,裝有液體的瓶子則是工作用消毒水;由於警方 並未在黃男身上及車上找到明確違法的事證,除要求他趕緊將衣服穿 上,否則將依妨害風化送辦外,也告誡他以後別再未依兩段式左轉而 交通違規後讓其離去。 斷詞後: 新北市(Nc) 一(Neu) 名(Nf) 黃姓(Nb) 男子(Na) 上(Ng) 周三(Nb) 晚間(Nd) 8時(Nd) 許(Neqb) 騎車(VA) 行經(VCL) 板橋(Nc) 縣民 (Na) 大道(Na) 與(Caa) 民權(Na) 路口(Nc) 未(D) 依(P) 路口(Nc) 機車(Na) 須(D) 兩段式(A) 左轉(VA) 而(Cbb) 逕行(D) 左轉(VA) 至 (Caa) 民權路(Na) 正巧(D) 被(P) 停(VHC) 一(Neu) 旁(Ncd) 停 (VHC) 等(Cab) 紅燈(Na) 的(DE) 板橋(Nc) 分局(Nc) 警備隊(Na) 警 員(Na) 發現(VE) 將(P) 他(Nh) 攔下(VC) 盤查(VC) 未料(VK) 黃男 (Nb) 下車(VA) 出示(VC) 證件(Na) 供(VF) 查(VE) 時(Ng) 卻(D) 疑因(Na) 自己(Nh) 剛(D) 假釋(VB) 出獄(VA) 擔心(VK) 被(P) 警方 (Na) 誤會(Na) 一時(Nd) 心急(VH) 下(Ng) 竟(D) 在(P) 大(VH) 馬路(Na) 上將(Na) 全身(Nc) 衣服(Na) 脫光(VC) 想(VE) 證明(VE) 自身(Nh) 清白(VH) 黃男(Nb) 突如其來(A) 的(DE) 舉動(Na) 也(D) 讓(VL) 警方(Na) 一(Neu) 度(Nf) 錯愕(VH) 直言(VE) 他(Nh) 實在 (D) 不必(D) 如此(VH) 過程(Na) 中(Ng) 黃男(Nb) 在(P) 一(Neu) 旁(Ncd) 不斷(D) 打電話(VB) 給(VD) 家人(Na) 及(Caa) 房東(Na) 表情(Na) 盡(D) 顯(VK) 不耐(VJ) 警方(Na) 也(D) 表示(VE) 查明 (VE) 無誤(VH) 後(Ng) 會(D) 盡速(Na) 讓(VL) 他(Nh) 離去(VA) 警方(Na) 後來(Nd) 在(P) 機車(Na) 置物箱(Na) 內(Ncd) 發現(VE) 一(Neu) 個(Nf) 咖啡(Na) 包(VC) 及(Caa) 一(Neu) 罐裝(A) 有 (V_2) 液體(Na) 的(DE) 瓶子(Na) 多(D) 問(VE) 了(Di) 黃男(Nb) 兩(Neu) 句(Nf) 黃男(Nb) 為(P) 證明(VE) 自己(Nh) 清白(VH) 竟 (D) 在(P) 大(VH) 馬路(Na) 上將(Na) 全身(Nc) 脫(VC) 個(Nf) 精 光(VH) 除(P) 讓(VL) 警方(Na) 錯愕(VH) 外(Ng) 也(D) 引起(VC) 一(Neu) 旁(Ncd) 路人(Na) 側目(VI) 警方(Na) 雖(Cbb) 感(VK) 錯 愕(VH) 仍(D) 耐心(D) 仔細(VH) 將(P) 可疑處(Na) 查明(VE) 蘋 果(Na) 記者(Na) 騎車(VA) 行經(VCL) 路口(Nc) 發現(VE) 黃男(Nb) 突兀(VH) 的(DE) 將(P) 衣服(Na) 脫光(VC) 立即(D) 將(P) 過程 (Na) 拍下(VC) 並(D) 待(P) 黃男(Nb) 將(P) 衣服(Na) 穿上(VC) 後(Ng) 上前(VA) 詢問(VE) 警方(Na) 表示(VE) 當天(Nd) 發現(VE) 黃男(Nb) 交通(Na) 違規(VA) 遂(D) 立即(D) 上前(VA) 將(P) 他 (Nh) 攔下(VC) 黃男(Nb) 拿出(VC) 證件(Na) 供(VF) 查(VE) 時(Ng) 態度(Na) 起先(D) 鎮定(VH) 但(Cbb) 口(Na) 中(Ng) 一直(D) 要求 33.

(44) (VF) 可以(D) 快點(D) 嗎(T) 我(Nh) 跟(P) 房東(Na) 有約(VH) 讓 (VL) 人(Na) 感覺(Na) 黃男(Nb) 有(V_2) 心虛(VH) 的(DE) 感覺 (Na) 加上(Cbb) 查打(VC) 資料(Na) 發現(VE) 黃男(Nb) 不久(Nd) 前(Ng) 才(Da) 剛(D) 因(Cbb) 毒品罪(Na) 假釋(VB) 出獄(VA) 臉 (Na) 上(Ncd) 有(V_2) 吸毒(VA) 後(Ng) 易(VH) 生(VH) 的(DE) 爛 瘡(Na) 手(Na) 上(Ng) 也(D) 有(V_2) 針孔(Na) 的(DE) 痕跡(Na) 機車(Na) 踏板(Na) 上(Ng) 又(D) 有數(VH) 包(VC) 物品(Na) 才 (Da) 會(D) 在(P) 黃男(Nb) 同意(VK) 下(Ng) 查看(VE) 他(Nh) 身 (Na) 上(Ncd) 及(Caa) 車(Na) 上(Ncd) 的(DE) 物品(Na)黃男(Nb) 解釋(VE) 咖啡(Na) 包(VC) 是(SHI) 他(Nh) 之前(Ng) 去(VCL) 旅館 (Nc) 住(VCL) 時(Ng) 順手(VH) 帶走(VC) 的(DE) 裝有(VC) 液體 (Na) 的(DE) 瓶子(Na) 則(D) 是(SHI) 工作(Na) 用(P) 消毒水(Na) 由於(Cbb) 警方(Na) 並(D) 未(D) 在(P) 黃男(Nb) 身(Na) 上(Ncd) 及(Caa) 車(Na) 上(Ncd) 找到(VC) 明確(VH) 違法(VA) 的(DE) 事 (Na) 證(Na) 除(P) 要求(VF) 他(Nh) 趕緊(D) 將(P) 衣服(Na) 穿 上(VC) 否則(Cbb) 將(D) 依(P) 妨害(VJ) 風化(Na) 送辦(VC) 外 (Ng) 也(D) 告誡(VF) 他(Nh) 以後(Nd) 別(D) 再(D) 未(D) 依(P) 兩段式(A) 左轉(VA) 而(Cbb) 交通(Na) 違規(VA) 後(Ng) 讓(VL) 其 (Nep) 離去(VA) (二) 建立自建語料庫 將斷完詞的詞彙,與原本有的 NTUSD 情緒字典做比對,如果詞彙在 NTUSD 裡面的話就直接新增到自建語料庫,如果沒有在 NTUSD 裡面的話,就必須到教 育部詞典那裡,找出該詞彙的相似詞,拿該詞彙的相似詞再與 NTUSD 做比對, 如果該相似詞有出現在 NTUSD 裡面的的話,就將該詞彙列為與該詞的相似詞一 樣的極性,然後再新增到自建語料庫。 因為要觀察哪些詞彙以及詞性是影響整篇新聞的吸引度高低,因此自建語料 庫有分為兩種,一種是高吸引度語料庫,另外一種是低吸引度語料庫。 接下來就是統計哪些詞性是比較可能會影響吸引度的,然後把該詞性的詞彙. 34.

(45) 一一列出來,可以幫助報家能夠參考這些詞彙,適時的運用,達到閱聽者想要看 的程度,以及哪些詞彙可能會影響整篇新聞的吸引度,盡量不要用到那些詞彙。 因為同一個意思,或許很多詞彙都可以用,但是往往就是寫的最吸引的詞彙才可 能會影響整個吸引度的關鍵。 (三) 計算收集字作為特徵詞 由第一步中文斷詞完之後,收集到的詞彙進行字頻的統計,經過正規化頻率 (TF)以及 TF*IDF 計算後,得知每一篇新聞的關鍵字。 其中 TF、IDF、TF*IDF 公式如 p13、p14 所示。公式(1)中的𝑛𝑖,𝑗 為斷詞後每 一個詞彙所出現的個數,∑𝑘 𝑛𝑘,𝑗 為每一個詞彙頻率的加總,t𝑓𝑖,𝑗 為每一篇斷詞後詞 彙的正規化頻率(TF);公式(2)中 log 以 10 為底,|𝐷|設為 500,因為本研究使用 500 篇蘋果新聞,|{𝑗: 𝑡𝑖 𝜖𝑑𝑗 }|為每一篇斷完詞彙在這 500 篇蘋果新聞內文中所出現 的次數;公式(3)是將公式(1)及(2)的結果相乘,得到的結果可以作為新聞撰寫策 略使用。. 35.

(46) 第四章 實驗結果與分析. 第一節 抓取 facebook 上蘋果新聞資料 經過臉書所提供的開發者人員,可以方便快速的抓取想要的資料。每天的新 聞好幾百則,如果是利用人工的方式,必須花上好幾天的時間去整裡想要的資料。 所以在科技資訊進步的時代,必須在有效的時間內,抓取有用的資料,來幫助作 研究。所以必須有自動化的方式,能夠一次抓取想要的資料。 本研究因為是做新聞吸引度的極性分析,所以必須抓取新聞內文的部分,但 是單單只有抓取內文是不夠的,因為要把所抓取下來的新聞,要分出高吸引度以 及低吸引度,所以必須要有方法,可以去佐證是高吸引度或低引度,所以我想到 利用 facebook 的讚數來當作佐證的證據。所以抓取下來的資料裡面有包含:新聞 內文、新聞讚數、新聞標題、新聞的分享數、新聞的日期以及時間及新聞的留言 數。不過最主要的是要看讚數以及內文的部分。 本研究抓取新聞為 500 篇,抓取一個禮拜的分量做為本研究的範本,來做為 本研究的實驗結果及分析。. 36.

(47) 圖 15 抓取 facebook 上的資料 上圖 15 可以發現有六個欄位分別為:1.樣本編號 2.日期 3.貼文時間 4.文章日 期時間 5.新聞標題 6.按讚數。. 37.

(48) 圖 16 抓取新聞內文. 上圖 16 抓取整篇新聞的內文,因為之後要進行斷詞的部分,所以必須抓取 整篇的內文。. 38.

(49) 第二節 內文進行斷詞 經過上述的抓取內文之後,就必須將內文開始進行斷詞,因為實驗結果的 目的就是想要找出哪些詞彙是可能會影響整篇內文的吸引度。所以就必須到中 研院斷詞系統,進行內文斷詞。運用此系統的主要原因是目前中文斷詞系統已 經做的相當完善,可以準確且非常詳細分析本次實驗資料的所有詞性,本研究 經由中研院斷詞系統後,得以順利的的進行後續分析,分析出新聞高低吸引度 的詞彙,然後找出什麼詞性會影響整篇新聞的吸引度。. 圖 17 新聞內文進行斷詞. 39.

(50) 第三節 新增高吸引度與低吸引度語料庫以及擴充字典 將每一篇新聞內文斷完詞之後開始進行比對的動作,因為是做新聞的情感分 析,在現有的 NTUSD 裡面,不一定會有新聞情感的詞彙,那麼在這個時候,就 必須開始擴充屬於新聞的語料庫。 本研究因為是做高低吸引度的分析與探討,所以會自建兩個語料庫,一個為 高吸引度語料庫,另一個為低吸引度語料庫。把 500 篇新聞,每篇新聞的讚數做 一個加總平均,大於 1934 為高吸引度,低於 1934 為低吸引度,標準差值為 41.61。 在高低吸引度語料庫裡面,包含了有原本在 NTUSD 裡面所出現的詞彙,且 新增了屬於新聞的詞彙。 本研究擴充新聞語料庫將以教育部重編國語辭典修訂本做為輔助,將新聞用 辭的詞彙輸入到教育部重編國語辭典修訂本裡面,那麼就會出現相似詞與相反詞。 如果相似詞的詞彙有出現在 NTUSD 裡面,就將原詞彙歸類成與相似詞一樣的極 性,並且新增到本研究增列新聞語料庫裡面。. 40.

(51) 圖 18 教育部重編國語辭典修訂本輸出結果. 圖 19 NTUSD 負向詞彙. 41.

(52) 圖 20 NTUSD 正向詞彙. A.. 高吸引度詞彙(節錄) 表 4 高吸引度所用的詞彙以及極性(節錄) 詞彙. 極性. 養(VC). 正向. 罹患 (VJ). 負向. 下垂 (VH). 負向. 肥大 (VH). 負向. 奈米型(A). 負向. 沒有(D). 負向. 重要 (VH). 正向. 表揚(VC). 正向. 壓力(Na). 負向. 陰霾(Na). 負向. 不得了(VH). 正向. 輕生(VA). 負向. 義務(Na). 正向. 眼淚(Na). 負向. 沒地位(A). 負向 42.

(53) 我們可以從表 4 發現負向偏多,由此表可以為方法二帶出一點端倪,可能蘋 果新聞知道現代人喜歡看負面新聞,所以撰寫的新聞負面新聞偏多,所以可以看 出高吸引度文章裡面,負向偏多。且可以經由表 4 發現,負向詞彙在高吸引度詞 彙表中佔了 255 個,而正向詞彙在高吸引度詞彙表中佔了 142 個,所以負向詞彙 佔整個高吸引度詞彙表為 64%,正向詞彙佔整個高吸引度詞彙表為 36%。. B.. 低吸引度詞彙(節錄) 表 5 低吸引度所用的詞彙以及極性(節錄) 詞彙. 極性. 去世(VH). 負向. 參與(VC). 正向. 密謀(VF). 負向. 救(VC). 負向. 自稱為(VG). 負向. 單獨(D). 負向. 超過(VJ). 負向. 逮捕(VC). 負向. 忽略(VJ). 負向. 危險(VH). 負向. 歇斯底里(VH). 負向. 告誡(VF). 負向. 防範(VE). 負向. 傷口(Na). 負向. 發炎(VH). 負向. 我們可以從表 5 發現負向偏多,由此表可以為方法二帶出一點端倪,可能蘋 果新聞知道現代人喜歡看負面新聞,所以撰寫的新聞負面新聞偏多,所以可以看 出低吸引度文章裡面,負向偏多。且可以經由表 5 發現,負向詞彙在低吸引度詞 彙表中佔了 332 個,而正向詞彙在高吸引度詞彙表中佔了 101 個,所以負向詞彙. 43.

(54) 佔整個高吸引度詞彙表為 76%,正向詞彙佔整個高吸引度詞彙表為 24%。. C.. 本研究擴增的新聞詞彙 本研究擴充之新聞詞彙如表 6 所示。 表 6 擴充新聞詞彙 新聞使用的詞彙(與 NTUSD 詞彙相似). 極性. NTUSD 的詞彙. 陰霾(Na). 負向. 陰鬱. 不得了(VH). 正向. 可靠度. 輕生(VA). 負向. 自殺. 想不開(VH). 負向. 討好. 浸潤(VB). 正向. 討好. 完善(VH). 正向. 完美. 防身(VA). 正向. 保護. 勝(VH). 正向. 勝利. 揭發(VC). 負向. 透露. 慕名而來(VA). 正向. 嚮往. 耐心(D). 正向. 有耐性. 風險(Na). 負向. 危險. 差別待遇(Na). 負向. 不平等. 精英(Na). 正向. 優秀. 打敗(VC). 正向. 戰勝. 寂靜(VH). 負向. 寂寞. 懸掛(VC). 負向. 擔心. 警戒(VA). 負向. 警惕. 嚴禁(VE). 負向. 禁止. 傻眼(VH). 負向. 呆滯. 肥成(VG). 負向. 肥. 風趣(VH). 正向. 幽默. 迷惘(VH). 負向. 迷惑. 珍惜(VJ). 正向. 珍貴. 霸氣(VH). 負向. 專橫. 衝到(VCL). 負向. 衝出. 錯(VH). 負向. 錯誤. 受損(VH). 負向. 受損失. 知名(VH). 正向. 著名. 44.

(55) 轉型(VH). 負向. 改變成. 超愛(Na). 正向. 喜歡. 毆人(Na). 負向. 毆打. 樸實(VH). 正向. 樸素. 春風(Na). 正向. 滿面春風. 幫忙(VC). 正向. 幫助. 垂危(VH). 負向. 危及. 傳播(VC). 負向. 會傳播的. 推崇(VJ). 正向. 敬重. 激情(Na). 正向. 熱情. 抓狂(VH). 負向. 失控. 呵護(VC). 正向. 庇護. 照顧(VC). 正向. 庇護. 老羞成怒(VH). 負向. 大發雷霆. 杜絕(VC). 負向. 阻止. 知悉(VK). 正向. 知道. 解聘(VC). 負向. 解僱. 抱不平(VI). 負向. 打抱不平. 甜蜜蜜(VH). 正向. 甜甜蜜蜜. 猛(VH). 負向. 猛烈. 新(VH). 正向. 新鮮. 爆氣幹譙(Na). 負向. 幹譙. 沒有通知(D). 負向. 未被通知. 隱忍(VJ). 負向. 忍耐. 根本(D). 負向. 根本就. 痛毆(VC). 負向. 毆打. 軟趴趴(VH). 正向. 柔軟. 參與(VC). 正向. 參加. 單獨(D). 負向. 孤單. 攔截(VC). 負向. 阻攔. 關切(VJ). 正向. 關心. 礙於(VJ). 負向. 有礙. 譁然(VH). 負向. 吵鬧. 名氣(Na). 正向. 有名. 帥氣(VH). 正向. 英俊. 抱不平(VI). 負向. 打抱不平. 蠢豬(Na). 負向. 笨豬. 45.

(56) D. . 尖銳化(VHC). 負向. 尖銳. 淒淒慘慘(VH). 負向. 悽慘. 詐欺(VC). 負向. 欺騙. 瘦弱(VH). 負向. 消瘦. 意味濃厚(VH). 負向. 意味深長. 小心翼翼(VH). 正向. 小心謹慎. 致歉(VB). 負向. 道歉. 想念(VJ). 負向. 牽掛. 止不住(VL). 負向. 抑制. 欠一屁股(D). 負向. 欠錢. 拖油瓶(Na). 負向. 累贅. 起疑(VH). 負向. 疑心. 粗勇(Nb). 正向. 強壯. 開罰(VC). 負向. 處罰. 偷吃(VC). 負向. 出軌. 墊背(Na). 正向. 犧牲. 躲起來(VA). 負向. 躲藏. 溝通(VC). 正向. 協調. 標榜(VE). 正向. 稱讚. 典範(Na). 正向. 規範. 璀璨(VH). 正向. 鮮豔. 脾氣差(VH). 負向. 壞脾氣. 退化(VHC). 負向. 衰退. 勸說(VF). 負向. 勸告. 割掉(VC). 負向. 割斷. 人品(Na). 正向. 品行. 無辜(VH). 正向. 無罪. 汙衊(VC). 負向. 歪曲. 喧擾(VA). 負向. 吵雜. 計算出哪些詞性是會影響新聞內文撰寫 高吸引度詞性 表 7 計算高吸引所有詞彙出現的詞性機率 DK. 1個. 0.002. Ncd. 1個. 0.002. NF. 1個. 0.002. 46.

(57) Nh. 2個. 0.005. VCL. 2個. 0.005. VI. 3個. 0.007. A. 4個. 0.010. VB. 4個. 0.010. VF. 5個. 0.012. VL. 5個. 0.012. VHC. 7個. 0.017. VE. 16 個. 0.040. VA. 17 個. 0.043. D. 18 個. 0.046. VK. 20 個. 0.051. VJ. 27 個. 0.069. Na. 60 個. 0.153. VC. 78 個. 0.199. VH. 120 個. 0.315. 可以從表 7 可以看出,一篇高吸引度的新聞,所使用的詞彙當中,如果 他的詞性是 VH 的詞彙,會影響到新聞的撰寫。. . 低吸引度詞性 表 8 計算低吸引所有詞彙出現的詞性機率 VG. 1個. 0.002. VCL. 1個. 0.002. Dfa. 1個. 0.002. A. 2個. 0.004. NB. 2個. 0.004. VL. 3個. 0.004. VI. 4個. 0.009. VB. 5個. 0.011. VF. 8個. 0.018. VHC. 10 個. 0.023. VE. 13 個. 0.030. D. 14 個. 0.032. VK. 18 個. 0.042. VJ. 29 個. 0.068. 47.

(58) VA. 35 個. 0.082. NA. 63 個. 0.147. VC. 72 個. 0.169. VH. 145 個. 0.340. 可以從表 8 可以看出,一篇高吸引度的新聞,所使用的詞彙當中,如果 詞性是 VH 的詞彙,將會影響到新聞的撰寫。 上述做出來的實驗結果,可以發現到東莞台商子弟學校的老師吳建華 (www.td-school.org.cn/3ws0608/edit/文宣編輯:新聞寫作.ppt)他教授的課程: 文宣編輯與行銷課程中可以發現,吳老師所說的新聞寫作技巧中說到,新聞 報導使用的動詞、名詞較多,形容詞、副詞較少(如圖 21)。. 圖 21 新聞寫作之寫作技巧(ref:吳建華老師之新聞寫作技巧) 如果不是寫新聞內文的話,探討一般小說類之寫作技巧如下。參考巴哈姆特. 48.

(59) 作家亞蘇之資料,寫不同題材的作品,在人物描述上一定要做出差異。以東方小 說為例,寫東方古代小說最大的優勢,就是「所有的」中文「動詞」都能夠輕易 的使用,動詞變化絕對是極大的優勢,例如古時候的妝容、強調寫意美與神態美 的情況會多過於形容體態或是實際的容貌,由此顯示中文寫作上動詞之重要性。. E.. 高吸引度(VH)用的詞彙 本研究高吸引度(VH)用的詞彙如下所示:. 下垂(負向)、肥大(負向)、重要(正向)、不得了(正向)、想不開(負向)、福氣(正 向)、幸福(正向)、心酸(負向)、獨立(正向)、完善(正向)、敗(負向)、健康(正 向)、突出(正向)、勝(正向)、獲勝(正向)、高傲(負向)、不斷(負向)、偉大(正 向)、詳細(正向)、合作(正向)、假(負向)、莽撞(負向)、親密(正向)、可怕(負 向)、可愛(正向)、寂靜(負向)、失敗(負向)、自豪(正向)、相反(負向)、清晰(正 向)、不佳(負向)、不適(負向)、不切實際(負向)、過世(負向)、協力(正向)、安 全(正向)、傻眼(負向)、隨便(負向)、不道德(負向)、清潔(正向)、無奈(負向)、 怒(負向)、狼藉(負向)、傷心(負向)、爆破(負向)、不幸(負向)、罹難(負向)、 殘酷(負向)、爆炸(負向)、僵持(負向)、懊悔(負向)、華麗(正向)、風趣(正向)、 腦弱(負向)、低潮(負向)、順利(正向)、樂觀(正向)、沮喪(負向)、迷惘(負向)、 卑微(負向)、霸氣(負向)、慢(負向)、沒關係(負向)、錯(負向)、受損(負向)、 突發(負向)、知名(正向)、不便之處(負向)、轉型(負向)、嚇人(負向)、安安穩 49.

(60) 穩(正向)、快快樂樂(正向)、痛(負向)、溫文儒雅(正向)、標緻(正向)、樸實(正 向)、垂危(負向)、成功(正向)、不足(負向)、足夠(正向)、憤(負向)、真實(正 向)、平靜(正向)、哽咽(負向)、抓狂(負向)、悲傷(負向)、受害(負向)、酒醉(負 向)、老羞成怒(負向)、嗆(負向)、有種(負向)、超爽(正向)、憂心(負向)、重傷 (負向)、發狂(負向)、骨折(負向)、束手無策(負向)、清秀(正向)、情不自禁(正 向)、可惜(負向)、戀愛(正向)、甜蜜蜜(正向) 、圓滿(正向)、猛(負向)、新(正 向)、失調(負向)、無力(負向)、容易(正向)、充分(正向)、受驚(負向)、失望(負 向)、狼狽(負向)、過分(負向)、一面倒(負向)、可笑(負向)、舒服(正向)、大方 (正向)、愚蠢(負向)、軟趴趴(正向)、過量(負向). F.. 低吸引度(VH)詞彙 本研究低吸引度(VH)用的詞彙如下所示:. 去世(負向)、危險(負向)、歇斯底里(負向)、發炎(負向)、不易(負向)、充足(正 向)、粗暴(負向)、病逝(負向)、消瘦(負向)、倒店(負向)、忍無可忍(負向)、奢 華(負向)、盡興(正向)、逗趣(正向)、免費(正向)、潰爛(負向)、氣憤(負向)、 歡樂(正向)、尷尬(負向)、誠摯(正向)、光明正大(正向)、假惺惺(負向)、譁然 (負向)、純潔(正向)、狂妄(負向)、完蛋(負向)、熱忱(正向)、優秀(正向)、聰 明(正向)、大摳呆(負向)、故障(負向)、聰慧(正向)、早逝(負向)、憤慨(負向)、 驚醒(負向)、不好意思(負向)、薄弱(負向)、過量(負向)、激動(負向)、浪漫(正 50.

(61) 向)、幸運(正向)、沉重(負向)、有趣(正向)、徬徨(負向)、無意義(負向)、緊急 (負向)、混亂(負向)、重大(正向)、帥氣(正向)、堅決(正向)、精緻(正向)、不 耐煩(負向)、積極(正向)、進取(正向)、狼狽為奸(負向)、燦爛(正向)、恐怖(負 向)、不肖(負向)、分崩離析(負向)、淒淒慘慘(負向)、艱難(負向)、荒謬(負向)、 愁眉苦臉(負向)、心有不甘(負向)、瘦弱(負向)、疲憊(負向)、意味濃厚(負向)、 嚴密(正向)、失血(負向)、熱烈(正向)、謙虛(正向)、雙喜臨門(正向)、小心翼 翼(正向)、不得已(負向)、生氣(負向)、嚴格(負向)、通貨膨脹(負向)、自由(正 向)、好奇(正向)、不負責任(負向)、迅速(正向)、瘋狂(負向)、甜蜜(正向)、詭 異(負向)、毛骨悚然(負向)、破裂(負向)、開心(正向)、成長(正向)、懂事(正向)、 主動(正向)、超現實(負向)、緩慢(負向)、起疑(負向)、明顯(正向)、無知(負向)、 莫名其妙(負向)、暴怒(負向)、出軌(負向)、起疑心(負向)、呆(負向)、曖昧(負 向)、頻繁(負向)、亂搞(負向)、合理(正向)、受傷(負向)、發燒(負向)、不適(負 向)、身亡(負向)、幽默(正向)、努力(正向)、患得患失(負向)、璀璨(正向)、不 便(負向)、脾氣差(負向) 、孤僻(負向)、想不開(負向)、變態(負向)、平安(正 向)、包藏禍心(負向)、正確(正向)、無奈(負向)、值得(正向)、無辜(正向)、自 私(負向)、昏迷(負向)、不睦(負向)、正常(正向)、惡劣(負向)、複雜(負向)、 受損(負向)、傷天害理(負向)、破碎(負向)、細緻(正向)、稀薄(負向)、頭暈(負 向)、惡化(負向)、斷裂(負向)、邪惡(負向)、猥褻(負向)、倒閉(負向)、失業(負 向)、輕率(負向)、激烈(負向)、進退兩難(負向)、瞎眼(負向) 51.

(62) 從高吸引度 VH 裡面可以發現"過世"這個詞彙與低吸引度 VH 裡面"去世"這 個詞彙兩者是相似詞,但是如果使用"過世”這個詞的話,可以發現得到的讚數是 比使用"去世"的讚數來的高,所以如果要用"去世"這個詞彙的話,新聞記者可以 試著用"過世”這個詞彙,或許可以提高吸引度來吸引閱聽者。. G.. 擴充高吸引度語料庫的準確率 從隨機新聞當中,隨機抽 20 篇高吸引度新聞做測試,目的為了看出本研究所. 建立的高吸引度語料庫的準確度為何。本研究會先計算高吸引度文章裡頭,平均 一篇出現幾個高吸引度詞彙(自建語料庫),實驗結果顯示,平均一篇大概會有 16 個詞彙會出現在自建語料庫裡。 本研究提出,三個規則以便判斷一篇新聞是否為高吸引度文章,以下為三個 步驟: 1.. 如果高吸引度詞彙數>平均一篇高吸引度詞彙數,則判斷為高吸引度文章。. 2.. 低吸引度詞彙數<高吸引度詞彙數,則判斷為高吸引度文章。. 3.. 如果高吸引度數並未大於平均一篇高吸引度詞彙數,但低引度詞彙數為 0 或. 者小於高吸引度詞彙數,則判斷為高吸引度文章。. 52.

(63) 表 9 高吸引度實驗結果 新聞. 高吸引度詞彙 低吸引度詞彙 平均一篇高吸. 實驗結果. 數. 數. 引度詞彙數. 1. 17. 0. 16. 是. 2. 22. 3. 16. 是. 3. 10. 0. 16. 是. 4. 26. 5. 16. 是. 5. 21. 1. 16. 是. 6. 31. 6. 16. 是. 7. 23. 2. 16. 是. 8. 27. 3. 16. 是. 9. 33. 4. 16. 是. 10. 27. 3. 16. 是. 11. 11. 15. 16. 否. 12. 7. 11. 16. 否. 13. 16. 1. 16. 是. 14. 19. 2. 16. 是. 15. 5. 10. 16. 否. 16. 21. 4. 16. 是. 53.

(64) 17. 13. 19. 16. 否. 18. 23. 2. 16. 是. 19. 9. 9. 16. 否. 20. 22. 1. 16. 是. 從表 9 當中可以發現紅色部分,總共有五筆資料是有問題的,從這些錯誤資 料當中可以發現,雖然高吸引度新聞使用低吸引度詞彙數偏多,但可以從這些低 詞彙當中發現負向極性偏多,可以從圖斯勒(Marc Trussler)和索羅卡(Stuart Soroka)這兩位學者指出,人們會偏好負向新聞較多,所以才會導致資料錯誤,雖 然使用低吸引度詞彙,卻一樣可以達到高吸引度。本研究高吸引度之準確率 為:(20-5)/20,為 75%。其中分子為 20 篇新聞當中扣掉錯誤資料 5 篇,分母為隨 機抽樣的 20 篇新聞。. H.. 擴充低吸引度語料庫的準確率 從隨機新聞當中,隨機抽 20 篇低吸引度新聞做測試,目的為了看出本研究所. 建立的低吸引度語料庫的準確度為何。本研究會計算低吸引度文章裡頭,計算平 均一篇出現幾個低吸引度詞彙(自建語料庫),實驗結果顯示,平均一篇大概會有 11 個詞彙會出現在自建語料庫裡。 會有三個規則會去判斷,一篇新聞是否為低吸引度文章,以下為三個步驟: 1. 如果低吸引度詞彙數>平均一篇低吸引度詞彙數,則判斷為低吸引度文章。 54.

(65) 2.. 低吸引度詞彙數>高吸引度詞彙數,則判斷為低吸引度文章。. 3.. 如果低吸引度數並未大於平均一篇低吸引度詞彙數,但高引度詞彙數為 0 或. 者小於低吸引度詞彙數,則判斷為低吸引度文章。 表 10 低吸引度實驗結果 新聞. 高吸引度詞彙 低吸引度詞彙 平均一篇低吸. 實驗結果. 數. 數. 引度詞彙數. 1. 2. 15. 11. 是. 2. 4. 19. 11. 是. 3. 12. 7. 11. 否. 4. 1. 16. 11. 是. 5. 3. 21. 11. 是. 6. 7. 32. 11. 是. 7. 13. 3. 11. 否. 8. 17. 7. 11. 否. 9. 3. 14. 11. 是. 10. 5. 27. 11. 是. 11. 13. 3. 11. 否. 12. 2. 17. 11. 是. 13. 1. 13. 11. 是. 55.

(66) 14. 4. 25. 11. 是. 15. 3. 19. 11. 是. 16. 11. 2. 11. 否. 17. 4. 21. 11. 是. 18. 17. 11. 11. 否. 19. 5. 27. 11. 是. 20. 3. 25. 11. 是. 從表 10 當中可以發現紅色部分,總共有六筆資料是有問題的,從這些錯誤資 料當中可以發現,雖然低吸引度新聞使用高吸引度詞彙數偏多,但可以從這些低 詞彙當中發現正向極性偏多,可以從圖斯勒(Marc Trussler)和索羅卡(Stuart Soroka)這兩位學者指出,人們會偏好負向新聞較多,所以才會導致資料錯誤且導 致文章為低吸引度。本研究高吸引度之準確率為:(20-6)/20,為 70%。其中分子 為 20 篇新聞當中扣掉錯誤資料 6 篇,分母為隨機抽樣 20 篇的新聞。. 第四節 TF-IDF 在新聞內文裡面的關鍵字 從高吸引度文章當中,去看閱聽者是比較偏好負面新聞或者正向新聞,所以 利用 TF-IDF 的方式,取出每篇文章當中前五個的關鍵詞,然後看這五個是正向詞 偏多或者負向詞偏多,如果正向詞偏多,就把他歸類為正向新聞,如果是負向詞 偏多,就把他歸類為負向新聞。. 56.

參考文獻

相關文件

學生有異議,須於兩週 內提出相關證明文件向 負責助教辦理銷假或更 正作業。.

 依序填入該學生社團負責人之相關資訊,並於下方

正向成就 (positive accomplishment) 正向目標 (意義) (positive purpose) 正向健康 (positive health).. Flourish: A visionary new understanding of happiness

及發揮其性格強項 展現學生長處,增強 學生歸屬感,提升社

「光滑的」邊界 C。現考慮相鄰的 兩個多邊形的線積分,由於共用邊 的方向是相反的,所以相鄰兩個多

只能用Windows的DIB或BMP檔 24bit full

本地幼稚園-半日制 半日制 半日制 半日制 本地幼稚園 本地幼稚園 本地幼稚園 本地幼稚園-全日制 全日制 全日制 全日制 總學生人數 總學生人數

然後,他在同樣的器皿中放入另外一隻大白 鼠,在它掙扎了 5分鐘左右的時候,放入一