新增高吸引度與低吸引度語料庫以及擴充字典

第四章實驗結果與分析

將每一篇新聞內文斷完詞之後開始進行比對的動作，因為是做新聞的情感分析，在現有的 NTUSD 裡面，不一定會有新聞情感的詞彙，那麼在這個時候，就必須開始擴充屬於新聞的語料庫。

本研究因為是做高低吸引度的分析與探討，所以會自建兩個語料庫，一個為高吸引度語料庫，另一個為低吸引度語料庫。把 500 篇新聞，每篇新聞的讚數做一個加總平均，大於 1934 為高吸引度，低於 1934 為低吸引度，標準差值為 41.61。

在高低吸引度語料庫裡面，包含了有原本在 NTUSD 裡面所出現的詞彙，且新增了屬於新聞的詞彙。

本研究擴充新聞語料庫將以教育部重編國語辭典修訂本做為輔助，將新聞用辭的詞彙輸入到教育部重編國語辭典修訂本裡面，那麼就會出現相似詞與相反詞。

如果相似詞的詞彙有出現在 NTUSD 裡面，就將原詞彙歸類成與相似詞一樣的極性，並且新增到本研究增列新聞語料庫裡面。

圖 18 教育部重編國語辭典修訂本輸出結果

圖 19 NTUSD 負向詞彙

圖 20 NTUSD 正向詞彙

我們可以從表 4 發現負向偏多，由此表可以為方法二帶出一點端倪，可能蘋

佔整個高吸引度詞彙表為 76%，正向詞彙佔整個高吸引度詞彙表為 24%。

轉型(VH) 負向改變成

尖銳化(VHC) 負向尖銳

Nh 2 個 0.005

VA 35 個 0.082

NA 63 個 0.147

VC 72 個 0.169

VH 145 個 0.340

可以從表 8 可以看出，一篇高吸引度的新聞，所使用的詞彙當中，如果詞性是 VH 的詞彙，將會影響到新聞的撰寫。

上述做出來的實驗結果，可以發現到東莞台商子弟學校的老師吳建華 (www.td-school.org.cn/3ws0608/edit/文宣編輯：新聞寫作.ppt)他教授的課程:

文宣編輯與行銷課程中可以發現，吳老師所說的新聞寫作技巧中說到，新聞報導使用的動詞、名詞較多，形容詞、副詞較少(如圖 21)。

圖 21 新聞寫作之寫作技巧(ref:吳建華老師之新聞寫作技巧)

如果不是寫新聞內文的話，探討一般小說類之寫作技巧如下。參考巴哈姆特

作家亞蘇之資料，寫不同題材的作品，在人物描述上一定要做出差異。以東方小

穩(正向)、快快樂樂(正向)、痛(負向)、溫文儒雅(正向)、標緻(正向)、樸實(正

向)、幸運(正向)、沉重(負向)、有趣(正向)、徬徨(負向)、無意義(負向)、緊急

從高吸引度 VH 裡面可以發現"過世"這個詞彙與低吸引度 VH 裡面"去世"這個詞彙兩者是相似詞，但是如果使用"過世”這個詞的話，可以發現得到的讚數是比使用"去世"的讚數來的高，所以如果要用"去世"這個詞彙的話，新聞記者可以試著用"過世”這個詞彙，或許可以提高吸引度來吸引閱聽者。

G. 擴充高吸引度語料庫的準確率

從隨機新聞當中，隨機抽 20 篇高吸引度新聞做測試，目的為了看出本研究所建立的高吸引度語料庫的準確度為何。本研究會先計算高吸引度文章裡頭，平均一篇出現幾個高吸引度詞彙(自建語料庫)，實驗結果顯示，平均一篇大概會有 16 個詞彙會出現在自建語料庫裡。

本研究提出，三個規則以便判斷一篇新聞是否為高吸引度文章，以下為三個步驟:

1. 如果高吸引度詞彙數>平均一篇高吸引度詞彙數，則判斷為高吸引度文章。

2. 低吸引度詞彙數<高吸引度詞彙數，則判斷為高吸引度文章。

3. 如果高吸引度數並未大於平均一篇高吸引度詞彙數，但低引度詞彙數為 0 或者小於高吸引度詞彙數，則判斷為高吸引度文章。

表 9 高吸引度實驗結果

17 13 19 16 否詞彙當中發現負向極性偏多，可以從圖斯勒(Marc Trussler)和索羅卡(Stuart Soroka)這兩位學者指出，人們會偏好負向新聞較多，所以才會導致資料錯誤，雖

2. 低吸引度詞彙數>高吸引度詞彙數，則判斷為低吸引度文章。

14 4 25 11 是詞彙當中發現正向極性偏多，可以從圖斯勒(Marc Trussler)和索羅卡(Stuart Soroka)這兩位學者指出，人們會偏好負向新聞較多，所以才會導致資料錯誤且導

在文檔中利用臉書資訊探討網路新聞的吸引度及極性分析 (頁 50-66)