第一章 緒論
1.1 研究動機
因為網路科技的發達,藉著網路資訊傳遞速度快,使用者經常在社群媒體上 閱讀文章。在獲得新聞資訊方式上,已經從傳統紙本報紙轉移到線上網路平台,
因此,使用者能夠接觸到的國內外新聞數量,是傳統報紙的好幾倍。為了讓使用 者搶先得知新聞事件,越來越多新興報社利用網路媒體傳播新聞資訊,讓使用者 能夠快速方便且大量的取得新聞資訊。新聞報導內容因媒體所要傳遞的目的不同 而有不同類型,像是地震、火災、自然災害報導,傳達的是明確的事件發生,而 敘述性報導,常以描述事情的前因後果。而同一件新聞,在不同的報導文章中可 能呈現出大部分相似,但可能有部分相異或額外資訊的情況。由於報導類型多種 且資訊量的龐大,閱讀者要自己大量閱讀不同報導內容後,獲得不同報社所報導 的完整新聞事實,非常耗費時間和精力。因此,若能針對各報社對於同一新聞事 件不同事實的報導內容,從報導中篩選出不同面向的重要資訊,將新聞事實表格 化,並進行新聞事實自動分析整合,閱讀者瀏覽表格化後的新聞事實資訊,將可 快速得知相關新聞不同面向的相似處與差異處,對於整體新聞事件不再是片段式
閱讀,而能對新聞事件有更全面性的了解。
1.2 研究目的
一則新聞文章中會以各種事實面向詞和其描述字詞來描述新聞事件內容,而 對一個新聞事件,通常不同媒體報社會發出不同的新聞報導內容。本研究考慮對
2
3
不同事實面向詞、關聯詞和描述字詞配對集合,再透過計算事實面向詞、關聯詞 和描述字詞相似度,進行資料整合。
表 2 不同來源的事實面向詞/關聯詞/描述字詞範例
來源 面向詞 關聯詞 描述詞
報導A 火災 造成 6 人死亡、12 人受傷
報導B 火災 造成 6人死亡、12人受伤
報導A
這所監獄規劃 是 容納 1000 名囚犯
報導A
火災 發生 巴拉圭首都亞松森一所
監獄
報導B
火災區域 關押著 130 名囚犯
報導B 火警
發生 亞松森
的塔孔布監獄
以表2 為例,不同報導對於不同事實面向詞、關聯詞和描述字詞,各計算出 其相似度值,大於門檻值的資料進行整合,小於門檻值的資料則並列。在表 2 中兩篇報導事實面向詞各有”火警”和”火災”,關聯詞都為”
發生
”,兩者事實面向 詞和關聯詞相似度因大於門檻值可進行合併,而描述字詞相似度也大於門檻值,可進行描述字詞合併。可得到整合結果如下頁表3 所示,使用者從中可快速得到 對各報導的事實整合資訊。
4
表 3 事實面向詞/關聯詞/描述字詞整合後範例
面向詞 關聯詞 描述詞
事實一 火災 造成 6 人死亡、12 人受
傷
事實二 这所监狱规划
是 容納 1000 名囚犯
事實三
火災區域關押 關押著 130 名囚犯
事實四
火災 發生 巴拉圭首都亞松森一
所監獄
1.3 研究範圍與限制
本論文考慮的新聞資料來源為中文,且給定新聞事件的報導內容涵蓋事實資 訊,且假設對一個新聞事件已蒐集不同資料來源之相關新聞報導內容作為資訊整 合研究的資料來源。
本論文之主要研究工作包括以下部分:
(1) 對給定新聞事件相關的新聞報導文章,擷取出主題相關事實句
(2) 從主題相關事實句中,設計可擷取出事實面向詞和描述字詞配對方法。
(3) 針對事實面向詞和描述字詞配對,設計配對的合併方法。
1.4 論文方法
為了達到上述目的,本論文研究所提出的方法,可以分為二大部分。以下事
5
實面向詞與描述字詞配對簡稱為新聞事實。
在擷取新聞事實方面,本論文首先對每篇新聞報導內容進行自然語言處 理,對報導文章做斷詞、詞性分析、實體識別、語意角色識別和字彙相依性 分析。並使用傳統TF-IDF、TextRank[6]、word2vec[12]等方法擷取關鍵字和 同義字方法,從新聞報導中擷取出候選主題事實句,並擷取出候選句子的特 徵,訓練出事實句分類器,以篩選出與主題相關且敘述完整的句子。接下來 對篩選後的每個句子,運用句子的語法分析結果和本論文所提出的資訊補足 方法,擷取出其中的新聞事實。
而在新聞事實合併方面,我們以兩種方式進行資訊合併,分別是以事實 面向詞為主的合併方式,以及以描述字詞為主合併方式,透過多種不同型態 的新聞事實合併方式,將資訊有效進行整合。
6