• 沒有找到結果。

新聞面向事實自動擷取與整合之研究

N/A
N/A
Protected

Academic year: 2021

Share "新聞面向事實自動擷取與整合之研究"

Copied!
82
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:柯佳伶. 博士. 新聞面向事實自動擷取與整合之研究 Aspect Retrieval and Integration for News Fact. 研究生:林祺傑. 撰. 中華民國 一百零五 年 七 月.

(2) 摘要. 新聞面向事實自動擷取與整合之研究 林祺傑. 網路資訊流通快速,新聞媒體已經從傳統報章雜誌,改以網路平台傳播新聞 資訊,但對同一新聞事件,不同媒體報導內容會有部分相似或相異情況,使用者 需耗費時間和精力去統整新聞事實資訊。因此,本論文提出自動擷取新聞事實資 訊方法,透過擷取報導內文中的主題關鍵詞,挑選出候選主題相關事實句,並以 分類方式,判斷出主題相關事實句。在擷取新聞事實方面,基於主題事實句,使 用自然語言分析結果,設計擷取面向詞、關聯詞、描述詞的事實三元詞組方法。 而在資訊整合方面,同時考慮三元詞組間相似面向和相似描述語意,使用階層式 分群對不同面向事實資訊進行分群,並以漸進式合併方法對相似面向或描述語意 的事實三元詞組進行合併。實驗結果顯示事實句擷取、詞組擷取與合併都達到良 好效果。因此本論文提供的方法能有效自動整合相關報導中的不同面向資訊,讓 使用者對某一新聞事件能有效率獲得各方面事實資訊的瞭解。. 關鍵字:事實句擷取、新聞事實擷取、資訊整合. I.

(3) Abstract. Aspect Retrieval and Integration for News Fact Internet speeds up the flow of information. News media has replaced traditional newspaper and magazines to spread information online in recent years. However, users have to take much time and effort to get exact fact information from the news documents because the news documents collected from different news media have similar content but may also provide additional facts specifically. For solving this problem, we propose a method to automatically extract and integrate fact information of news documents. The candidates of fact sentences are picked out by extracting the keywords of topics from news contents. Then, various features of the candidate sentences are used to perform classification to identify the fact sentences. In order to provide fact information, the triples consisting of facet term, relation term, and description term, are extracted by using a natural language tool on the topic sentences. Then the similarity of the facet terms between two triples is used to cluster the extracted triples by agglomerative hierarchical clustering. For each cluster of triples, we use the incremental method to combine each pair of triples which have similar facet or description terms in order to provide integrated fact information. The result of performance evaluation shows that the methods of fact sentences extraction, triple extraction and combination all get good performance. The proposed approach can effectively integrate facet information from different news documents, which provides users a comprehensive understanding of news documents. keywords:fact sentence extraction、news fact extraction、information integration II.

(4) 誌謝. 感謝柯佳伶教授讓我有這機會進入資料探勘實驗室和同學一起學習、成長, 尤其是老師不只是傳授課業上知識,在生活上也能夠將自身經歷與我們分享,讓 我們能夠改進自己的問題與有勇氣探索未知的世界。感謝柯佳伶、吳宜鴻、林真 伊教授,在口試提供許多寶貴建議,讓論文有修改更完整的方向。 一份完整的論文,需要各位好夥伴的幫助才能完成。感謝實驗室的紹峻學長、 培豪學長、聖池學長、思涵學姊在課業、工作和生活上與我們分享寶貴經驗。感 謝王涵在研究上陪我一起努力完成論文,在生活上分享各種點點滴滴與好吃的美 食。感謝謹安在論文實驗階段給予大量協助,讓我得以順利進行實驗。感謝宸瑋 學弟、怡慧學妹、家儀學妹、之瑄學妹分享在實驗室裡的各種酸甜苦辣與歡笑, 在研究上的建議與參與。感謝在學校外的夥伴們維元、怡安、賀凱、成淳、郁涵、 艾欣、懷平,在準備其他比賽時能夠包涵我在課業上的不便。感謝父母及家人在 我的研究所之路上提供各種未來建議,以及給予生活上各種資源,讓我可以在研 究路上順利地走下去。. 林祺傑 謹識 於國立臺灣師範大學資訊工程研究所 2016 年 7 月 III.

(5) 目錄 摘要 .................................................................... I Abstract ............................................................... II 誌謝 .................................................................. III 目錄 ................................................................... IV 圖目錄 ................................................................. VI 表目錄 ................................................................ VII 第一章 緒論 ............................................................. 1 1.1. 研究動機.................................................................................................................. 1. 1.2. 研究目的.................................................................................................................. 1. 1.3. 研究範圍與限制...................................................................................................... 4. 1.4. 論文方法.................................................................................................................. 4. 第二章 文獻探討 ......................................................... 6 2.1. 關鍵詞擷取.............................................................................................................. 6 事實資訊擷取方法.................................................................................................. 7. 第三章 主題重要詞擷取方法 .............................................. 12 資料前處理............................................................................................................ 12 關鍵字詞擷取........................................................................................................ 14 關鍵字詞擴展........................................................................................................ 16 第四章 重要事實句擷取方法 .............................................. 18 4.1. 產生候選事實重要句子........................................................................................ 19. 4.2. 特徵擷取方法........................................................................................................ 20. 4.3. 建立分類模型........................................................................................................ 26. 第五章 面向詞與描述詞擷取方法 .......................................... 28 IV.

(6) 5.1. 事實三元詞組擷取................................................................................................ 28. 5.2. 三元詞組資訊補足................................................................................................ 30. 第六章 事實三元詞組合併方法 ............................................ 35 6.1. 相似面向語意分群................................................................................................ 35. 6.2. 依相似面向合併.................................................................................................... 37. 6.3. 依相似描述語意合併............................................................................................ 42. 第七章 實驗評估 ........................................................ 46 7.1. 實驗資料................................................................................................................ 46. 7.2. 重要性句子擷取評估............................................................................................ 46. 7.3. 三元詞組擷取評估................................................................................................ 52. 7.4. 新聞事實合併評估................................................................................................ 53. 7.5. 實驗結果總結........................................................................................................ 59. 第八章 結論及未來研究方向 .............................................. 61 8.1. 結論........................................................................................................................ 61. 8.2. 未來方向................................................................................................................ 61. 參考文獻 ............................................................... 63 附錄一. 詞性標記列表 .................................................. 65. 附錄二. 相依性分析之有向邊說明 ........................................ 66. 附錄三. 新聞報導文章 .................................................. 67. 附錄四. 附錄三新聞報導之詞組合併範例過程............................... 72. 附錄五. 附錄三新聞報導之詞組合併結果 .................................. 73. 附錄六. 中文停用詞列表 ................................................ 74. V.

(7) 圖目錄. 圖 圖 圖 圖 圖. 1 2 3 4 5. 巴拉圭監獄火災 6 死 12 傷 新聞................................................................... 12 句子斷詞後結果................................................................................................ 13 詞性標記結果.................................................................................................... 13 相依性分析結果................................................................................................ 13 語意角色標註結果............................................................................................ 14. 圖 圖 圖 圖 圖. 6 鄰居字詞範例.................................................................................................... 15 7 巴拉圭監獄火災 6 死 12 傷 前處理後的新聞............................................... 16 8 重要事實句擷取流程圖..................................................................................... 18 9 巴拉圭監獄火災 6 死 12 傷 新聞.................................................................... 19 10 巴拉圭監獄火災 6 死 12 傷 新聞................................................................. 22. 圖 圖 圖 圖. 11 12 13 14. 圖 圖 圖 圖 圖 圖 圖 圖 圖. 15 面向詞與描述詞擷取處理流程圖.................................................................. 28 16 語意角色標註結果.......................................................................................... 29 17 三元詞組含多個事實資訊範例...................................................................... 30 18 相依性分析結果範例...................................................................................... 31 19 相依性分析結果範例....................................................................................... 32 20 相依性分析結果範例....................................................................................... 33 21 語意角色標註結果範例.................................................................................. 34 22 事實三元詞組合併處理流程.......................................................................... 35 23 新聞報導重要事實句範例.............................................................................. 49. 字詞 TF-IDF 範例 ........................................................................................... 23 句子中的關鍵詞範例...................................................................................... 24 句子中關鍵詞數量範例.................................................................................. 26 自我學習式分類模型建構.............................................................................. 27. 圖 24 新聞報導重要事實句範例.............................................................................. 51 圖 25 句子相依性與語意角色分析結果範例.......................................................... 53. VI.

(8) 表目錄 表 表 表 表 表 表. 1 新聞內文與事實面向詞/關聯詞/描述字詞範例 ............................................... 2 2 不同來源的事實面向詞/關聯詞/描述字詞範例 ................................................ 3 3 事實面向詞/關聯詞/描述字詞整合後範例 ........................................................ 4 4 語意角色標註組合與三元詞組對應表............................................................. 29 5 不同 Type 詞組說明........................................................................................... 37 6 Type1和Type1詞組範例 .................................................................................. 40. 表 表 表 表 表. 7 Type1和Type2詞組範例 .................................................................................. 41 8 Type2和Type2詞組範例 .................................................................................. 41 9 Type4和Type3詞組合併範例 .......................................................................... 44 10 兩類別標記句子數量...................................................................................... 47 11 TextRank 不同參數值之重要句挑選效果 ...................................................... 48. 表 表 表 表. 12 13 14 15. 表 表 表 表 表 表. 16 詞組合併範例一.............................................................................................. 56 17 詞組合併範例二.............................................................................................. 56 18 階層式分群以不同距離門檻值對合併影響結果........................................... 57 19 詞組合併方法之不同相似度門檻值正確率結果.......................................... 58 20 造成詞組合併錯誤範例一.............................................................................. 58 21 造成詞組合併錯誤範例二............................................................................... 59. 新聞報導重要句擷取之 MRR 評估結果....................................................... 50 詞組擷取效果.................................................................................................. 52 三元詞組合併範例.......................................................................................... 54 改變 w 對詞組分群的正確度計算評估結果 ................................................. 55. VII.

(9) 第一章 緒論 1.1. 研究動機 因為網路科技的發達,藉著網路資訊傳遞速度快,使用者經常在社群媒體上. 閱讀文章。在獲得新聞資訊方式上,已經從傳統紙本報紙轉移到線上網路平台, 因此,使用者能夠接觸到的國內外新聞數量,是傳統報紙的好幾倍。為了讓使用 者搶先得知新聞事件,越來越多新興報社利用網路媒體傳播新聞資訊,讓使用者 能夠快速方便且大量的取得新聞資訊。新聞報導內容因媒體所要傳遞的目的不同 而有不同類型,像是地震、火災、自然災害報導,傳達的是明確的事件發生,而 敘述性報導,常以描述事情的前因後果。而同一件新聞,在不同的報導文章中可 能呈現出大部分相似,但可能有部分相異或額外資訊的情況。由於報導類型多種 且資訊量的龐大,閱讀者要自己大量閱讀不同報導內容後,獲得不同報社所報導 的完整新聞事實,非常耗費時間和精力。因此,若能針對各報社對於同一新聞事 件不同事實的報導內容,從報導中篩選出不同面向的重要資訊,將新聞事實表格 化,並進行新聞事實自動分析整合,閱讀者瀏覽表格化後的新聞事實資訊,將可 快速得知相關新聞不同面向的相似處與差異處,對於整體新聞事件不再是片段式 閱讀,而能對新聞事件有更全面性的了解。. 1.2. 研究目的 一則新聞文章中會以各種事實面向詞和其描述字詞來描述新聞事件內容,而. 對一個新聞事件,通常不同媒體報社會發出不同的新聞報導內容。本研究考慮對 1.

(10) 同一事件之多則新聞報導文章,探討如何從這些報導文章中自動擷取出事實面向 詞和描述字詞之配對,以提供對同一事件不同事實面向和其描述內容之資料整 合。 表 1 新聞內文與事實面向詞/關聯詞/描述字詞範例. 新聞標題. 巴拉圭監獄火災 6 死 12 傷 南美洲內陸國家巴拉圭首都亞松森一所監獄 10 日發生火 災,目前已造成 6 人死亡、12 人受傷。這所監獄規劃是容納 1000 名囚犯,但大幅超收,實際關押著近 3000 人。. 新聞內文. 據當地媒體報道,亞松森的塔孔布監獄當天淩晨發生火災, 火災區域關押著 130 名囚犯。一名獄警在救火時喪生,消防 人員滅火後在現場發現 5 具囚犯屍體。火災原因仍待查明, 但從現場初步勘查結果,各種設施符合安全規範。. 事實面向詞/關聯詞/描 述字詞. 火災/造成/6 人死亡、12 人受傷, 這所監獄規劃/是/容納 1000 名囚犯, 火災/發生/巴拉圭首都亞松森一所監獄. 以表 1 為例,其中顯示一則新聞的標題、內文和事實面向配對,其中,”火 災/造成/6 人死亡、12 人受傷”中的”火災”為事實面向詞,”造成”為關聯詞,” 6 人死亡、12 人受傷”為描述字詞,而文章所有的事實面向詞、關聯詞和描述字詞 配對組成一個事實集合。對同一事件之新聞報導可能涵蓋不同事實,各可以找出. 2.

(11) 不同事實面向詞、關聯詞和描述字詞配對集合,再透過計算事實面向詞、關聯詞 和描述字詞相似度,進行資料整合。 表 2 不同來源的事實面向詞/關聯詞/描述字詞範例. 來源. 面向詞. 關聯詞. 描述詞. 報導 A. 火災. 造成. 6 人死亡、12 人受傷. 報導 B. 火災. 造成. 6人死亡、12人受伤. 報導 A. 這所監獄規劃. 是. 容納 1000 名囚犯. 報導 A. 火災. 發生. 巴拉圭首都亞松森一所 監獄. 報導 B. 火災區域. 關押著. 130 名囚犯. 報導 B. 火警. 發生. 亞松森的塔孔布監獄. 以表 2 為例,不同報導對於不同事實面向詞、關聯詞和描述字詞,各計算出 其相似度值,大於門檻值的資料進行整合,小於門檻值的資料則並列。在表 2 中兩篇報導事實面向詞各有”火警”和”火災”,關聯詞都為”發生”,兩者事實面向 詞和關聯詞相似度因大於門檻值可進行合併,而描述字詞相似度也大於門檻值, 可進行描述字詞合併。可得到整合結果如下頁表 3 所示,使用者從中可快速得到 對各報導的事實整合資訊。. 3.

(12) 表 3 事實面向詞/關聯詞/描述字詞整合後範例. 事實一. 面向詞. 關聯詞. 描述詞. 火災. 造成. 6 人死亡、12 人受 傷. 事實二. 这所监狱规划. 是. 容納 1000 名囚犯. 事實三. 火災區域關押. 關押著. 130 名囚犯. 事實四. 火災. 發生. 巴拉圭首都亞松森一 所監獄. 1.3. 研究範圍與限制 本論文考慮的新聞資料來源為中文,且給定新聞事件的報導內容涵蓋事實資. 訊,且假設對一個新聞事件已蒐集不同資料來源之相關新聞報導內容作為資訊整 合研究的資料來源。 本論文之主要研究工作包括以下部分: (1) 對給定新聞事件相關的新聞報導文章,擷取出主題相關事實句 (2) 從主題相關事實句中,設計可擷取出事實面向詞和描述字詞配對方法。 (3) 針對事實面向詞和描述字詞配對,設計配對的合併方法。. 1.4. 論文方法 為了達到上述目的,本論文研究所提出的方法,可以分為二大部分。以下事. 4.

(13) 實面向詞與描述字詞配對簡稱為新聞事實。 在擷取新聞事實方面,本論文首先對每篇新聞報導內容進行自然語言處 理,對報導文章做斷詞、詞性分析、實體識別、語意角色識別和字彙相依性 分析。並使用傳統 TF-IDF、TextRank[6]、word2vec[12]等方法擷取關鍵字和 同義字方法,從新聞報導中擷取出候選主題事實句,並擷取出候選句子的特 徵,訓練出事實句分類器,以篩選出與主題相關且敘述完整的句子。接下來 對篩選後的每個句子,運用句子的語法分析結果和本論文所提出的資訊補足 方法,擷取出其中的新聞事實。 而在新聞事實合併方面,我們以兩種方式進行資訊合併,分別是以事實 面向詞為主的合併方式,以及以描述字詞為主合併方式,透過多種不同型態 的新聞事實合併方式,將資訊有效進行整合。. 5.

(14) 第二章 文獻探討 文字資料整合因為資料呈現非結構化型態,不易進行事實資訊整合。因此本 論文方法主要研究如何從非結構化資料中,擷取資訊表示成結構化資料,進行整 合。以下將對相關研究文獻進行分析探討。 新聞報導文章蘊含許多新聞事實,以事實面向詞、描述字詞與其他附加說明 文字組合成一篇文章,透過瀏覽事實面向詞和描述字詞,可以快速了解文章包含 哪些重要事件,因此如何從文章中擷取出重要字詞,會影響最終表格化結果是否 具有新聞事件代表性。. 2.1. 關鍵詞擷取 傳統 TF-IDF 方法經常使用在擷取關鍵詞。TF-IDF 假設一篇文章中,重要. 關鍵詞有特異性性質,在一篇文章中會重複出現,但在其他篇文章中較少出現, 則可視為該文章中的主要關鍵詞。但此方法適合應用在長文章,例如:新聞、雜 誌文章等。而近年興起的社群媒體中,使用者習慣發表短篇文章,且經常使用縮 寫字和文法錯誤的文字,因此[4]考慮短篇文章中存在少量關鍵詞,TF-IDF 無法 處理短文章、縮寫字和錯字的問題,便以[5]方法做延伸,加入文字詞向量特徵, 利用分群演算法將相似字詞群聚,解決因文章過短和文法錯誤無法擷取關鍵字問 題。 PageRank 方 法 原 是 用 來 擷 取 網 路 中 重 要 節 點 網 站 , TextRrank[6] 運 用 PageRank 的處理概念用來擷取一篇文章中重要關鍵詞,此方法根據連結文章中 6.

(15) 字詞與鄰居字詞的關係,建立一個字詞網絡,字詞對應的節點間以隨機慢走的方 式彼此互相傳遞分數,直到分數收斂為止。此方法需要決定如何建立字詞網絡, 字詞與字詞間的連線權重會影響擷取出的關鍵詞結果。 [9]則是從搜尋引擎的搜尋紀錄中,找出經常出現的語句樣板,像是 birthplace of ___,底線可以填入地名命名實體。因此,若文章中出現此種字詞片段樣式, 能夠以此語言樣板擷取出命名實體關鍵字詞。 目前幾種常見的擷取關鍵詞方法,有計算字詞重要性的 TF-IDF,語句樣板 方法,或是將命名實體當關鍵詞在知識庫查詢,這些方法雖能夠找出文章中關鍵 詞,但是卻無法找出關鍵詞的同義詞或是相關詞,而那些詞卻會影響新聞事實的 擷取效果。 Word2vector[12]提出將字詞以向量形式表示,此方法透過 skip-gram 模型學 習文章中詞彙與詞彙間同時出現的機率值,並使用類神經網路訓練出固定維度的 字詞向量模型,不同於以往使用 bag-of-word 方式來表達字詞特徵,特徵表達限 制在詞彙出現次數表現上。 以向量形式表示的字詞在相似度計算上較傳統 bag-of-word 有更佳的準確度,因此本研究基於文章中已找出的關鍵字詞,計算 文章中其他字詞與關鍵詞相似度,擷取出同義字。. 事實資訊擷取方法 文章中的命名實體常能代表敘述內容的重要語意,以往提出的方法常利用字 典找出命名實體當成主詞或受詞,[2]認為此方式只有當文章中的字詞跟字典詞 7.

(16) 彙相同才能辨識出,而文章常會有錯字,導致字典辨識效率不佳,將造成找回的 命名實體結果個數太少。因此[2]方法結合子字串比對方式和相似度計算方法來 提升命名實體辨識率。此方法雖能精準辨識出文章中的命名實體,但是受限於字 典無法有效快速更新,仍無法辨識出新穎詞彙。 [1]主要目的是從 Wikipedia 的條目文章中之基本資料表格擷取出 RDF。RDF 是表達兩個物件之間的關係,此方法透過外部 DBpedia 知識庫來得知表格中任一 筆條目之基本資料兩欄位間的關係,進而推論此關係到具有相同欄位資料表格的 其他條目資料。但只用此方式進行推論不一定得到正確關係,因此再使用分類方 法來預測判定此關係是否成立。此方法雖然可以找出物件關係,但限定於 Wikipedia 中基本資料表的欄位關係且需要使用外部知識庫,且使用樣板方式做 學習,在新聞更新快速且非結構化資料中,此方法無法有效擷取出新聞事實。 [7]從英文新聞文章和評論中,利用 Wikipedia 外部資源找出存在於文章和 評論裡的實體名詞,再利用傳統詞性標註和字彙相依性分析結果,定義三種簡易 字彙相依性規則,用來擷取出實體名詞的面向詞。此方法使用知識庫為依據,如 果文章中出現不存在知識庫中的名詞,則無法被辨識出該名詞。此外,文章中的 關鍵詞並非一定由單個名詞組成,此方法無法擷取出多個名詞組合的關鍵詞。採 用字彙相依性規則擷取面向詞或描述詞,缺點是字彙相依性關係是一個詞對應到 一個詞的關係,而面向詞和描述詞常會以多個名詞組成,若直接使用相依性規則 擷取面向詞和描述詞,會造成擷取出的字詞不完整。 8.

(17) [11]主要目的為從音樂文章擷取出預先定義好的命名實體類別,並從文章 中的單個句子擷取出兩個命名實體類別之間的事實關係。[11]使用 DBpedia 知 識庫並以 DBpedia Spotlight 工具辨識出文章中存在於 DBpedia 的命名實體和其 類別,再擷取出兩命名實體間的字詞的相依性線,並將相依性線通過的字詞的 詞性當成兩命名實體類別間的關係模板。為避免模板擷取出錯誤資訊,透過從 多篇文章中擷取出模板,選取出經常出現的模板。擷取出模板後,透過 DBpedia Spotlight 工具辨識出新文章中的命名實體,再以模板擷取出兩命名實體間的關 係字詞。 [14][15]以自行定義的 HTML 標籤模板來擷取候選查詢面向字詞,像是 <ul><li>item</li>…</li>模板可擷取網頁中顯示的清單列表,因此定義不同標籤 結構來擷取面向字詞。[14][15]認為面向字詞是重要性高,且常出現的字詞,因 此將查詢字詞透過搜尋引擎進行查詢,從回傳結果中以標籤模板擷取面向字詞。 利用預先定義好的語言模板規則擷取面向字詞,會受限於規則涵蓋範圍 而影響可以找到的面向字詞數量,而且只能從文字句型規則來尋找。而新聞文 章大多是非結構化資料,不同報社可能使用不同詞彙和不同語句結構來表達資 訊,因此對於需以特定字詞結構擷取關鍵詞的語言模板,用來擷取報導內文中 的面向詞和描述詞的適用性低。 [10]以 Twitter 為資料來源,對 Tweet 進行相依性分析,透過相依性分析 結果擷取 Tweet 中的主詞、動詞和受詞作為事實詞組。[10]使用 Stanford NLP 9.

(18) tools 分析 Tweet 內文,以 nsubj 關係擷取出 Tweet 中動詞的主詞部分,以 dobj 關係擷取出動詞的受詞部分,然而相依性分析只能得到單一字詞與單一字詞之 間的關係,若只擷取單一字詞可能無法完整表達主詞、動詞、受詞意思,因此 透過其他用來描述主詞或受詞的相依性有向線,擷取出用來描述主詞、動詞、 受詞的其他描述詞,補足事實詞組的資訊。 在擷取事實資訊中,有些方法使用外部知識庫,但中文知識庫相對於英文 知識庫資源較為缺少。在資訊傳遞快速的媒體中,每天有大量網路用語或新詞出 現,如果知識庫的更新速度太慢,會降低擷取文章中事實資訊的數量,因此本論 文方法不採用外部知識庫。. [3]以英文新聞為資料來源,並以句子為單位,從報導中擷取出重要事實, 透過擷取文章中字詞特徵、句子特徵並設計最佳化函式進行重要句分數計算。該 研究統計使用者在文章中標註的重點句,得知多數重點句子通常落在文章中前 10%位置的句子,因此認為句子位置是判斷重要句的重要特徵。另外,在財經報 導中出現數字的句子通常是重點句,因此句子中是否有數字為一個重要特徵。在 字詞特徵中,該研究認為動詞是重要因素,並將動詞分為對話性動詞和單純動作 性動詞,其中對話性動詞為像是「report」、「mention」、「accuse」等動詞,句子 中出現該動詞可能隱含重要事實,因此作為一重要特徵。擷取特徵後,透過最佳 化函式運算出每項特徵值最佳權重,再透過計算句子分數挑選出前幾名當作事實 10.

(19) 句。 [16]基於新聞報導從報導內文中擷取出主題事實句。該研究認為新聞報導中 應包含「何人」 、 「何地」 、 「何事」 、 「何時」 、 「何故」 、 「如何」六大資訊,結合新 聞標題字詞、句子所包含六大特徵資訊、句子上下文特徵以最佳化函式運算特徵 權重並計算句子分數。該研究統計大多數新聞標題的修辭,得知大多數新聞標題 採用陳述式修辭,並認為標題是新聞報導精髓且陳述式句子較能夠表達事實資訊, 因此基於新聞標題從報導中擷取出主題事實句。句子特徵包含句子在報導中出現 位置、句子長度、句子中字詞與新聞標題字詞相同的字詞數量比例、與六大資訊 相關的命名實體數量特徵。[16]實驗結果顯示新聞標題字詞、句子在報導中位置 特徵在挑選主題事實句中為重要因素。 自動摘要研究中經常以句子為單位進行分析,透過擷取關鍵詞、計數句子中 不同面向詞數量等方法,摘要出各種面向結論。而本研究以字詞為單位進行面向 詞和描述詞擷取,在字詞級別上的分析,能夠擷取出更準確、精煉資訊,但從報 導中較難直接擷取出目標字詞,因此結合重要事實句擷取的相關研究結果,以漸 進式方法先擷取出重要事實句,再基於事實句擷取出目標字詞。. 11.

(20) 第三章 主題重要詞擷取方法 新聞報導的主旨大多可由少數關鍵詞來呈現,如圖 1 所示,整篇報導圍繞 著「火災」 、 「監獄」兩關鍵詞進行描述,若能擷取出這些關鍵詞就能掌握報導的 核心意義,能夠輔助後續方法擷取出新聞中的重要事實資訊。. 圖 1 巴拉圭監獄火災 6 死 12 傷 新聞. 資料前處理 在進行關鍵詞擷取之前,需要先對新聞報導內文和標題進行前處理,包括繁 體轉簡體、斷詞、詞性標註、相依性分析和語意角色標註,以供後續步驟所需資 訊。 <1>繁體轉簡體 本論文採用哈爾濱工業大學社會計算與信息檢索研究中心所研發的「語言技 術平台(LTP)」 ,對新聞報導內文和標題進行前處理,但此平台目前只能分析簡體 文 字 , 因 此 本 論 文 採 用 現 有 繁 體 轉 簡 體 工 具 zhconverter(https://code.google.com/archive/p/java-zhconverter/),將繁體文字轉為 12.

(21) 簡體,進行自然語言分析。 <2>斷詞 斷詞的目的是將句子切成多個有意義的字詞。圖 2 所示為一個句子透過斷詞 處理的結果,原句子為「法航工人罢工取消五分之一航班」,斷詞後,句子切為 多個字詞,每個字詞各有其語意。. 圖 2 句子斷詞後結果. <3>詞性標註 詞性標註是對字詞標記出其對應詞性,圖 3 所示為字詞標註詞性後的結果,. 圖 3 詞性標記結果. 每個詞性標記,各有不同含意,如 j(形容詞)、n(名詞)、v(動詞)、m(數量詞)代表 字詞在該句子中的詞性,各詞性標記意義請參閱附錄一。. 圖 4 相依性分析結果. <4>相依性分析 相依性分析的目的是分析文章中字詞與字詞之間的結構關係。上圖 4 所示為 13.

(22) 一個範例句之相依性分析結果。其中「工人」與「罷工」之間的”SBV”線段代表 「工人」為動詞「罷工」的主詞,而「取消」與「航班」之間的”VOB”線段代表 「航班」為動詞「取消」的受詞,相依性分析結果之有向線意義請參閱附錄二。 <5>語意角色標註 語意角色標註是分析文章中字詞片段間的關係,能夠得知句子中動詞的施行 者和影響對象。此概念與相依性分析中的”SBV”和”VOB”有向線關係類似,但是 相依性分析中”SBV”和”VOB” 有向線關係只能擷取出單個字詞當作施行者或影 響對象,而語意角色標註能夠較完整擷取出字詞片段。下圖 5 所示為對一個範例 句進行語意角色標註分析的結果,其中”A0”的區段代表動詞「取消」的動作施 行者,而”A1”的區段代表動詞「取消」的動作影響。. 圖 5 語意角色標註結果. 關鍵字詞擷取 為了後續說明方便,在此先定義表示符號,以 E 表示所有要進行事實擷取的 新聞事件,而第 i 個新聞事件下會有多則相關新聞報導,以𝑑𝑗 表示第 i 個新聞事 件的第 j 則相關報導,D 表示第 i 個新聞事件下所有相關報導集合。 14.

(23) 為了擷取出報導中與新聞主旨相關的關鍵詞,本論文運用 TextRank[6]演算法 取出報導中關鍵詞,TextRank 是延伸 PageRank 而來,用來取得一篇文章中的關 鍵字詞。. 圖 6 鄰居字詞範例. 對 於 每 篇 新 聞 𝑑𝑗 , 由 上 述 前 處 理 進 行 斷 詞 後 , 我 們 會 先 移 除 停 用 詞 (http://blog.csdn.net/shijiebei2009/article/details/39696571),以文章中每個相異字詞 當成節點,並將文章中每個字詞 w 在原文章出現位置左右取一固定範圍 l,在範 圍內的其他字詞當成字詞 w 的鄰居字詞。以圖 6 範例所示,若 l 為 5,移除雙實 線所指的停用詞後,「航班」字詞的左右鄰居詞分別有「法航,工人,罢工,取消,五 分之一」和「法航,机师,争取,加薪,今天」。由鄰居關係可建構出節點(字詞)與節 點(字詞)之間的有向邊,再將具有鄰居關係的字詞,以它們在𝑑𝑗 中互為鄰居的頻 率當成有向邊上的權重值,將每個節點初始權重值設為一,依每個節點向外的各 邊權重值換算成有向邊對外的機率值,再以原 PageRank 演算法運算。計算出各 字詞結點的重要性值,取出前 k 個字詞當成𝑑𝑗 的報導關鍵詞。 另外,報導文章標題通常包含整篇報導最主要的詞彙,因此本方法將𝑑𝑗 報導 標題進行斷詞後,移除停用詞,其他詞皆直接當成報導的關鍵詞。 合併從報導標題取出的關鍵字以及從內文以 TextRank 找出的關鍵詞,此集 合作為報導𝑑𝑗 的基本關鍵詞集合,並以𝐼𝑗 表示。 15.

(24) 【範例 3-1】關鍵字詞擷取之範例 以圖 7 所示報導為例,結合從 TextRank 擷取的關鍵詞和從報導標擷取出的 關鍵詞,其取出的基本關鍵詞集合為{火灾, 监狱, 囚犯, 现场, 名, 亚松森, 12, 巴拉圭,6,死,傷}。. 圖 7. 巴拉圭監獄火災 6 死 12 傷 前處理後的新聞. 關鍵字詞擴展 從圖 7 報導中可以看出,有些字詞與關鍵詞語意相似,像是報導中「受伤」 一詞與關鍵詞「傷」意義相近,卻無法被找出來。但是若透過取出更多以 TextRank 方式找出的關鍵詞,並不能解決此問題,反而可能取出其他與新聞主旨關係度不 高的關鍵字。因此本論文方法接下來以計算原報導中每個字詞與關鍵字詞相似度, 挑出與基本關鍵詞語意相似度高的字詞加入關鍵詞集合,解決關鍵字的相關字無 法被擷取出的問題。 本論文採用 word2vec[12]的 skip-gram 模型建立字詞的特徵向量,再用所得 的特徵向量進行餘弦相似度計算,來對字詞與字詞間的相似度計算。建立此模型 需要斷詞後的文章,並以類神經網路學習方法進行訓練,透過最大化字詞與字詞 16.

(25) 間同時出現的機率,最後將每個字詞轉換成一固定維度的向量形式。此模型的優 點是可有效將字詞的語意表示在向量空間上,語意相關的字詞其餘弦相似度高, 而意義不相關字詞,則餘弦相似度低。而此模型缺點是,若字詞在模型訓練資料 中沒有出現,則無法得到該詞相對應的向量,造成無法計算字詞相似度。因此本 論文收集批踢踢實業坊網站中 gossip 板的 8 萬多篇新聞文章做作為訓練資料訓練 模型,以盡量降低無法找到字詞向量的問題。 在取出𝑑𝑗 報導的基本關鍵詞集合𝐼𝑗 後,將報導內文每個字詞 w 與𝐼𝑗 集合內的 每個字詞 w’做相似度計算,如果 w 與𝐼𝑗 任一個 w’相似度大於門檻值ϵ以上,則將 w 加入𝐼𝑗 擴展詞中。。 【範例 3-2】關鍵字詞擴展範例 以範例 3-1 所示,從圖 7 擷取出的基本關鍵詞有𝐼𝑗 ={火灾, 监狱, 囚犯, 现 场, 名, 亚松森, 12, 巴拉圭, 6, 死, 傷},每個關鍵字詞 w’會與圖 7 報導內文中每 個字詞 w,以 word2vec model 計算相似度,當 w’與 w 相似度大於 0.7 以上,則 w 當成關鍵詞加入𝐼𝑗 擴展詞中,在範例中,內文的「受伤」字詞與關鍵詞𝐼𝑗 中的 字詞「傷」相似度大於 0.7,則「受伤」字詞加入𝐼𝑗 中,最後𝐼𝑗 的集合元素有{火 灾, 监狱, 囚犯, 现场, 名, 亚松森, 12, 巴拉圭, 6, 死, 傷, 受伤}。. 17.

(26) 第四章 重要事實句擷取方法 一篇報導是由多個句子所構成,而句子是由多個字詞所構成,可形成敘述一 個事實資訊的基本單位,因此本論文方法以句子為分析單位,從句子中擷取出新 聞事實。以第三章所敘述方法從報導內文擷取出主題關鍵詞後,可用來從內文擷 取出包含這些關鍵詞的句子作為候選重要事實句。由於這些句子是針對與新聞主 旨相關的關鍵詞進行描述,從這些句子中擷取出的新聞事實資訊,其與主旨相關 程度較高。此外,句子語句結構、前後文、及與主題語意相關性皆會影響其取出 事實資訊的效果。因此本論文方法將內文中擷取出的候選事實重要句,透過特徵 擷取進行分類預測,判斷出事實重要句。而標題句大多是與主題相關句子,因此, 標題句直接視為重要事實句。下圖 8 為擷取重要事實句的處理流程。將在以下章 節分別詳細說明。. 圖 8 重要事實句擷取流程圖 18.

(27) 4.1. 產生候選事實重要句子 前一步驟從報導內文中擷取出關鍵字詞後,內文會以逗點和下一個逗點或. 句點之間的文字為一個句子單位,再挑選出包含有任一主題關鍵字詞的句子作為 候選重要性句子。 以圖 9 所示範例,延續範例 3-1 的結果,從內文擷取出的關鍵詞有{火灾, 监 狱, 囚犯, 现场, 名, 亚松森, 12, 巴拉圭, 6, 死, 傷}。圖 9 框框部分為出現關鍵 詞的候選事實重要句,以「南美洲内陆国家巴拉圭首都亚松森一所监狱 10 日发 生火灾」為例,此句有出現「监狱、火灾、亚松森、巴拉圭」等主題關鍵詞,故 被挑選為候選事實重要句。 從這些候選事實重要句中可以觀察到,有些句子與新聞主旨相關性較低,像 是「火灾原因仍待查明」相較於其他重要句,表達出的事實並不是新聞主要想表 達的重要事實,因此接下來本方法將透過訓練一個分類器,從中挑選出重要事實 句。. 圖 9 巴拉圭監獄火災 6 死 12 傷 新聞 19.

(28) 4.2 特徵擷取方法 為了進行分類預測挑選出重要事實句,此步驟必須對一篇報導中取出的每個 候選重要事實句進行特徵擷取。我們主要考慮三類句子特徵,第一類為語句結構 上的特徵,第二類則為語意上的特徵,而第三類為句子前後文的特徵,下列將分 別介紹此三類特徵。. 4.2.1. 語句結構特徵. <1> 句子中字詞個數 此特徵考慮字詞個數相對較多,較能夠完整表達新聞事實。計數字詞個數方 法為,將句子 s 斷詞後,計數斷詞後所得字詞個數,並將個數值比例化。比例化 方法為將字詞個數除以報導中單一句最多字詞個數。 以圖 9 範例所示,「巴拉圭监狱火灾 6 死 12 伤」句子 s 斷詞後為{巴拉圭,监 狱,火灾,6,死,12,伤 },共有 6 個字詞。而內文中最多字詞個數句子為 「南美洲 内陆国家巴拉圭首都亚松森一所监狱 10 日发生火灾」,共有 12 個字詞,則句子 6. s 特徵<1>的值為 。 12. <2> 不同詞性數量比例 常見用來描述一件事實的句子,大多以名詞、動詞、形容詞和修飾詞所構成, 名詞常用來代表人物、事物,動詞代表人事物所施行的動作,而形容詞和修飾詞 能夠讓資訊更完整,因此以計數句子中包含這些詞的比例當作特徵。以 w 代表 句子 s 中的字詞集合,分別計數名詞數量、動詞數量、形容詞數量、數量詞數量 20.

(29) 和副詞數量在句子中的比例值,作為 5 個特徵。 以圖 3 範例所示,句子「法航工人罢工取消五分之一航班」斷詞後共有六個 2. 字詞,其中字詞的詞性為名詞的個數共有 2 個,故句子 s 的名詞數量特徵值為6。 2. 動詞數量為 2,故句子 s 的動詞數量特徵值為6。形容詞數量為 1,故句子 s 的形 1. 1. 6. 6. 容詞數量特徵值為 。數量詞數量為 1,故句子 s 的數量詞數量特徵值為 。副詞 數量為 0,故句子 s 的副詞數量特徵值為 0。 <3>非重要語意詞數量 此特徵考慮句中可能出現非重要語意詞,像是連接詞、介係詞、狀聲詞、前 綴詞、輔助詞和標點符號,中文文章大多不會以上述字詞當作一篇文章的關鍵詞, 若句子中出現多個上述字詞,則此句子可能為非重要事實句,因此以計數句子中 出現非重要語意詞數量比例當作特徵。 <4> 句子在報導中的位置 此特徵考慮不同的句子在報導中的位置不同,重要程度可能不同。當句子為 報導內文第一句,則此句子很可能是重要句,而當位置是在內文尾端,則可能是 額外新聞補充說明。以 S 當成內文所有句子集合,令𝑠𝑖 為內文第 i 句,則𝑠𝑖 在報 導中的位置特徵值為 i。因為不同報導內文有長有短,故將特徵值比例化,避免 因內文長度不同,影響特徵意義。比例化方法為將 i 除以 S 中的總句數|S|,故特 i. 徵值為|𝑆|。. 21.

(30) 圖 10 巴拉圭監獄火災 6 死 12 傷 新聞. 以圖 10 範例所示,報導內文句數共有 6 句,框起來的句子在報導中的位置 3. 是第 3 句,則此句子特徵<4>的值為6 <5> 句子在所屬段落裡的位置 報導內文大部分會有多個段落,不同段落所要描述的資訊重要程度不盡相同。 同理,同一段落中的句子在不同位置亦有不同重要程度。而在中文語句寫作習慣 上,會將所要描述的重要事實,擺放在段落前端,因此分析句子在段落中位置, 作為一個事實重要句分類特徵。以𝑃𝑗 代表句子 s 所在段落,且 s 為𝑝𝑗 中的第 i 個 句子,則會將 i 比例化後當成 s 特徵<5>的值,比例化方法為將 i 除以段落中句子 i. 總數|𝑝𝑗 |,故 s 特徵<5>的值為|𝑝 |。以圖 10 範例所示,框框中的句子 s,其出現 𝑗. 2. 在段落二中的第二句,而段落二的句子總數為 2,故 s 特徵<5>的值為2 = 1。. 4.2.2 語意特徵 語意特徵考慮句子中每個字詞在文章的語意重要性,句子中包含在文中出現 頻率高的字詞,包含多個主題關鍵詞、或是多個字詞與主題關鍵字詞相關,代表 此句子有可能是重要句子。下列分別介紹語意特徵。. 22.

(31) <6> 句子中字詞平均 TF-IDF 值 TF-IDF 是資訊檢索中常用以計算字詞在文章中的重要性方法,除了在文章 中計算一個字詞的 TF 值,需透過給定一個文件集來計算 IDF 值,本論文使用 241 篇新聞實驗資料集來計算 IDF 值。 以 s 代表內文中的句子,w 代表 s 中的字詞,計算句子 s 中各字詞 w 的 TF-IDF 值相加取平均值當作句子 s 特徵<6>的值。 以圖 11 範例所示,假設句子 s 的字詞 TF-IDF 值依序為 0.3、0.5、0.6、0.3、 0.1 和 0.5,則句子 s 的平均 TF-IDF 為. 0.3+0.5+0.6+0.3+0.1+0.5 6. ,故句子 s 的<6>. 特徵值為 0.38。. 圖 11 字詞 TF-IDF 範例. <7> 句子中的相異主題關鍵詞數量 當一個句子中出現較多個不同的主題關鍵詞,表示句子與新聞主旨相關度高, 較能夠擷取出重要新聞事實。因此此特徵透過計數句子中包含相異關鍵詞的數量, 挑選出事實含量多的句子。以 I 代表該報導的主題關鍵詞集合,W 代表句子 s 中 的字詞集合,則|I ∩ W|為 s 特徵<7>的值。. 23.

(32) 圖 12 範例所示為一斷詞後的句子 s,框框字詞為主題關鍵詞,因此句子 s 中的相異關鍵詞數量為 2。. 圖 12 句子中的關鍵詞範例. <8> 句子字詞與關鍵詞相似度 若句子中多數字詞與主題關鍵詞中的字詞有較高相關性,則代表此句子較有 可能是重要事實句。 以 w 代表句子 s 中的字詞,w’代表該報導內文關鍵詞集合中的字詞,透過 計算句子 s 中每個字詞 w 與關鍵詞集合中每個字詞 w’相似度總和,再取平均值 當成句子 s 特徵<8>的值。下列公式 1 為其計算方法,其中 w2vSim 為 word2vec 模型,用以計算兩詞餘弦相似度值。. 𝑠𝑖𝑚1 (𝑠, 𝐼𝑗 ) =. 1 |𝑠|∗|𝐼𝑗 |. ∑𝑤∈𝑆,w’∈𝐼𝑗 𝑤2𝑣𝑆𝑖𝑚(𝑤, w’) (公式 1). 4.2.3 句子前後文特徵 <9> 段落中包含主題關鍵字的句子數量 當段落中多個句子包含主題關鍵字,代表此段落多數句子都是在描述重要事 實。而含有重要事實的段落中的句子,較有可能是一個重要事實句。以 S 代表段 落 中 的 句 子 集 合 , 𝑠𝑖 代 表 S 中 的 任 一 個 句 子 , 若 S 含 有 n 個 句 子 , 則 S={𝑠1 , 𝑠2 , 𝑠3 , … 𝑠𝑛 }。計數 S 中包含有任一主題關鍵詞的句子數量,除以段落的總 24.

(33) 句數|S|,當成句子 s 特徵<9>的值。 以圖 10 範例所示,框框為句子 s,s 所在段落為第 2 段,設文章關鍵詞集合 為{火灾, 监狱, 囚犯, 现场, 名, 亚松森, 12, 巴拉圭,6,死,傷, 受伤, 5},則第 2 段 落中包含關鍵詞的句子有 2 句,分別為「南美洲内陆国家巴拉圭首都亚松森一所 监狱 10 日发生火灾」和「目前已造成 6 人死亡、12 人受伤」兩句。其中前一句 子中包含「巴拉圭」 、 「亚松森」 、 「监狱」 、 「火灾」等主題關鍵字,而後一句子中 2. 包含「6」、「12」、「受伤」等主題關鍵字,故句子 s 特徵<9>的值為2。 <10> 句子所屬段落在內文中的位置 報導內文會以句點當作分隔,區分出不同內文段落。此特徵考慮句子位於不 同段落會影響句子重要性,內文中第一段落經常是描述與主旨相關的新聞事實最 密集地方,因此藉由分析段落所屬位置判別出句子的重要性。以 P 代表內文所有 段落集合,若句子 s 所在段落為 P 中第 i 個段落𝑝𝑖 ,則會將 i 值標準化後當成 s i. 特徵<10>的值,標準化方法為將 i 值除以|P|,故 s 特徵<10>的值為|𝑃|。以圖 10 範例所示,圖左邊標號為段落編號,框框中的句子 s 之所在的段落數為 2,全部 2. 段落數為 3,故 s 特徵<10>的值為3。 <11> 前一句子與後一句子中的關鍵詞數量 在中文語句結構上,連續的句子常描述相同事件,當句子 s 的前後句子中包 含多個關鍵詞,代表前後句子都在描述重要事實,有可能是重要事實。而句子 s 位置在兩句蘊含多個關鍵詞的句子中間,因此極可能亦是重要事實句。因此透過 25.

(34) 擷取前後句中主題關鍵詞數量,作為判斷句子 s 是否為重要句。以圖 13 範例所 示,底線為虛線部分為句子 s,而實線部分為關鍵詞,從圖 13 觀察到前一句子 中並無關鍵字詞,因此句子 s 的「前一句子中關鍵詞數量特徵」的值為 0,而後 一句子中有兩個關鍵字詞「火灾」、「囚犯」,因此句子 s 的「後一句子中關鍵詞 數量特徵」的值為 2。. 圖 13 句子中關鍵詞數量範例. 4.3. 建立分類模型 前步驟從候選重要事實句中擷取出特徵值後,本論文採用 LogitBoost 從訓練. 資料建立分類模型,將候選事實重要句分類為重要事實句與非重要事實句。 分類模型的建立需要大量人工標示好的訓練資料,通常要有足夠大訓練資 料量,訓練出的模型會越準確,然而標註大量資料需耗費大量人力及時間,因此, 本論文採用自我學習(self-learning)方法,讓電腦自動標註的資料再成為訓練資料。 此方法首先以人工方式標註一小部分句子,接著讓電腦以這些句子特徵學習出初 始分類模型,並將其他未標示資料集輸入到模型進行分類,再將預測確信度高的 資料重新當作訓練資料,加上原先人工標示資料重新訓練分類模型。 以下詳細說明自我學習方法流程步驟,其方法流程圖如下頁圖 14 所示。. 26.

(35) 圖 14 自我學習式分類模型建構. 步驟一: 取部分報導資料集句子,以人工方式對句子進行標記為重要事實句或 非重要事實句。 步驟二: 將第一步驟所標註的句子當作初始訓練資料,從這些句子中擷取出特 徵,並利用這些特徵建構分類模型。 步驟三: 取出尚未標記類別的句子,利用步驟二所建立好的分類模型對句子進 行分類。 步驟四: 分類模型對句子進行預測後,分類結果將顯示一個分類預測分數值, 若分數接近 1 代表句子越可能屬於重要事實句,若分數接近 0,代表句 子越可能屬於非重要事實句。此步驟將挑選分類分數高於門檻ε的 1 類 k 個句子,和前 k 低分的 0 類句子,將這些句子加入到標記好的句子作 為訓練資料集。 步驟五: 重複二至四步驟直到沒有新的高於門檻ε的 1 類句子被預測出 我們將新聞報導擷取出候選事實重要句後,以上一小節所提出的方法擷取出 句子特徵,將特徵輸入到訓練好的分類模型,即可得到預測的分類結果。. 27.

(36) 第五章 面向詞與描述詞擷取方法 報導中的事實資訊構成元素包含人事物和動作,本方法將從重要事實句中 擷取出這些資訊。透過採用「語言技術平台(LTP)[13]」分析報導內文,取得語意 角色標註和相依性分析結果,並利用分析結果擷取出事實三元詞組。三元詞組是 由面向詞、關聯詞和描述詞所組合而成,然而透過平台分析結果,有可能會有資 訊不完整的問題,像是三元詞組中缺少面向詞或描述詞,因此透過本論文提出補 足三元詞組資訊的方法,提高擷取出的事實資訊完整度,並進行資訊重複的三元 詞組過濾處理。下圖 15 為面向詞與描述詞擷取處理流程圖。. 圖 15 面向詞與描述詞擷取處理流程圖. 5.1. 事實三元詞組擷取 取得報導的重要事實句集合後,根據各重要事實句 s 在前處理後取得的自然. 語言分析資訊,對 s 取出其中的語意角色標註結果,並將 s 中所有角色標註組合 轉換成三元詞組,以 s.Triple 表示。轉換方式為主詞(A0)對應到面向詞,動詞(v) 28.

(37) 對應到關聯詞,受詞(A1)對應到描述詞,最後擷取出所有事實重要句的三元詞組 集合 T。. 圖 16 語意角色標註結果. 以圖 16 範例所示,「取消」字詞為動詞 v,A0 代表動詞「取消」的動作施 行者,對應到原文中「法航工人」字詞,而 A1 則代表動詞「取消」的影響對象, 對應到原文中「五分之一航班」字詞。取得 v、A0、A1 角色標註組合後以三元 詞組表示,詞組面向詞為「法航工人」 ,關聯詞為「取消」 ,描述詞為「五分之一 航班」。 以表 4 範例所示,語意角色標註從報導中擷取出的「法航工人」會放入 s.Triple 中的面向詞,「取消」放入「關聯詞」,「航班」則放入「描述詞」。 表 4 語意角色標註組合與三元詞組對應表. 語意角色標註. s.Triple. 法航工人(A0). 面向詞. 取消(V). 關聯詞. 航班(A1). 描述詞 29.

(38) 在平台分析結果中,有些語意角色(A1)標註分析結果可能包含多個事實資訊, 因為在語意角色中的 A1 字詞區段可能過長,造成資訊量過多。對於包含多個事 實資訊的角色標註組合,因為資訊較為混亂,閱讀者也不方便整理資訊,因此本 方法不會將其結果納入三元詞組中。本方法判斷角色標註組合中 A1 是否包含多 個事實資訊方法為 A1 是否過長,若 A1 擷取出的字詞超出 s 的字詞數,則 A1 屬於包含多個事實資訊。圖 17 範例所示,框框為句子分隔點,「中信銀行表示」 為句子 s,動詞「表示」的 A1 字詞區段超出 s 字詞數,表示含多個事實資訊在 其中,因此此角色標註組合不納入考量 。. 圖 17 三元詞組含多個事實資訊範例. 此外,句子中可能會有多組語意角色標註組合,各組處理方式皆為上述方 法。 另外由圖 17 範例所示,虛線表示一組角色標註組合,由此角色標註組合可 以看出,動詞「推出」沒有相對應的主詞(A0),表示平台資訊分析不完整,因此 本論文提出補足資訊方法,下列將介紹補足方法。. 5.2. 三元詞組資訊補足 由於角色標註組合可能會因為資訊分析不完整,導致三元詞組有部分資訊缺. 少情形,像是缺少面向詞或是缺少描述詞,因此以下將分別介紹補足面向詞或描 30.

(39) 述詞的處理方法。. 5.2.1 由圖 17 範例得知動詞「推出」沒有找出相對應的主詞(A0),因此本方法會 以相依性分析結果來嘗試補足資訊。而在 3-1 節前處理部分有介紹到”SBV”有向 線關係,可以用來描述面向詞和關聯詞之間的關係,因此本方法藉由”SBV”有向 線關係擷取出面向詞(A0)。 <1>以”SBV”有向線方法補足面向詞 首先取得重要事實句 s 的相依性分析結果,並對 s.Triple 中的關聯詞取出關 聯線,若關聯線中包含”SBV”型態線,則將線段另一端字詞當成 s.Triple 中的面 向詞。 以圖 18 範例所示,關聯詞「关押」缺少面向詞,而關聯詞「关押」有 4 種 關聯線段,其中有一線段為”SBV”指向另一端「区域」字詞,並將字詞「区域」 當成 s.Triple 之面向詞。. 圖 18 相依性分析結果範例 31.

(40) <2>以”COO”有向線關係補足面向詞 若三元詞組中缺少面向詞,以方法<1>也無法補足的話,會繼續嘗試使用方 法<2>進行補足。 在中文語句結構中,經常會以省略主詞方式描述資訊,讓句子更為通順。 以下圖 19 範例所示, 「脸书(Facebook)不来高铁彰化站特定区投资兴设资 料处理中心」句子 s 中的關聯詞「投資」在句子中以角色標註方式找不到其主詞。 在此範例中,本方法以關聯詞「投資」的有向關聯線段”COO”找到線段另一端關 聯詞「來」 ,並將「來」字詞所屬句子做三元詞組擷取和資訊補足方法,以「來」 所找出的主詞「臉書」當成「投資」的面向詞。. 圖 19 相依性分析結果範例. 本方法會以關聯詞 w 的相依性”COO”線,往前文找到線的另一端動詞 w’, 並對 w’所屬句子進行三元詞組擷取和資訊補足方法,若 w’有擷取出其面向詞, 則將 w’的主詞當成 w 的面向詞,若線段另一端的關聯詞也沒有面向詞,則遞迴 第<2>步驟,直到補足 w 的面向詞或不再有”COO”有向線。考慮到中文語句面向 詞經常是在關聯詞前,本方法只考慮往前文指向”COO”線段。COO 線段是代表 32.

(41) 「並列關係」,句子 s 中關聯詞「來」和「投資」皆屬於同一面向者所施行之動 作,因此兩者關聯詞屬於等同地位,故有”COO”線段連接兩者,因此利用此一特 性即可將另一關聯詞的面向詞,當成自身關聯詞的面向詞。. 5.2.2 本方法和 5.2.1 節採用的補足方法概念相同,利用相依性分析中的”VOB”有 向線補足三元詞組中缺少的描述詞。VOB 線段是用來描述關聯詞與描述詞之間 關係,因此本方法藉由 s.Triple 中的關聯詞之”VOB”線段擷取出描述詞(A1)。 以圖 20 範例所示,關聯詞「安排」在句子中沒有相對應的描述詞,因此, 本方法透過「安排」字詞的”VOB”關聯線段,找出其相對應的描述詞。在此範例 中,”VOB”線段由「安排」指向「欢送」一詞,故「安排」的描述詞為「欢送」。. 圖 20 相依性分析結果範例. 5.2.3 從事實句中擷取出的三元詞組集合,有些集合會有資訊重複問題。本方 法以檢查若三元詞組中字詞 w 全部出現在其他詞組的字詞中,則此三元詞組會 33.

(42) 被過濾掉 以圖 21 範例所示,句子中共有三組三元詞組,第一組關聯詞為「造成」 ,描 述詞為「6 人死亡、12 人受伤」;第二組關聯詞為「死亡」,描述詞為「6 人」; 第三組關聯詞為「受伤」,面向詞為「12 人」,從結果可以看出,第二、三組三 元詞組字詞全部出現在第一組三元詞組中,因此在此範例中,第二、三組詞組會 被過濾掉,只留下第一組。 另外,如果三元詞組中除了關聯詞有值,面向詞和描述詞都為空值,則此三 元詞組會被過濾掉。. 圖 21 語意角色標註結果範例. 34.

(43) 第六章 事實三元詞組合併方法 由於同一新聞事件的相關新聞報導會有資訊重疊問題,所以從這些相關報 導中擷取出的三元詞組也可能出現資訊相似的詞組。因此本方法接下來先透過面 向語意分群將面向相似的三元詞組分在同一群,再透過漸進式方式合併相似面向 與描述詞。下圖 22 為事實三元詞組合併方法流程。. 圖 22 事實三元詞組合併處理流程. 6.1. 相似面向語意分群 針對多篇相關報導的重要事實句所擷取出的三元詞組,本方法以三元詞組中. 的面向詞和關聯詞做相似度計算,以階層式分群方式,對三元詞組做分群,將面 向詞和關聯詞相似的詞組分在同一群。 因後續方法將運用到多個相似度計算公式,在此先進行各種公式說明 <1>詞組間相似度計算公式 𝑠𝑖𝑚2 (𝑇𝑟𝑖𝑝𝑙𝑒1, 𝑇𝑟𝑖𝑝𝑙𝑒2) = 𝑤 ∗ 𝑠𝑖𝑚4 (𝑓1 , 𝑓2 ) + (1 − 𝑤) ∗ 𝑠𝑖𝑚4 (𝑟1 , 𝑟2 ). (公式 2). 公式 2 為兩詞組間距離計算公式,其中𝑓1 和𝑓2 分別代表詞組 Triple1 和 Triple2 的面向詞,𝑟1 和𝑟2 分別代表詞組 Triple1 和 Triple2 的關聯詞,w 和 1-w 分別代表 面向詞和關聯詞相似度權重,𝑠𝑖𝑚4 ()計算公式為下列公式 4。. 35.

(44) 𝑠𝑖𝑚3 (𝑇𝑟𝑖𝑝𝑙𝑒1, 𝑇𝑟𝑖𝑝𝑙𝑒2) = 𝑚𝑎𝑥 𝑤 ∗ (𝑆𝑖𝑚5 (𝑟1 , 𝑟2 )) + (1 − 𝑤) ∗ (𝑆𝑖𝑚5 (𝑑1 , 𝑑2 ))(公式 3) 𝑑2 ∈𝐷2. 公式 3 中的𝐷2 代表𝑇𝑟𝑖𝑝𝑙𝑒2的描述詞集合,w 和 1-w 則為關聯詞和描述詞相似 度權重,𝑟1 和𝑟2 分別代表詞組 Triple1 和 Triple2 的關聯詞,𝑑1 和𝑑2 分別代表詞組 Triple1 和 Triple2 的描述詞,𝑠𝑖𝑚5 ()計算公式為下列公式 5。 <2>字詞集合相似度計算公式 1. 𝑠𝑖𝑚4 (𝑋, 𝑌) = |𝑋|∗|𝑌| ∑𝑤1∈𝑋,𝑤2∈𝑌 1(𝑤2𝑣𝑆𝑖𝑚(𝑤1 , 𝑤2 ) > 𝜀) ∗ 𝑤2𝑣𝑆𝑖𝑚(𝑤1 , 𝑤2 ) (公式 4). 公式 4 中的 X 及 Y 集合代表兩個字詞集合,集合中所有字詞彼此互相計算 相似度值,高於門檻值𝜀才會納入加總。 𝑆𝑖𝑚5 (𝑋, 𝑌) =. ∑𝑤1 ∈𝑋 max 𝑀𝑎𝑥(𝑤2𝑣𝑆𝑖𝑚(𝑤1,𝑤2)) 𝑤2 ∈𝑌. |𝑋|. (公式 5). 公式 5 中的 X、Y 為兩字詞集合,其中 X 為兩字詞集合中字詞個數較多者。 以 T 代表所有重要事實句中擷取出的三元詞組集合,首先對 T 集合中的詞 組,兩兩計算面向詞和關聯詞間的距離,並以計算相似度公式 2 推導出距離。 在公式 2 中對兩組詞組 Triple1=(𝑓1 , 𝑟1 , 𝑑1 ),Triple2=(𝑓2 , 𝑟2 , 𝑑2 )的面向詞和關聯 詞分別計算相似度值,𝑠𝑖𝑚4 (𝑓1 , 𝑓2 )為計算兩詞組的面向詞相似度,而𝑠𝑖𝑚4 (𝑟1 , 𝑟2 ) 為計算兩詞組的關聯詞相似度,再以線性相加方式計算出兩個詞組相似度,最後 以 1 減去相似度得出距離值。 以上述距離公式將所有詞組進行平均連結聚合階層式分群建構階層樹後,本 方法使用 Elbow Method[8]方法進行群數自動判斷出較佳群數。首先設定一個初 始階層樹合併的門檻值 max-dist 為 1,並以固定 0.1 間距遞減門檻值,當兩群合 36.

(45) 併距離大於 max-dist 時,則不進行合併,並計算不同 max-dist 值下分群結果的 SSE(Sum of Squares for Error)值,以𝑐max−dist+0.1表示在門檻值為 max-dist+0.1 時 得到的群集合,其對應的 SSE 值為SSEmax−dist+0.1 ,𝑐max−dist 表示在門檻值為 max-dist. 時 的 群 集 合 , 其 對 應. SSEmax−dist −SSEmax−dist+0.1 <0.25 |𝑐max−dist |−|𝑐max−dist+0.1 |. SSE. 值 為 SSEmax−dist , 當. 時,此時最佳門檻值為 max-dist+0.1,𝑐max−dist+0.1為. 最佳群數。. 6.2. 依相似面向合併 由前一步驟將三元詞組分群後,以 C 代表群集合,𝑐𝑖 代表 C 中的一個群,𝑡𝑖_𝑗. 代表𝑐𝑖 中的一個三元詞組,若𝑐𝑖 有 n 個三元組詞,則𝑐𝑖 = {𝑡𝑖_1 , 𝑡𝑖_2 , 𝑡𝑖_3 … 𝑡𝑖_𝑛 }。此 步驟將對𝑐𝑖 內三元詞組做漸進式合併。由於詞組合併會產生多種不同狀態的詞組, 下表 5 列出各種不同狀態詞組,方便後續說明。 表 5 不同 Type 詞組說明. 詞組. 面向詞. 關聯詞. 描述詞. 𝑇𝑦𝑝𝑒1. 單值. 單值. 單值. 𝑇𝑦𝑝𝑒2. 單值. 單值. 空值. 𝑇𝑦𝑝𝑒3. 空值. 單值. 單值. 𝑇𝑦𝑝𝑒4. 單值. 單值. 多值. 𝑇𝑦𝑝𝑒5. 多值. 單值. 單值. 37.

(46) 針對不同𝑇𝑦𝑝𝑒的詞組合併,下列先定義兩種合併方式。 【合併方式一】 以𝑡𝑟𝑖𝑝𝑙𝑒1 表示要加入合併的新詞組,𝑡𝑟𝑖𝑝𝑙𝑒2 表示要併入的詞組,令𝑥1 為 𝑡𝑟𝑖𝑝𝑙𝑒1 的單值面向詞或單值描述詞,𝑥2 為𝑡𝑟𝑖𝑝𝑙𝑒2的單值面向詞或單值描述詞,𝑦1、 𝑦2 分別為𝑡𝑟𝑖𝑝𝑙𝑒1和𝑡𝑟𝑖𝑝𝑙𝑒2 的關聯詞。首先對𝑥1、𝑥2 、𝑦1 、𝑦2,分別計算其包含的 字詞在原報導內文中的 TF-IDF 值取平均,表示各詞組的資訊代表性。𝑡𝑟𝑖𝑝𝑙𝑒1和 𝑡𝑟𝑖𝑝𝑙𝑒2合併後的三元詞組以 mTriple 表示,則 mTriple 的面向詞取𝑥1 及𝑥2 中擁有 較高的 TF-IDF 平均值者。同樣的,mTriple 的關聯詞取𝑦1 及𝑦2 中擁有較高的 TF-IDF 平均值者表示。 【合併方式二】 以𝑡𝑟𝑖𝑝𝑙𝑒1 表示要加入合併的新詞組,𝑡𝑟𝑖𝑝𝑙𝑒2 表示要併入的詞組,令 x 為 𝑡𝑟𝑖𝑝𝑙𝑒1 的單值面向詞或單值描述詞、Y 為𝑡𝑟𝑖𝑝𝑙𝑒2的多值面向詞或多值描述詞,以 𝑦𝑖 表示Y中任一個詞。 X 會與Y中的所有詞𝑦𝑖 依序計算相似度,相似度計算公式為公式 5。若 x 與𝑌 中第 i 個詞組𝑦𝑖 相似度大於門檻值,則分別計算 x、𝑦𝑖 中包含的字詞在原報導中 的 TF-IDF 總和平均,若 x 擁有較高的 TF-IDF 平均值,則取代𝑦𝑖,否則保留𝑦𝑖 。 若 x 與 Y 中的所有描述詞相似度都小於門檻值,則將 x 加入 Y 中。. 接下來說明相似面向詞合併可能產生的情況:每群𝑐𝑖 內的三元詞組會有三種 38.

(47) 情況,第一種𝑇𝑦𝑝𝑒1 為詞組內的面向詞、關聯詞、描述詞都有值,第二種𝑇𝑦𝑝𝑒2為 面向詞、關聯詞有值,而描述詞為空值,第三種𝑇𝑦𝑝𝑒3為面向詞為空值,關聯詞 與描述詞有值。本方法會對各群𝑐𝑖 內的𝑇𝑦𝑝𝑒1 和𝑇𝑦𝑝𝑒2 的三元詞組做合併,因 𝑇𝑦𝑝𝑒3 的面向詞為空值,不對𝑇𝑦𝑝𝑒3 的詞組進行相似面向詞合併。合併過程中會 產生新 Type 詞組,所以共有 5 種合併情況,分別是𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒1合併、𝑇𝑦𝑝𝑒1和 𝑇𝑦𝑝𝑒2合併、𝑇𝑦𝑝𝑒2 和𝑇𝑦𝑝𝑒2合併、𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒4合併、𝑇𝑦𝑝𝑒2和𝑇𝑦𝑝𝑒4合併。. 上述相似面向詞合併的五種不同 Type 詞組間之合併情況,可歸類成以下三 種處理。 <1> 適用於𝑇𝑦𝑝𝑒1 和𝑇𝑦𝑝𝑒1 合併,或𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒4詞組合併的情況 𝑇𝑦𝑝𝑒1詞組為𝑇𝑦𝑝𝑒4詞組的特例,當𝑇𝑦𝑝𝑒4詞組的描述詞為單值時,𝑇𝑦𝑝𝑒4等 同於𝑇𝑦𝑝𝑒1,因此以下以𝑇𝑦𝑝𝑒4詞組合併進行說明。 以𝑡𝑟𝑖𝑝𝑙𝑒1表示要加入合併的新詞組𝑡𝑟𝑖𝑝𝑙𝑒1 =(𝑓1 , 𝑟1 , 𝑑1 ),𝑡𝑟𝑖𝑝𝑙𝑒2=(𝑓2 , 𝑟2 , 𝐷2 )表示 要併入的詞組,𝐷2 為一描述詞集合,包含多個描述詞,因此以𝑑𝑖 表示𝐷2 中任一個 描述詞。 首先對𝑓1、𝑓2 、𝑟1 、𝑟2以[合併方式一]進行合併,𝑓1、𝑓2 分別對應到[合併方式 一]的𝑥1 、𝑥2 ,𝑟1 、𝑟2 對應到𝑦1 、𝑦2 ,再以[合併方式二]進行描述詞合併,𝑑1 對應 到[合併方式二]的 x, 𝐷2 對應到 Y。. 39.

(48) 以表 6 範例所示,在範例中𝑡𝑟𝑖𝑝𝑙𝑒2的面向詞 TF-IDF 均值為 0.8 較𝑡𝑟𝑖𝑝𝑙𝑒1 的 面向詞 TF-IDF 均值 0.7 高,因此新合併出的三元詞組的面向詞為「火災」。而 𝑡𝑟𝑖𝑝𝑙𝑒1 的關聯詞 TF-IDF 均值為 0.6 較𝑡𝑟𝑖𝑝𝑙𝑒2 的關聯詞 TF-IDF 均值 0.5 高,因此 新合併出的三元詞組的關聯詞為「發生」 。若相似度門檻值為 0.5,𝑡𝑟𝑖𝑝𝑙𝑒1 的描述 詞「巴拉圭監獄」和𝑡𝑟𝑖𝑝𝑙𝑒2的描述詞「塔孔布監獄」相似度大於門檻值,則比較 兩者描述詞的 TF-IDF 均值,範例中,𝑡𝑟𝑖𝑝𝑙𝑒1的描述詞 TF-IDF 均值較高,因此 以「巴拉圭監獄」取代「塔孔布監獄」。 表 6 𝑇𝑦𝑝𝑒1 和𝑇𝑦𝑝𝑒1 詞組範例. <2>適用於𝑇𝑦𝑝𝑒1 和𝑇𝑦𝑝𝑒2 合併,或𝑇𝑦𝑝𝑒2 和𝑇𝑦𝑝𝑒4詞組合併情況 因𝑇𝑦𝑝𝑒1詞組為𝑇𝑦𝑝𝑒4詞組的特例,當𝑇𝑦𝑝𝑒4詞組的描述詞為單值時,𝑇𝑦𝑝𝑒4等 同於𝑇𝑦𝑝𝑒1,下方以𝑇𝑦𝑝𝑒4詞組合併進行說明。 延續[合併方式一]的詞組標記符號,且𝑡𝑟𝑖𝑝𝑙𝑒1 屬於𝑇𝑦𝑝𝑒2,𝑡𝑟𝑖𝑝𝑙𝑒2 屬於𝑇𝑦𝑝𝑒4。 𝑡𝑟𝑖𝑝𝑙𝑒1 的描述詞在此合併方式中為空值,合併結果的描述詞以𝑡𝑟𝑖𝑝𝑙𝑒2 的描述詞取 代,並以[合併方式一]進行面向詞、關聯詞合併。. 40.

(49) 以下表 7 所示,在此範例中其面向詞和關聯詞合併方法同<1>範例說明,合 併後的描述詞則為原𝑡𝑟𝑖𝑝𝑙𝑒2的描述詞。 表 7 𝑇𝑦𝑝𝑒1 和𝑇𝑦𝑝𝑒2 詞組範例. <3>適用於𝑇𝑦𝑝𝑒2和𝑇𝑦𝑝𝑒2詞組合併情況 延續[合併方式一]的標記符號,𝑡𝑟𝑖𝑝𝑙𝑒1 和𝑡𝑟𝑖𝑝𝑙𝑒2的描述詞在此合併方式中皆 為空值,因此𝑇𝑦𝑝𝑒2和𝑇𝑦𝑝𝑒2詞組合併只需考慮面向詞與關聯詞,並以[合併方式 一]合併面向詞、關聯詞,而描述詞因兩組詞組都為空值,合併後結果的描述詞 為空值。 表 8 𝑇𝑦𝑝𝑒2 和𝑇𝑦𝑝𝑒2 詞組範例. 以表 8 範例所示,𝑡𝑟𝑖𝑝𝑙𝑒1 和𝑡𝑟𝑖𝑝𝑙𝑒2 的描述詞都為空值,因此合併後詞組的描 述詞也為空值。 41.

(50) 結合上述說明,針對三元詞組分群後,C 群集合中的一個群𝑐𝑖 ,𝑐𝑖 中詞組合 併演算法如以下三個處理步驟。 第一步驟: 設集合 U 代表𝑐𝑖 中𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒2 的詞組所成的集合,n 為 U 集合元素 個數,𝑢𝑖 為 U 中任意元素。 第二步驟: 設 i 為 1, j 從 1 到 n,𝑢𝑗 併入𝑢𝑖 ,並將 U 設為 U-𝑢𝑗 ,𝑐𝑖 設為𝑐𝑖 -𝑢𝑗 。 第三步驟: i 增加 1, 重複 2、3 步驟值到 i=n 停止。 在上述演算法第二步驟進行詞組合併的處理結果,依上述各種 Type 詞組合 併情況決定。. 依相似描述語意合併. 6.3. 各群𝑐𝑖 做完相似面向詞合併後,會先將各𝑐𝑖 中的三元詞組整合為一大集合 C’, 再依相似描述詞進行合併。C’中的三元詞組合併過程中有 5 種情況,第一種𝑇𝑦𝑝𝑒1 為詞組的面向詞、關聯詞、描述詞皆為單值,第二種𝑇𝑦𝑝𝑒2為詞組的面向詞、關 聯詞各有單值,而描述詞為空值,第三種𝑇𝑦𝑝𝑒3為詞組的面向詞為空值,關聯詞 與描述詞皆為單值,第四種𝑇𝑦𝑝𝑒4為詞組的面向詞、關聯詞皆為單值而描述詞有 多值,第五種𝑇𝑦𝑝𝑒5為面向詞有多值,關聯詞、描述詞皆為單值。 本論文此方法會先對𝑇𝑦𝑝𝑒4 和𝑇𝑦𝑝𝑒3 的三元詞組進行合併,再對𝑇𝑦𝑝𝑒1 和 𝑇𝑦𝑝𝑒3 進行合併,而𝑇𝑦𝑝𝑒2 因為描述詞為空值,在依相似描述詞合併中不進行合 併。 接下來分別介紹這兩種合併處理流程步驟。 42.

(51) 步驟一【𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3的三元詞組合併】 此合併方法針對 C’中的𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3 詞組進行合併,將𝑇𝑦𝑝𝑒3 詞組併入 𝑇𝑦𝑝𝑒4詞組。 步驟 1-1: 設集合 U 代表 C’中𝑇𝑦𝑝𝑒4的詞組集合,n 為 U 集合元素個數,𝑢𝑖 為 U 中任意元素,集合 W 為 C’中𝑇𝑦𝑝𝑒3的詞組集合,m 為 W 集合元素個數,𝑤𝑗 為 W 中任意元素。 步驟 1-2: 設 i 從 1 開始, j 從 1 到 m,以公式 3 計算𝑠𝑖𝑚3 (𝑤𝑗 , 𝑢𝑖 )相似度。若 相似度值大於門檻值則合併𝑤𝑗 和𝑢𝑖 ,並將 W 設為 W-𝑤𝑗 ,C’設為 C’-𝑤𝑗 。 步驟 1-3: i 增加 1, 重複 2、3 步驟值到 i=n 停止。. 步驟二【𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒3的三元詞組合併】 此合併方法針對 C’中的𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒3三元詞組進行合併,合併流程與 【𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3的三元詞組合併】相同,並以𝑇𝑦𝑝𝑒1取代【𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3的三 元詞組合併流程】中的𝑇𝑦𝑝𝑒4。 在上述合併處理流程中,若判斷可進行詞組合併,則產生的詞組合併結果依 以下各種 Type 詞組合併情況決定。. <1>適用於𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3詞組合併情況 令 Triple1 為𝑇𝑦𝑝𝑒3,要加入合併的新詞組,Triple2 為𝑇𝑦𝑝𝑒4表示要併入的詞 43.

(52) 組,Triple1 = (𝑛𝑢𝑙𝑙, 𝑟1 , 𝑑1),Triple2=(𝑓2 , 𝑟2, 𝐷2 ) ,𝑑𝑖 表示 Triple2 的關聯詞集合 中的任意元素。 首先以公式 3 計算相似度𝑠𝑖𝑚3 (𝑇𝑟𝑖𝑝𝑙𝑒1, 𝑇𝑟𝑖𝑝𝑙𝑒2),並挑選出使得相似度最大 的𝑑𝑖 ,若相似度最大值大於門檻值則進行[合併方式一]合併關聯詞與描述詞𝑑𝑖 , d1 對應到[合併方式一]中的𝑥1 ,𝑑𝑖 對應到𝑥2 ,𝑟1 對應到𝑦1 ,𝑟2 對應到𝑦2 ,合併結 果的面向詞以 Triple2 的面向詞取代。 以表 9 範例所示,𝑡𝑟𝑖𝑝𝑙𝑒1 要併入到𝑡𝑟𝑖𝑝𝑙𝑒2 中,會先以公式 3 計算𝑡𝑟𝑖𝑝𝑙𝑒1和 𝑡𝑟𝑖𝑝𝑙𝑒2的關聯詞與描述詞相似度,若相似度值大於門檻值,且大於門檻值的詞組 描述詞情況為「巴拉圭监狱」 、 「塔孔布监狱」相似,根據「發生」 、 「生成」 、 「巴 拉圭监狱」、「塔孔布监狱」所包含字詞在原報導中的 TF-IDF 總和平均。合併出 的新𝑡𝑟𝑖𝑝𝑙𝑒2三元詞組的面向詞為「火災」 ,關聯詞為「發生」 ,描述詞取代成 TF-IDF 均值較高的「巴拉圭监狱」。 表 9 𝑇𝑦𝑝𝑒4 和𝑇𝑦𝑝𝑒3 詞組合併範例. <2> 適用於𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒3詞組合併情況 𝑇𝑦𝑝𝑒1詞組為𝑇𝑦𝑝𝑒4詞組的一個特例,當𝑇𝑦𝑝𝑒4詞組的描述詞集合只包含一個 44.

參考文獻

相關文件

Hofmann, “Collaborative filtering via Gaussian probabilistic latent semantic analysis”, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and

in Proceedings of the 20th International Conference on Very Large Data

[23] Tiantong You, Hossam Hassanein and Chi-Hsiang Yeh, “PIDC - Towards an Ideal MAC Protocol for Multi-hop Wireless LANs,” Proceedings of the IEEE International Conference

Shih and W.-C.Wang “A 3D Model Retrieval Approach based on The Principal Plane Descriptor” , Proceedings of The 10 Second International Conference on Innovative

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference

Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,

Li, The application of Bayesian optimization and classifier systems in nurse scheduling, in: Proceedings of the 8th International Conference on Parallel Problem Solving