• 沒有找到結果。

依相似面向合併

第六章 事實三元詞組合併方法

6.2 依相似面向合併

由前一步驟將三元詞組分群後,以C 代表群集合,𝑐𝑖代表C 中的一個群,𝑡𝑖_𝑗 代表𝑐𝑖中的一個三元詞組,若𝑐𝑖有n 個三元組詞,則𝑐𝑖 = {𝑡𝑖_1, 𝑡𝑖_2, 𝑡𝑖_3… 𝑡𝑖_𝑛}。此 步驟將對𝑐𝑖內三元詞組做漸進式合併。由於詞組合併會產生多種不同狀態的詞組,

下表5 列出各種不同狀態詞組,方便後續說明。

表 5 不同 Type 詞組說明

詞組 面向詞 關聯詞 描述詞

𝑇𝑦𝑝𝑒1 單值 單值 單值

𝑇𝑦𝑝𝑒2 單值 單值 空值

𝑇𝑦𝑝𝑒3 空值 單值 單值

𝑇𝑦𝑝𝑒4 單值 單值 多值

𝑇𝑦𝑝𝑒5 多值 單值 單值

38

針對不同𝑇𝑦𝑝𝑒的詞組合併,下列先定義兩種合併方式。

【合併方式一】

以𝑡𝑟𝑖𝑝𝑙𝑒1表示要加入合併的新詞組,𝑡𝑟𝑖𝑝𝑙𝑒2表示要併入的詞組,令𝑥1為 𝑡𝑟𝑖𝑝𝑙𝑒1的單值面向詞或單值描述詞,𝑥2為𝑡𝑟𝑖𝑝𝑙𝑒2的單值面向詞或單值描述詞,𝑦1

𝑦2分別為𝑡𝑟𝑖𝑝𝑙𝑒1和𝑡𝑟𝑖𝑝𝑙𝑒2的關聯詞。首先對𝑥1、𝑥2、𝑦1、𝑦2,分別計算其包含的 字詞在原報導內文中的TF-IDF 值取平均,表示各詞組的資訊代表性。𝑡𝑟𝑖𝑝𝑙𝑒1和 𝑡𝑟𝑖𝑝𝑙𝑒2合併後的三元詞組以 mTriple 表示,則 mTriple 的面向詞取𝑥1及𝑥2中擁有 較高的 TF-IDF 平均值者。同樣的,mTriple 的關聯詞取𝑦1及𝑦2中擁有較高的 TF-IDF 平均值者表示。

【合併方式二】

以𝑡𝑟𝑖𝑝𝑙𝑒1表示要加入合併的新詞組,𝑡𝑟𝑖𝑝𝑙𝑒2表示要併入的詞組,令x 為

𝑡𝑟𝑖𝑝𝑙𝑒1的單值面向詞或單值描述詞、Y 為𝑡𝑟𝑖𝑝𝑙𝑒2的多值面向詞或多值描述詞,以 𝑦𝑖表示Y中任一個詞。

X 會與Y中的所有詞𝑦𝑖依序計算相似度,相似度計算公式為公式5。若 x 與𝑌 中第 i 個詞組𝑦𝑖相似度大於門檻值,則分別計算 x、𝑦𝑖中包含的字詞在原報導中 的TF-IDF 總和平均,若 x 擁有較高的 TF-IDF 平均值,則取代𝑦𝑖,否則保留𝑦𝑖。 若x 與 Y 中的所有描述詞相似度都小於門檻值,則將 x 加入 Y 中。

接下來說明相似面向詞合併可能產生的情況:每群𝑐𝑖內的三元詞組會有三種

39

情況,第一種𝑇𝑦𝑝𝑒1為詞組內的面向詞、關聯詞、描述詞都有值,第二種𝑇𝑦𝑝𝑒2為 面向詞、關聯詞有值,而描述詞為空值,第三種𝑇𝑦𝑝𝑒3為面向詞為空值,關聯詞 與描述詞有值。本方法會對各群𝑐𝑖內的𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒2的三元詞組做合併,因 𝑇𝑦𝑝𝑒3的面向詞為空值,不對𝑇𝑦𝑝𝑒3的詞組進行相似面向詞合併。合併過程中會 產生新Type 詞組,所以共有 5 種合併情況,分別是𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒1合併、𝑇𝑦𝑝𝑒1和 𝑇𝑦𝑝𝑒2合併、𝑇𝑦𝑝𝑒2和𝑇𝑦𝑝𝑒2合併、𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒4合併、𝑇𝑦𝑝𝑒2和𝑇𝑦𝑝𝑒4合併。

上述相似面向詞合併的五種不同Type 詞組間之合併情況,可歸類成以下三 種處理。

<1> 適用於𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒1合併,或𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒4詞組合併的情況

𝑇𝑦𝑝𝑒1詞組為𝑇𝑦𝑝𝑒4詞組的特例,當𝑇𝑦𝑝𝑒4詞組的描述詞為單值時,𝑇𝑦𝑝𝑒4等 同於𝑇𝑦𝑝𝑒1,因此以下以𝑇𝑦𝑝𝑒4詞組合併進行說明。

以𝑡𝑟𝑖𝑝𝑙𝑒1表示要加入合併的新詞組𝑡𝑟𝑖𝑝𝑙𝑒1=(𝑓1, 𝑟1, 𝑑1),𝑡𝑟𝑖𝑝𝑙𝑒2=(𝑓2, 𝑟2, 𝐷2)表示

要併入的詞組,𝐷2為一描述詞集合,包含多個描述詞,因此以𝑑𝑖表示𝐷2中任一個 描述詞。

首先對𝑓1、𝑓2、𝑟1、𝑟2以[合併方式一]進行合併,𝑓1、𝑓2分別對應到[合併方式 一]的𝑥1、𝑥2,𝑟1、𝑟2對應到𝑦1、𝑦2,再以[合併方式二]進行描述詞合併,𝑑1對應 到[合併方式二]的 x, 𝐷2對應到Y。

40

以表6 範例所示,在範例中𝑡𝑟𝑖𝑝𝑙𝑒2的面向詞TF-IDF 均值為 0.8 較𝑡𝑟𝑖𝑝𝑙𝑒1的 面向詞 TF-IDF 均值 0.7 高,因此新合併出的三元詞組的面向詞為「火災」。而 𝑡𝑟𝑖𝑝𝑙𝑒1的關聯詞TF-IDF 均值為 0.6 較𝑡𝑟𝑖𝑝𝑙𝑒2的關聯詞TF-IDF 均值 0.5 高,因此 新合併出的三元詞組的關聯詞為「發生」。若相似度門檻值為0.5,𝑡𝑟𝑖𝑝𝑙𝑒1的描述 詞「巴拉圭監獄」和𝑡𝑟𝑖𝑝𝑙𝑒2的描述詞「塔孔布監獄」相似度大於門檻值,則比較 兩者描述詞的 TF-IDF 均值,範例中,𝑡𝑟𝑖𝑝𝑙𝑒1的描述詞 TF-IDF 均值較高,因此 以「巴拉圭監獄」取代「塔孔布監獄」。

表 6 𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒1詞組範例

<2>適用於𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒2合併,或𝑇𝑦𝑝𝑒2和𝑇𝑦𝑝𝑒4詞組合併情況

因𝑇𝑦𝑝𝑒1詞組為𝑇𝑦𝑝𝑒4詞組的特例,當𝑇𝑦𝑝𝑒4詞組的描述詞為單值時,𝑇𝑦𝑝𝑒4等 同於𝑇𝑦𝑝𝑒1,下方以𝑇𝑦𝑝𝑒4詞組合併進行說明。

延續[合併方式一]的詞組標記符號,且𝑡𝑟𝑖𝑝𝑙𝑒1屬於𝑇𝑦𝑝𝑒2,𝑡𝑟𝑖𝑝𝑙𝑒2屬於𝑇𝑦𝑝𝑒4。 𝑡𝑟𝑖𝑝𝑙𝑒1的描述詞在此合併方式中為空值,合併結果的描述詞以𝑡𝑟𝑖𝑝𝑙𝑒2的描述詞取 代,並以[合併方式一]進行面向詞、關聯詞合併。

41

以下表7 所示,在此範例中其面向詞和關聯詞合併方法同<1>範例說明,合 併後的描述詞則為原𝑡𝑟𝑖𝑝𝑙𝑒2的描述詞。

表 7 𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒2詞組範例

<3>適用於𝑇𝑦𝑝𝑒2和𝑇𝑦𝑝𝑒2詞組合併情況

延續[合併方式一]的標記符號,𝑡𝑟𝑖𝑝𝑙𝑒1和𝑡𝑟𝑖𝑝𝑙𝑒2的描述詞在此合併方式中皆

為空值,因此𝑇𝑦𝑝𝑒2和𝑇𝑦𝑝𝑒2詞組合併只需考慮面向詞與關聯詞,並以[合併方式 一]合併面向詞、關聯詞,而描述詞因兩組詞組都為空值,合併後結果的描述詞 為空值。

表 8 𝑇𝑦𝑝𝑒2和𝑇𝑦𝑝𝑒2詞組範例

以表8 範例所示,𝑡𝑟𝑖𝑝𝑙𝑒1和𝑡𝑟𝑖𝑝𝑙𝑒2的描述詞都為空值,因此合併後詞組的描 述詞也為空值。

42

結合上述說明,針對三元詞組分群後,C 群集合中的一個群𝑐𝑖,𝑐𝑖中詞組合

併演算法如以下三個處理步驟。

第一步驟: 設集合 U 代表𝑐𝑖中𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒2的詞組所成的集合,n 為 U 集合元素 個數,𝑢𝑖為U 中任意元素。

第二步驟: 設 i 為 1, j 從 1 到 n,𝑢𝑗併入𝑢𝑖,並將U 設為 U-𝑢𝑗,𝑐𝑖設為𝑐𝑖-𝑢𝑗。 第三步驟: i 增加 1, 重複 2、3 步驟值到 i=n 停止。

在上述演算法第二步驟進行詞組合併的處理結果,依上述各種Type 詞組合 併情況決定。

相關文件