• 沒有找到結果。

依相似描述語意合併

第六章 事實三元詞組合併方法

6.3 依相似描述語意合併

各群𝑐𝑖做完相似面向詞合併後,會先將各𝑐𝑖中的三元詞組整合為一大集合C’,

再依相似描述詞進行合併。C’中的三元詞組合併過程中有 5 種情況,第一種𝑇𝑦𝑝𝑒1 為詞組的面向詞、關聯詞、描述詞皆為單值,第二種𝑇𝑦𝑝𝑒2為詞組的面向詞、關 聯詞各有單值,而描述詞為空值,第三種𝑇𝑦𝑝𝑒3為詞組的面向詞為空值,關聯詞 與描述詞皆為單值,第四種𝑇𝑦𝑝𝑒4為詞組的面向詞、關聯詞皆為單值而描述詞有 多值,第五種𝑇𝑦𝑝𝑒5為面向詞有多值,關聯詞、描述詞皆為單值。

本論文此方法會先對𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3的三元詞組進行合併,再對𝑇𝑦𝑝𝑒1和 𝑇𝑦𝑝𝑒3進行合併,而𝑇𝑦𝑝𝑒2因為描述詞為空值,在依相似描述詞合併中不進行合 併。

接下來分別介紹這兩種合併處理流程步驟。

43

步驟一【𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3的三元詞組合併】

此合併方法針對C’中的𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3詞組進行合併,將𝑇𝑦𝑝𝑒3詞組併入 𝑇𝑦𝑝𝑒4詞組。

步驟1-1: 設集合 U 代表 C’中𝑇𝑦𝑝𝑒4的詞組集合,n 為 U 集合元素個數,𝑢𝑖為U 中任意元素,集合W 為 C’中𝑇𝑦𝑝𝑒3的詞組集合,m 為 W 集合元素個數,𝑤𝑗為W 中任意元素。

步驟1-2: 設 i 從 1 開始, j 從 1 到 m,以公式 3 計算

𝑠𝑖𝑚

3

(

𝑤𝑗

,

𝑢𝑖

)

相似度。若 相似度值大於門檻值則合併𝑤𝑗和𝑢𝑖,並將W 設為 W-𝑤𝑗,C’設為 C’-𝑤𝑗。 步驟1-3: i 增加 1, 重複 2、3 步驟值到 i=n 停止。

步驟二【𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒3的三元詞組合併】

此合併方法針對C’中的𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒3三元詞組進行合併,合併流程與

【𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3的三元詞組合併】相同,並以𝑇𝑦𝑝𝑒1取代【𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3的三 元詞組合併流程】中的𝑇𝑦𝑝𝑒4

在上述合併處理流程中,若判斷可進行詞組合併,則產生的詞組合併結果依 以下各種Type 詞組合併情況決定。

<1>適用於𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3詞組合併情況

令Triple1 為𝑇𝑦𝑝𝑒3,要加入合併的新詞組,Triple2 為𝑇𝑦𝑝𝑒4表示要併入的詞

44

組,Triple1 = (𝑛𝑢𝑙𝑙, 𝑟1, 𝑑1),Triple2=(𝑓2, 𝑟2, 𝐷2) ,𝑑𝑖表示 Triple2 的關聯詞集合 中的任意元素。

首先以公式 3 計算相似度

𝑠𝑖𝑚

3

(𝑇𝑟𝑖𝑝𝑙𝑒1, 𝑇𝑟𝑖𝑝𝑙𝑒2),並挑選出

使得相似度最大 的𝑑𝑖,若相似度最大值大於門檻值則進行[合併方式一]合併關聯詞與描述詞𝑑𝑖, d1 對應到[合併方式一]中的𝑥1,𝑑𝑖對應到𝑥2,𝑟1對應到𝑦1,𝑟2對應到𝑦2,合併結 果的面向詞以Triple2 的面向詞取代。

以表 9 範例所示,𝑡𝑟𝑖𝑝𝑙𝑒1要併入到𝑡𝑟𝑖𝑝𝑙𝑒2中,會先以公式 3 計算𝑡𝑟𝑖𝑝𝑙𝑒1和 𝑡𝑟𝑖𝑝𝑙𝑒2的關聯詞與描述詞相似度,若相似度值大於門檻值,且大於門檻值的詞組 描述詞情況為「巴拉圭监狱」、「塔孔布监狱」相似,根據「發生」、「生成」、「巴 拉圭监狱」、「塔孔布监狱」所包含字詞在原報導中的TF-IDF 總和平均。合併出 的新𝑡𝑟𝑖𝑝𝑙𝑒2三元詞組的面向詞為「火災」,關聯詞為「發生」,描述詞取代成TF-IDF 均值較高的「巴拉圭监狱」。

表 9 𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3詞組合併範例

<2> 適用於𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒3詞組合併情況

𝑇𝑦𝑝𝑒1詞組為𝑇𝑦𝑝𝑒4詞組的一個特例,當𝑇𝑦𝑝𝑒4詞組的描述詞集合只包含一個

45

描述詞元素時,𝑇𝑦𝑝𝑒4詞組等同於𝑇𝑦𝑝𝑒1詞組。因此「𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒3合併方法」可 運用「𝑇𝑦𝑝𝑒4和𝑇𝑦𝑝𝑒3詞組合併方法」。

<3> 適用於𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒5詞組合併情況

令Triple1 為𝑇𝑦𝑝𝑒1,要加入合併的新詞組,Triple2 為𝑇𝑦𝑝𝑒5表示要併入的詞 組,並以[合併方式一]合併 Triple1 和 Triple2 的關聯詞與描述詞,以[合併方式二]

合併面向詞。

<4> 適用於𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒1詞組合併情況

𝑇𝑦𝑝𝑒1詞組為𝑇𝑦𝑝𝑒5詞組的一個特例,當𝑇𝑦𝑝𝑒5詞組的面向詞集合只包含一個 面向詞元素時,𝑇𝑦𝑝𝑒5詞組等同於𝑇𝑦𝑝𝑒1詞組。因此「𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒1合併方法」可

運用「𝑇𝑦𝑝𝑒1和𝑇𝑦𝑝𝑒5詞組合併方法」。

<5> 適用於𝑇𝑦𝑝𝑒3和𝑇𝑦𝑝𝑒3詞組合併情況

令Triple1 為𝑇𝑦𝑝𝑒3,要加入合併的新詞組,Triple2 為𝑇𝑦𝑝𝑒3表示要併入的詞 組,以[合併方式一]合併兩詞組的關聯詞、描述詞,新詞組的面向詞為空值。

46

相關文件