• 沒有找到結果。

第三章 研究方法

3.2.1 比對特徵介紹

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

20

3.2.1 比對特徵介紹

為了瞭解作品之間字面上的相異和相同,本節將會介紹一些字串比對的特徵,

能夠提供我們做為觀察、篩選,或是判斷作品間字面相似度的線索。然而這些字 串可以是詩歌中的語句,或是整首作品,需依據比對功能決定。這些字串比對特 徵以標點不計為前提,透過字面層次的相似度,能夠幫助我們找出可能具有對應 的作品,下表列出字串比對的特徵以及簡要的說明。

表 3.4 字串比對特徵以及簡要說明 字串比對特徵 簡要說明

共用字集合 兩字串用字字集的交集

包含重複共用字 兩字串的共用字,也記錄重複共用的部分,如疊字 共用字覆蓋率 一字串共用字數量,除以該字串字數

初步共用詞彙 一字串中共用字所構成的準詞彙 最長初步共用詞彙 初步共用詞彙中最長者

共用字構詞彙 兩字串共用字構成的準詞彙,但順序、斷點不同者

先針對 A 字串和 B 字串的比對狀況為例,以下說明計算相似度特徵的一些 方法:

1. 共用字集合

共用字即是比對 A、B 字串的個別字集 set(A)、set(B),將兩個字集交集,

即得兩字集都具有的相同字,且不考慮用字順序,如公式(1)所示。比對兩字 串,若共用字集合具有越多元素,則兩字串所攜帶的共同文字訊息越多。假 設 A 字串為宋詞人賀鑄〈清商怨〉23中一句「朝來風色好」,B 字串為唐詩人

23《全宋詞》,賀鑄,〈清商怨〉:

揚州商女。。寄扁舟,江南湖北道。津頭龍祠屢。信指、半春前到。笑倚危檣,朝來風色好。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

22

孫孫又孫」,包含重複共用字為「子子孫孫」,這個方法補足了共用字集合只 有「子孫」,不能完整表示兩字串疊字、或是多個相同字共用的狀況。

3. 共用字覆蓋率

共用字覆蓋率為計算一字串使用共用字的多寡,若使用較多的共用字時,

也代表著此一字串和另一字串有較多共同的地方,因此共用字覆蓋率也是估 計兩字串相似度的重要指標,如公式(2),其中計算字串用字屬於共用字數量 時,重複用字也計。假設 A 字串為詩經小雅〈楚茨〉中一句「子子孫孫」,B 字串為宋詞人鄒應龍〈鷓鴣天〉中一句「子子孫孫孫又孫」,共用字集合為「子 孫」,A 字串共用字覆蓋率為 100.00%,B 字串共用字覆蓋率的計算方法為,

字串用字屬於共用字數量 6 字,除以字串字數 7 字,得共用字覆蓋率約為 85.71%。

共用字覆蓋率 = 字串用字屬於共用字數量/字串字數 (2)

4. 初步共用詞彙

先標記共用字在 A、B 字串所在,未被標記的字做為字串切割的參考,

取得 A、B 兩字串的子字串集合,若在 A、B 子字串中都有出現,得 A、B 初步共用詞彙集合。圖 3.3 為初步共用詞彙演算法。假設 A 字串為詩經小雅

〈采菽〉27中一句「天子命之」,B 字串為唐詩人盧肇〈漢堤詩〉28中一句「天

目光如鏡步如雲。年年長侍華堂宴,子子孫孫孫又孫。

27《詩經》,小雅·魚藻之什,〈采菽〉:

采菽采菽,筐之莒之。君子來朝,何錫予之?雖無予之?路車乘馬。又何予之?玄袞及黼。

觱沸檻泉,言采其芹。君子來朝,言觀其旂。其旂淠淠,鸞聲嘒嘒。載驂載駟,君子所屆。

赤芾在股,邪幅在下。彼交匪紓,天子所予。樂只君子,天子命之。樂只君子,福祿申之。

維柞之枝,其葉蓬蓬。樂只君子,殿天子之邦。樂只君子,萬福攸同。平平左右,亦是率從。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

23

子賜之」,共用字集合為「天子之」,初步共用詞彙為「天子、之」。圖 3.4 為 演算法各步驟的範例。

Input: 根據共用字集合標記 A、B 兩句裡,共用字出現的位置,為Ac、Bc Output: A、B 字串的初步共用詞彙、共用字構詞彙

1. 根據Ac、Bc標記結果,句子共用字標記的位置中間有無間隔為文字 切斷的標準,若有則斷開,得Acc及Bcc

2. 取Acc及Bcc交集,取得 A、B 兩句初步的共用詞彙。

3. 若不處於交集中的詞彙,則為用字相同但非初步共用詞彙Acp、Bcp, 得 A 字串共用字構詞彙Acp、B 字串共用字構詞彙Bcp

圖 3.3 初步共用詞彙、共用字構詞彙演算法

泛泛楊舟,紼纚維之。樂只君子,天子葵之。樂只君子,福祿膍之。優哉遊哉,亦是戾矣。

28《全唐詩》,卷 551,盧肇,〈漢堤詩〉:

陰沴奸陽,來暴於襄。洎入大郛,波端若鋩。觸厚摧高,不知其防。駭潰顛委,萬室皆毀。

灶登蛟鼉,堂集鱣鮪。惟恩若讎,母不能子。洪潰既涸,閈閎其虛。以隳我堵,以剝我廬。

酸傷顧望,若踐丘墟。帝曰念嗟,朕日南顧。流災降慝,天曷台怒。滔滔襄郊,捽我嬰孺。

於惟餘甿,饑傷喘呼。斯為淫痍,孰往膏傅。惟汝元寮,僉舉明哲。我公用諧,苴茅杖節。

來視襄人,噢咻提挈。不日不月,咍乎抃悅。乃泳故堤,陷於沙泥。缺落坳圮,由東訖西。

公曰嗚呼,漢之有堤。實命襄人,不力乃力。則及乃身,具鍤與畚。漢堤其新,帝廩有粟。

帝府有緡,爾成爾堤。必錫爾勤,襄人怡怡。聽命襄滸,背囊肩杵。奔走蹈舞,分之卒伍。

令以麾鼓,尋尺既度。日月可數,登登嶪嶪。周旋上下,披峴斫楚。飛石挽土,舉築殷雷。

駭汗霏雨,疲癃鰥獨。奮有筋膂,呀籲來助。提筐負筥,不勞其勞。

雜遝笑語,咸曰盧公,來賜我生。斯堤既成,蜿蜿而平。

確爾山固,屹如雲橫。漢流雖狂,堅不可蝕。代千年億,與天無極。惟公之堤,昔在人心。

既築既成,橫之于南。萌渚不峻,此門不深。今複在茲,于漢之陰。斯堤已崇,茲民獲祐。

齯童相慶,室以完富。貽於襄人,願保厥壽。繄公之功,赫焉如晝。捍此巨災,崒若京阜。

天子賜之,百姓載之。族孫作詩,昭示厥後。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

24

Input: 根據共用字集合標記 A、B 兩句裡,共用字出現的位置 Ac =天子命之

Bc =天子賜之

1. 根據Ac、Bc標記結果,句子共用字標記的位置中間有無間隔為斷詞 標準,若有則斷開,取得

Acc={天子,之}

Bcc ={天子,之}

2. 取Acc及Bcc交集,取得 A、B 兩句初步的共用詞彙{天子,之}

3. Acc,差集初步共用詞彙,得 A 字串共用字構詞彙Acp=∅

Bcc,差集初步共用詞彙,得 B 字串共用字構詞彙Bcp=∅

圖 3.4 共用詞彙、共用字構詞彙演算法各步驟範例

5. 最長初步共用詞彙

由於本研究會先計算兩字串的初步共用詞彙,初步共用詞彙中最長者,

即為兩字串最長初步共用詞彙。延續前一個例子,假設 A 字串為詩經小雅

〈采菽〉中一句「天子命之」,B 字串為唐詩人盧肇〈漢堤詩〉中一句「天 子賜之」,初步共用詞彙為「天子、之」,最長初步共用詞彙為「天子」。

6. 共用字構詞彙

共用字在 A、B 字串所組成的詞彙,且在 A、B 字串以不同順序或組合 不同的方式出現。假設 A 字串為宋詞人潘閬〈酒泉子〉29中一句「空役夢魂

29《全宋詞》,潘閬,〈酒泉子〉(十之五):

長憶孤山,山在湖心如黛簇。僧房四面向湖開。輕棹去還來。芰荷香噴連雲閣。

閣上清聲簷下鐸。別來塵土汙人衣。空役夢魂飛。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

25

飛」,B 字串為唐詩人沙磧女子〈五原夜吟〉30中一句「孤魂空逐雁南飛」,圖 3.5 為演算法各步驟的範例,兩句初步共用詞彙為空集合,A 字串共用字構 詞彙為「空、魂飛」,得 B 字串共用字構詞彙為「魂空、飛」。再舉一例,假 設 A 字串為宋詞人潘閬〈酒泉子〉中一句「芰荷香噴連雲閣」,B 字串為唐 詩人閻選〈臨江仙〉31中一句「雨停荷芰逗濃香」,A 字串共用字構詞彙為「芰 荷香」,得 B 字串共用字構詞彙為「荷芰、香」。

Input: 根據共用字集合標記 A、B 兩句裡,共用字出現的位置 Ac =空役夢魂飛

Bc =孤魂空逐雁南飛

1. 根據Ac、Bc標記結果,句子共用字標記的位置中間有無間隔為斷詞 標準,若有則斷開,取得

Acc={空,魂飛}

Bcc ={魂空,飛}

2. 取Acc及Bcc交集,取得 A、B 兩句初步的共用詞彙 ∅

3. Acc,差集初步共用詞彙,得 A 字串共用字構詞彙Acp={空,魂飛}

Bcc,差集初步共用詞彙,得 B 字串共用字構詞彙Bcp={魂空,飛}

圖 3.5 初步共用詞彙、共用字構詞彙演算法各步驟範例

30 《全唐詩》,卷 866,沙磧女子,〈五原夜吟〉:

雲鬟消盡轉蓬稀,埋骨窮荒失所依。牧馬不嘶沙月白,孤魂空逐雁南飛。

31《全唐詩》,卷 897,閻選,〈臨江仙〉:

雨停荷芰逗濃香,岸邊蟬噪垂楊。物華空有舊池塘。不逢仙子,何處夢襄王。

珍簟對欹鴛枕冷,此來塵暗淒涼。欲憑危檻恨偏長。藕花珠綴,猶似汗凝妝。

十二高峰天外寒,竹梢輕拂仙壇。寶衣行雨在雲端。畫簾深殿,香霧冷風殘。

欲問楚王何處去,翠屏猶掩金鸞。猿啼明月照空灘。孤舟行客,驚夢亦艱難。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

26