• 沒有找到結果。

第三章 研究方法

3.2.6 作品字面對應的判定

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

47

3.2.6 作品字面對應的判定

若以兩作品的對應狀況,判定分為以下幾個層次:「兩作品改易的字數 5 字 以下」、「兩作品共用字覆蓋率 50%以上、但改易字數超過 5 字以上」、「兩作品共 用字覆蓋率 50%以下,但具有語句相似的狀況」,說明如下:

「兩作品改易的字數 5 字以下」,會選擇字數 5 字,是因為在唐詩中比較短 的作品如五言絕句,每一句為 5 個字,共 4 句,這樣的篩選最大可以容許五言絕 句的比對結果中一句完全不同。此種狀況有兩種可能,一種是「作品重複收錄」

的狀況,如:李白的〈清平調〉66,在《全唐詩》的第 27 卷、164 卷和 890 卷中 皆有收錄;若作者不同,則也可能是古籍傳抄時的作者誤植,或為另一種「作品 抄襲」的狀況。

根據謝銘洋[51]的研究,以現今法律而言,要判斷文字上的抄襲,必須要以 文字的「量之近似」以及「質之近似」程度來判定,所謂「量之近似」是指字面 的相似程度,「質之近似」則指概念或想法,或者有抄襲嫌疑的部份是原著作的 重要部份。智慧財產法院對於「量之近似」的判斷,擷取一些法院判例作為參考,

智慧財產法院表示:「就量之相似而言,兩者在量上已達相當比例相同或相似程 度」67;最高法院表示:「近七成比例的相似度,可謂接近抄襲之嫌」68

綜合上述概念,本研究的字面比對,只能幫助「量之近似」的判斷,又兩作 品字面上已達相當比例相似程度,如近 70%就可能有抄襲的嫌疑,故本研究以共 用字覆蓋率評估兩作品字面的相似程度,並用兩作品共用字覆蓋率都在 50%以上,

也就是兩作品都有一半以上相同,盡可能篩選出有抄襲嫌疑的作品,或是重複較

66 《全唐詩》,卷 27,李白,〈雜曲歌辭·清平調〉:

雲想衣裳花想容,春風拂檻露華濃。若非群玉山頭見,會向瑤台月下逢。

一枝紅豔露凝香,雲雨巫山枉斷腸。借問漢宮誰得似,可憐飛燕倚新妝。

名花傾國兩相歡,長得君王帶笑看。解釋春風無限恨,沉香亭北倚闌幹。

67 智慧財產法院 99 年度民著訴第 36 號民事判決

68 最高法院 96 年度台上字第 529 號刑事判決

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

49

車〉72中的「未見君子,憂心忡忡」、「憂心悄悄」;「君子至止」可能來自於詩經 國風〈終南〉73中的「君子至止」;「亦既覯止,我心則夷」、「未見君子,我心忡 忡」、可能來自於詩經國風〈草蟲〉74中的「亦既覯止,我心則夷」、「未見君子,

憂心忡忡」。如以上例子,一個作品除了可能對應上多個作品之外,也有可能發 生同一個語句可以對應上許多不同語句的狀況。若一首作品,有多詩句是可以對 應到不只一首的前人作品,就可能為「集句詩」[41],不過本研究只能提供線索,

供人文專家學者判斷。

歲之秋深,蟬其夕吟。披衣軒除,蕭蕭風林。我友來斯,言告離衿。何以敘懷,臨水鳴琴。

何以贈言,委順浮沉。

72 《詩經》,小雅·鹿鳴之什〈出車〉:

我出我車,於彼牧矣。自天子所,謂我來矣。召彼僕夫,謂之載矣。王事多難,維其棘矣。

我出我車,於彼郊矣。設此旐矣,建彼旄矣。彼旟旐斯,胡不旆旆?憂心悄悄,僕夫況瘁。

王命南仲,往城于方。出車彭彭,旗旐央央。天子命我,城彼朔方。赫赫南仲,玁狁於襄。

昔我往矣,黍稷方華。今我來思,雨雪載途。王事多難,不遑啟居。豈不懷歸?畏此簡書。

喓喓草蟲,趯趯阜螽。未見君子,憂心忡忡。既見君子,我心則降。赫赫南仲,薄伐西戎。

春日遲遲,卉木萋萋。倉庚喈喈,采蘩祁祁。執訊獲醜,薄言還歸。赫赫南仲,玁狁於夷。

73 《詩經》,國風·秦風〈終南〉:

終南何有?有條有梅。君子至止,錦衣狐裘。顏如渥丹,其君也哉!終南何有?有紀有堂。

君子至止,黻衣繡裳。佩玉將將,壽考不忘!

74 《詩經》,國風·召南〈草蟲〉:

喓喓草蟲,趯趯阜螽。未見君子,憂心忡忡。亦既見止,亦既覯止,我心則降。

陟彼南山,言采其蕨。未見君子,憂心惙惙。亦既見止,亦既覯止,我心則說。

陟彼南山,言采其薇。未見君子,我心傷悲。亦既見止,亦既覯止,我心則夷。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

50

詩歌詞彙自動擷取方法

除了用 3.2 節比對的方式找出唐詩的對應外,本研究也想以詞彙、以及詞彙 所隱含的語意作為觀察對應的特徵之一。

3.2 節的比對方法,共用詞彙常在「一字不改,且順序相同」或是「改易一 字,順序相同」的語句對應關係中,而顯的很長,沒有辦法很完整的切分出詞彙,

而且同一語句,在不同對應中,同一語句可能會被切成多種不同的詞彙組合。另 一方面則是,如果有一語句都沒有對應到其他句的話,語句內容沒有辦法切分成 詞彙,所以本研究不由字面對應的結果擷取詞彙。

因為現代中文的斷詞器大多數都以白話文作為訓練語料,唐、宋詩詞等古典 中文語料,大多為古代的韻文體裁,運用現有的斷詞器進行斷詞,可能無法達到 預期的效果,除非有大量的人工斷詞完成的訓練語料,因此本研究詞彙抽取採用 其他的辦法。在過去的一些詩歌的斷詞研究中,有一些是值得我們參考的,本研 究採用 PMI(pointwise mutual information)[1]的方法,結合羅鳳珠[54]提出的詩詞 句法規律,擷取詩詞中的詞彙。

本研究認為詩歌中的詞彙具有下列幾種特性:

 符合句法規律。

 在詩歌句法規律具有多種可能時,其中有一種組合符合正確的詞彙 擷取。

根據以上特性,本研究設計以「符合詩歌句法規律」為優先,輔以 PMI 演 算法;在詩歌句法規律無法直接作為切詞判斷時,評估不同的斷詞組合成詞的 可能性,「詩歌句法規律」可以提供本研究初步的詞彙擷取方案選擇的可能。

什麼是 PMI 呢?PMI 是從 mutual information(MI) 演化而來,其精神是基於 機率方法計算二字或多字成詞的可能性。

舉例來說,計算雙字詞 PMI 之前,要先求得 n-grams 在實驗語料中的機率。

假設一單字詞x1、一雙字詞𝑥1𝑥2、一 n 字詞𝑥1𝑥2𝑥3… 𝑥𝑛,x1出現在語料中的次數

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

51

tf(x1)、𝑥1𝑥2出現次數tf(𝑥1𝑥2)、𝑥1𝑥2𝑥3… 𝑥𝑛出現次數tf(𝑥1𝑥2𝑥3… 𝑥𝑛),在實驗語 料中所有包含重複的單字詞數量t1、雙字詞數量t2、n 字詞數量t𝑛,那麼x1、𝑥1𝑥2、 𝑥1𝑥2𝑥3… 𝑥𝑛 的 出 現 機 率 分 別 為p(x1) = tf(x1)/t1、p(𝑥1𝑥2) = tf(𝑥1𝑥2)/t2、 p(𝑥1𝑥2𝑥3… 𝑥𝑛) = tf(𝑥1𝑥2𝑥3… 𝑥𝑛)/t𝑛,一個 n 字詞出現的機率相當於此 n 字詞在 所有 n 字詞中出現的機率。公式(4)中的 pmi 是計算 a、b 兩字在實驗語料中的 PMI。

pmi(ab) = log 𝑝(𝑎𝑏) 𝑝(𝑎)𝑝(𝑏)

(4)

那麼如何計算多字的 PMI 呢?公式(5)中的 PMI 計算一 n 字詞𝑥1𝑥2𝑥3… 𝑥𝑛在 實驗語料中的 PMI。

pmi(𝑥 1 𝑥 2 𝑥 3 … 𝑥 𝑛 ) = log 𝑝(𝑥 1 𝑥 2 𝑥 3 … 𝑥 𝑛 )

𝑝(𝑥 1 )𝑝(𝑥 2 ) … 𝑝(𝑥 𝑛 ) (5)

我們將計算詩歌中每一個連續二字的 PMI,作為在詩歌句法規律無法直接作 為切詞判斷時的參考,二字的 PMI 越高,理論上比較可能成為二字詞,反之則 應該斷開。

唐詩分為古體詩和近體詩,一般多為五言或七言的結構,但也有少數四言或 六言詩,或是長短句的情況。參考蔣紹愚《唐詩語言研究》[47]第三章〈唐詩的 句法〉,分析詩的句法規律,五言詩多採用上 2 下 3 的句法,如:王維〈相思〉

中一語句「紅豆生南國」,可分為「紅豆」+「生南國」,七言詩則多上 4 下 3,

如:賀知章〈回鄉偶書〉中一語句「少小離家老大回」,可分為「少小離家」+

「老大回」,以上極少例外,也就是說大部分的情況能肯定,五言詩可初步切分 為 2+3,七言詩可初步切分為 4+3 的句法。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

52

如果更進一步再切分,五言詩可再切分為 2+2+1 或是 2+1+2 的句法,如:「紅 豆生南國」因為 pmi(南國)大於 pmi(生南),所以可進一步切分成「紅豆」+「生」

+「南國」,而非切分為「紅豆」+「生南」+「國」;或如:「春草年年綠」可進 一步切分成「春草」+「年年」+「綠」。七言則常見 2+2+2+1 或 2+2+1+2 句法,

如:「月落烏啼霜滿天」,因為 pmi(滿天)大於 pmi(霜滿),可進一步切分成「月落」

+「烏啼」+「霜」+「滿天」;或如:「坐看牽牛織女星」可進一步切分成「坐看」

+「牽牛」+「織女」+「星」。

以上可以發現五言和七言詩多以雙字詞組成,除每一語句最末 3 個字需要判 斷是 1+2 或是 2+1 句法。為瞭解決這個問題,本研究採用 PMI 作為判斷依據,

比較 1+2 中的 2 和 2+1 中的 2 何者 PMI 值較高。例如「疑是地上霜」斷詞可能 為「疑是」+「地上」+「霜」或是「疑是」+「地」+「上霜」,當「地上」的 PMI 值大於「上霜」,採取第一種斷詞結果。我們把以上句法規則推廣到所有奇數字 的語句,這些語句多為 2k+1+2 或 2k+2+1 的句法,若為奇數字的語句皆以此法 斷詞,如:李白〈襄陽歌〉中的有一句九字句,斷為「春風」+「明月」+「不 用」+「一錢」+「買」。

《全唐詩》中除了大多數是五言詩和七言詩外,尚有少部分的其他古詩或長 短句,可能為偶數字句,如:樂府詩中,有時以「君不見」起始 (羅鳳珠[54]),

李白「君不見黃河之水天上來」,此句有 10 個字,若去除「君不見」,「黃河之水 天上來」為七字句,能用奇數字語句的斷詞方法,進行詞彙抽取。或者如:徐堅

〈送考功武員外學士使嵩山置舍利塔歌〉中,有許多 6 個字的語句,有單字詞在 句首的現象 (羅鳳珠[54]),舉其中兩句 6 個字的語句為例,「對三春之花月,覽 千里之風煙」,其中句首的「對」、「覽」皆為單字詞,而非單字詞的語句「三春 之花月」、「千里之風煙」可以由奇數字語句的斷詞模組進行斷詞。

另外,唐詩中的 4 字句,如:徐堅〈送考功武員外學士使嵩山置舍利塔歌〉

中的「伊川別騎,灞岸分筵」皆可以二二斷詞。綜合以上,偶數字語句的斷詞模

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

53

組,會先判斷句首是否為樂府詩的「君不見」,若有就先行斷開後,再對剩下的 語句進行斷詞;若為其他偶數字語句,4 字以下為二二斷開;若遇到 6 個字(含) 以上語句,則須以 PMI 判斷句首是否為單字詞,方法為取語句最前面的 3 個字,

計算第一個字和第二個字、第二個字和第三個字兩者的 PMI,比較兩者判斷是 2+1 或是 1+2 的句法,斷開字首後,再接著判斷剩下的語句為奇數或是偶數,再 由相對應的模組進行斷詞。統整以上,我們將唐詩的斷詞選項以及演算法整理如 下:

Input:詩歌中每一個連續二字的 PMI、語句𝑥1𝑥2𝑥3… 𝑥𝑛 Output:斷詞完成的語句

1.判斷是否為「君不見」起始,若有則先斷開,「君不見」之後的語句再進行斷 詞

2.判斷語句字數 n,針對不同 n 的語句句法規律,進行以下不同的斷詞處理

字數 斷詞處理(句法規律)

n=1 or 2 不需斷詞

n=4 2+2

n=6(含)以上偶數 1+(n-1) or 2k ( k=n/2 ) (n=6  1+5 or 2+2+2) n=奇數 2k+1+2 or 2k+2+1 ( k=(n-3)/2 )

3.當 n=6(含)以上偶數,針對以下兩種狀況進行斷詞處理,當結果為1 + 𝑥2𝑥3… 𝑥𝑛

3.當 n=6(含)以上偶數,針對以下兩種狀況進行斷詞處理,當結果為1 + 𝑥2𝑥3… 𝑥𝑛