WordNet 是由普林斯頓大學教授 Miller 指導建立和維護的英文辭典[29],開發 工作從 1985 年開始。WordNet 運用認知語言學的理論,以人類語言機制中對詞彙 記憶結構的特性,將詞彙收錄至此知識庫中。這些詞彙包含英文的名詞、動詞、形 容詞以及副詞,收錄時組織成同義詞集(Synset),為語意的基本的單位,一個同義 詞集包含的資訊有:編號、同義詞、解釋、例句,如表 2-5 所示。
如果一個詞彙同時收錄於兩個以上的同義詞集中,稱此詞彙具有歧義現象,如 表 2-8 中的 club 就具有(club.3058296)、(club.3057459)、(club.3451003)三種語意 (club 在 WordNet 名詞部分中有 7 個語意﹔此處僅節錄其中 3 個)。
表 2-8 以詞「club」及「stick」為例之 WordNet 同義詞集資訊
編號 同義詞 解釋 例句
(club.3058296) clubhouse, club
a building that is occupied by a social club
"the clubhouse needed a new roof"
(club.3057459) club
stout stick that is larger at one end
"he carried a club in self defense";
"he felt as if he had been hit with a club"
(club.3451003)
golfclub, club
golf equipment used by a golfer to hit a golf ball
(stick.4324558) stick an implement consisting of a length of wood
"he collected dry sticks for a campfire";
"the kid had a candied apple on a stick"
WordNet 除了以同義詞集為語意單位外,並定義同義詞集彼此間所具有之語意 關係,包含了上下位關係、整體部分關係、反義關係…等等。以表 2-5 (club.3057459) 的同義詞集為例,因為其上位同義詞集為 (stick.4324558),稱(stick.4324558)及 (club.3057459)這兩個同義詞集間具有上下位關係。此一上下位關係串聯起 WordNet 中名詞部分的同義詞集,形成了階層式的組織。
圖 2-3 WordNet 的階層關係
計算兩個詞彙之間的相似度[36][37],WordNet 的概念具有遞移性,如圖 2-3 所 示[carrot] is a [root]、[root] is a [plant organ],所以也可以說[carrot] is a [plant organ],
如果要計算語意之間的相似度則必須先找出兩個語意共同的上位語意,例如[carrot]
與[radish]的共同上位語意為[root],從這兩個語意到共同上位語意的 Edge 數皆為 1,所以兩個語意之間的距離為 2 個 Edge 數,可以由此得知兩個語意具有很高相 似度。
如果在中文的環境想要跨語言使用 WordNet 則必須透過翻譯,廖彥盛[32]提出 一個將 WordNet 中的同議詞集翻譯成任何語言的研究,其細部分為三個階段,假 設目的為翻譯這個同議詞集「plant#n#1」(表示為「plant」這個詞彙在 WordNet 名 詞 語 料 庫 中的 第 一個語 意 ) , 第 一階 段 藉由 同 議 詞 集「 plant#n#1 」 的 同 議 詞 (Synonyms),找出是否有詞彙在 WordNet 中為單議詞,如果為單議詞則將該詞彙 以及詞彙所屬的語意定義使用 Google 所開發的 API 進行翻譯,假如在第一階段找 不到任何單議詞則進入第二階段。
第二階段則是藉由同議詞集「plant#n#1」之下位關係(Hyponyms)的同議詞集如 表 2-9,從這些下位同議詞集的同議詞中找出含有「plant」的詞彙,例如「bottling plant」、「assembly plant」,假設有找到則將這些詞彙依照第一階段的方法進行翻譯,
否則進入第三階段。
表 2-9 「plant#n#1」之下位關係(Hyponyms)的同議詞集
Hyponyms of noun plant
plant, works, industrial_plant => bottling_plant
第三階段引入額外的語料庫(British National Corpus),其中語料庫中提供詞彙 頻率,找出與「plant」搭配的詞彙取出詞彙會頻率前 10 的詞彙進行翻譯如表 2-10, 2 treatment plant 910,152 3 manufacturing plant 344,454 4 processing plant 302,879 5 tree plant 157,243 6 production plant 156,958 7 assembly plat 139,521 8 host plant 121,127 9 water plant 112,273 10 pilot plant 104,455
另外也有研究[33]提出使用朗文當代英漢字典的中文翻譯對應到 WordNet 的
同議詞集,其中提到對於詞彙的歧義現象,若提供詞彙
X
上若含有多個主要詞義,可以假設這些主要詞義會分別出現在 WordNet 及機讀字典中,如表 2-11 所表示的 對應中,若詞彙
X
具有k
個主要的詞義,並出現在x
個同義詞集,及y
個字典定義 中,則我們可以找到k
個對應M
p q, ,1 p x,1 q y,每一個對應M
p q, 代表一 筆標註S
p與L
q的連結關係。表 2-11 WordNet 與機讀字典詞義對應[33]
詞彙
X
機讀字典詞義WordNet 同議詞集
L
1L
2 …L
y1
{..., X, ...}
S M
1,1M
1,2 …M
1, y2
{..., X, ...}
S M
2,1M
2,2 …M
2, y… … … … …
{..., X, ...}
S
xM
x,1M
x,2 …M
x y,其中朗文當代英漢字典(Longman English-Chinese Dictionary of Contemporary English)為機讀字典(Machine Readable Dictionary),主要的使用對象為以英文為第 二外語的學習者,初期字典以書的形式包含了超過 55,000 筆的資料,並有 41,000 筆資料電子化供機器處理。一筆資料包含了一個詞彙、詞性、以及所有的詞義,詞 義內容為其定義以及例句,並包含中文翻譯如表 2-12 所示。
表 2-12 以名詞「club」為例之朗文當代英漢字典資訊[33]
定義 例句 中文翻譯
1
a society of people who join together for a
certain purpose, esp. sport or amusement “a working-men's club” 俱樂部
2a building where such a society meets 俱樂部會址
3a heavy wooden stick, thicker at one end
than the other, suitable for use as a weapon
短棒; 棍
4
a specially shaped stick for striking a ball in certain sports, esp. GOLF
球棒; 球桿
5
a playing card with one or more 3-leafed
figures printed on it in black “I have 4 clubs in my hand.” (紙牌之)梅花
第 3 章 使用 WordNet 之文件分類
本研究提出四種商品標題處理的方法,提高商品的分類效果,其中方法一為四 種方法比較基準,以下將詳細說明各方法之處理流程,包括實驗訓練階段如何使用 TF-LLR[10][44]挑選重要特徵值,以及 WordNet[29]的使用。