• 沒有找到結果。

中文斷詞處理

本系統在此階段會將資料作前置處理,也就是當沒有任何人提供標籤時,系 統自動內建一些關鍵詞,供使用者加註標籤時參考。其目的有二:第一是當後續 合併彙整之後可以產生更多標籤/關鍵詞的推薦,以便發掘出更多潛藏於系統的資 源;第二是將內建關鍵詞放在每個藝術作品的網頁上,可以快速告訴使用者這個 作品的重點為何及原始作者的想法,激發使用者聯想更多其他的標籤。

本研究採取的是中研院詞庫小組的中文斷詞系統,圖19是中文斷詞的處理步 驟,依序說明如下:

19:中文斷詞處理步驟

1. 資料擷取

楊英風美術作品總共有11 個類別,如圖 19,在做資料採擷時是將每一

類別分別來作,因在不同類別的美術作品,其所呈現的體裁、技法、描述、

內容都不太一樣,所擷取出來的關鍵詞也不盡相同。表 3為每一個藝術作品 在網頁上所呈現出來的資料列表,也是本研究需要斷詞的資料,分別為作品 名稱、副標題、體裁、材質、技法、摘要,選擇這些欄位的資料斷詞是因為 其內容能確切描述此美術作品,也代表其特徵。

表 3:美術作品擷取資料欄位表 (資料來源:http://yuyuyang.e-lib.nctu.edu.tw/)

欄位  範例  個API供用戶端呼叫,資料的交換方式採用 XML,用戶端自行撰寫程式經 由TCP Socket 連線傳送驗證資訊及文本至伺服器端,伺服器處理後經由原 連線傳回結果。用戶端傳送資料之 XML 格式如表 4:

表 4:CKIP用戶端傳送之XML格式[46]

<?xml version="1.0" ?>

<wordsegmentation version="0.1">

<option showcategory="1" />

<authentication username="XYZ" password="ABC" />

<text>台新金控 12 月 3 日將召開股東臨時會進行董監改選。</text>

username 及 password 為用戶端所申請之帳號及密碼,<text> 區段內包 含文本,文本不應包含會使XML 格式錯誤之字元如 "<" 及 ">",此等字元 需加以適當處理(例如轉換為全形符號),以免造成處理錯誤的結果。文本不 需預先進行斷句,伺服器會自行判斷句子的邊界。

CKIP的處理結果亦由伺服器以XML格式回傳,如表 5:

表 5:CKIP伺服器傳回XML格式的處理結果[46]

<?xml version="1.0" ?>

<wordsegmentation version="0.1">

<processstatus code="0">Success</processstatus>

<result>

<sentence> 台新(N) 金控(N) 12月(N) 3日(N) 將(ADV) 召開 (Vt) 股東(N) 臨時會(N) 進行(Vt) 董監(N) 改選(Vt) ,

(COMMACATEGORY) </sentence>

</result>

</wordsegmentation>

其中 <processstatus> 區段為處理的結果,除了 code=0 表示成功外,

另外有三種可能的處理結果如表 6:

表 6:CKIP回傳另外三種XML格式的處理結果[46]

<processstatus code="1"> Service internal error</processstatus>

<processstatus code="2">XML format error</processstatus>

<processstatus code="3">Authentication failed</processstatus>

code=1 表示伺服器內部發生錯誤,可能是由不預期的字元或是過於複 雜的句子結構所造成;code=2 表示接收到的XML格式有錯誤;code=3 表示 帳號或密碼錯誤。斷詞過的所有句子包含在 <result> 區段內,每一句儲存 於 <sentence> 區段中,每個詞以全形空白隔開[46]。

3. 詞性擷取

經過斷詞後,並非所有斷出來的詞都需要擷取,本研究觀察楊英風網站 的美術作品,其中能表示美術作品特徵者大多為名詞及某些動詞。表 7整理 出需要截取的詞性。如果斷出來字詞的詞性屬於精簡詞類裡的N及Vi,則不 管在哪個欄位一律全部擷取,如果詞性屬於精簡詞類的Vt時,則只擷取作品 名稱欄位,因Vt包含多種不同的動詞,若是全部欄位都擷取,則會選到太多 不必要的字詞,故只有在作品名稱有包含Vt詞性的才會擷取出來。

表 7:中文斷詞詞類擷取列表(整理自附錄一) 別性,在英文中如the、of、and,移除停用字可以提升檢索效率及降低擷取 不必要的關鍵詞。停用字的作法通常會採取停用字清單(Stoplist)來過濾不要

ijk

freq

tf freq

= max

公式4-1

其中,freq

ijk

:在所屬類別k中,字詞i在美術作品j中的詞頻

max freqlk:字詞 l 是在所屬類別 k 中,出現頻率最多次的字詞

k = 1, 2,……,11,表示美術作品類別版畫、繪畫、雕塑….等等

相關文件