本系統在此階段會將資料作前置處理,也就是當沒有任何人提供標籤時,系 統自動內建一些關鍵詞,供使用者加註標籤時參考。其目的有二:第一是當後續 合併彙整之後可以產生更多標籤/關鍵詞的推薦,以便發掘出更多潛藏於系統的資 源;第二是將內建關鍵詞放在每個藝術作品的網頁上,可以快速告訴使用者這個 作品的重點為何及原始作者的想法,激發使用者聯想更多其他的標籤。
本研究採取的是中研院詞庫小組的中文斷詞系統,圖19是中文斷詞的處理步 驟,依序說明如下:
圖19:中文斷詞處理步驟
1. 資料擷取
楊英風美術作品總共有11 個類別,如圖 19,在做資料採擷時是將每一
類別分別來作,因在不同類別的美術作品,其所呈現的體裁、技法、描述、
內容都不太一樣,所擷取出來的關鍵詞也不盡相同。表 3為每一個藝術作品 在網頁上所呈現出來的資料列表,也是本研究需要斷詞的資料,分別為作品 名稱、副標題、體裁、材質、技法、摘要,選擇這些欄位的資料斷詞是因為 其內容能確切描述此美術作品,也代表其特徵。
表 3:美術作品擷取資料欄位表 (資料來源:http://yuyuyang.e-lib.nctu.edu.tw/)
欄位 範例 個API供用戶端呼叫,資料的交換方式採用 XML,用戶端自行撰寫程式經 由TCP Socket 連線傳送驗證資訊及文本至伺服器端,伺服器處理後經由原 連線傳回結果。用戶端傳送資料之 XML 格式如表 4:
表 4:CKIP用戶端傳送之XML格式[46]
<?xml version="1.0" ?>
<wordsegmentation version="0.1">
<option showcategory="1" />
<authentication username="XYZ" password="ABC" />
<text>台新金控 12 月 3 日將召開股東臨時會進行董監改選。</text>
username 及 password 為用戶端所申請之帳號及密碼,<text> 區段內包 含文本,文本不應包含會使XML 格式錯誤之字元如 "<" 及 ">",此等字元 需加以適當處理(例如轉換為全形符號),以免造成處理錯誤的結果。文本不 需預先進行斷句,伺服器會自行判斷句子的邊界。
CKIP的處理結果亦由伺服器以XML格式回傳,如表 5:
表 5:CKIP伺服器傳回XML格式的處理結果[46]
<?xml version="1.0" ?>
<wordsegmentation version="0.1">
<processstatus code="0">Success</processstatus>
<result>
<sentence> 台新(N) 金控(N) 12月(N) 3日(N) 將(ADV) 召開 (Vt) 股東(N) 臨時會(N) 進行(Vt) 董監(N) 改選(Vt) ,
(COMMACATEGORY) </sentence>
</result>
</wordsegmentation>
其中 <processstatus> 區段為處理的結果,除了 code=0 表示成功外,
另外有三種可能的處理結果如表 6:
表 6:CKIP回傳另外三種XML格式的處理結果[46]
<processstatus code="1"> Service internal error</processstatus>
<processstatus code="2">XML format error</processstatus>
<processstatus code="3">Authentication failed</processstatus>
code=1 表示伺服器內部發生錯誤,可能是由不預期的字元或是過於複 雜的句子結構所造成;code=2 表示接收到的XML格式有錯誤;code=3 表示 帳號或密碼錯誤。斷詞過的所有句子包含在 <result> 區段內,每一句儲存 於 <sentence> 區段中,每個詞以全形空白隔開[46]。
3. 詞性擷取
經過斷詞後,並非所有斷出來的詞都需要擷取,本研究觀察楊英風網站 的美術作品,其中能表示美術作品特徵者大多為名詞及某些動詞。表 7整理 出需要截取的詞性。如果斷出來字詞的詞性屬於精簡詞類裡的N及Vi,則不 管在哪個欄位一律全部擷取,如果詞性屬於精簡詞類的Vt時,則只擷取作品 名稱欄位,因Vt包含多種不同的動詞,若是全部欄位都擷取,則會選到太多 不必要的字詞,故只有在作品名稱有包含Vt詞性的才會擷取出來。
表 7:中文斷詞詞類擷取列表(整理自附錄一) 別性,在英文中如the、of、and,移除停用字可以提升檢索效率及降低擷取 不必要的關鍵詞。停用字的作法通常會採取停用字清單(Stoplist)來過濾不要
ijk
freq
tf freq
= max
公式4-1其中,freq
ijk:在所屬類別k中,字詞i在美術作品j中的詞頻
max freqlk:字詞 l 是在所屬類別 k 中,出現頻率最多次的字詞