關鍵字擷取 - 於數位典藏建立社會性標記之研究

每一份文件皆是由詞所組成，文件中的每個詞在該文件中的重要性也會有不同，利用每個詞在該文件的出現頻率可以用來計算該詞在文件中的重要

性。

一個詞在一文件中出現的次數稱為詞頻(TF, Term Frequency)，文件頻率 (DF, Document Frequency)是指一詞在多少篇文件中出現過，其倒數稱之為反轉文件頻率(IDF, Inverted Document Frequency)。IDF愈高代表該詞集中出現在少數文件裡，表示具有較高的獨特性，且對於這些文件也較具代表性[53]。

字詞權重計算最著名的方法是TFIDF(Term Frequency‧Inverse Document Frequency，詞頻‧反轉文件頻率)[29]，也就是用詞頻及反轉文件頻率來決定

ij freq

tf freq

= max

公式2-3

其中，freq

_ij

：字詞i在文件j中的詞類

max freq

：字詞l是在文件j中出現頻率最多次的字詞 2. 空間向量模型

Salton於 1975 年提出向量空間模型(Vector Space Model)，在傳統資訊檢索領域中是一種最簡單、最具生產力的模型[29]。此模型主要以文件、段落或句子為單位，因此任何查詢語句與文件皆可以向量的形式來表

示[27][28]。如公式 2-4、公式 2-5 所示：

)

術為Cosine Coefficient。其計算相似度如公式 2-6：

∑ ∑

資料分群(Data Clustering)的技術已經廣泛應用於各領域中，例如決策支援 (Decision Making)、機械學習(Machine Learning)、資料探勘(Data Mining)、圖像辨識(Pattern Recognition)、文件檢索等[14]。

分群方法可分為幾種如：分割法(Partitioning Method)、階層法(Hierarchical Method)、密度基礎法(Density-based Method)、格子基礎(Grid-based Method) 等[10]。以下對現有的分群法依序簡介：

1. 分割法(Partition Method)

分割法是一種對比資料，以找出相近資料的技術，最常用的為K 平均法

點的歐基里德距離；(2) 位於不同群內的物件，彼此間相似度低，亦即屬於不同群的物件其歐基里德距離愈大愈好。詳細步驟如下：

1. 先從資料物件中任意選取 k 個物件作為群心，並以其為群中心點。

2. 重複以下步驟，直到群的分佈不再改變：

(1)

計算所有物件與K 群中心點的距離，再將其物件分配給最近的群中心點。

(2)

重新計算該群的群中心點。

而另一種類似的分群法k-medois 是 k-means 的變形，它不使用群心，而是用所謂的代表物件為中心點(Representative Object，即 Medoid)。每個分群會有一個代表物件，它是該群中最接近中心而真實存在的一個物件。除此之外，分群方法的過程則和k-means 類似。

2. 密度基礎法(Density-based Method)

密度基礎法是利用相鄰區域的觀念來發現群聚之方法，當相鄰區域內資料點的密度到達預先設定的門檻值時，便自動形成一個群聚。

密度基礎法較分割法具有去除或控制偏差值的能力。目前較常見的密度基礎法有DBSCAN，OPTICS，DENCLUE。

3. 格子基礎法(Grid-based Method)

格子基礎法的概念是將包含資料點的資料空間，量化為許許多多格子 (Grid Cells)的概念，藉由計算格子內的統計資訊，進行群聚的方法。其每一個格子內皆隱藏許多資訊，因而大量的減少群聚的時間。

每一個格子內皆包含其資料的統計資訊(如平均值、標準差、最大值與最小值)，因為在演算的過程無需面對所有資料點，所以能夠大量減少演算的時間，提高此類型群聚演算法效能，尤其擅長大量且高維度資料庫。

此分群法的優點就是處理速度很快，通常與資料點的個數無關的，只與有多少個資料空間有關。目前常見的格子基礎法有STING、WaveCluster、

CLIQUE 演算法。

4. 階層分群法(Hierarchical Method)

階層式分群方法的目的在為資料物件以階層分解的方法建立樹狀結構的分群。在過程中藉由訂定終止條件，當滿足終止條件時即停止程序。判斷停止程序的終止條件通常為達到目標分群數，或是經由合併或分化後，群與群之間的相似度達到門檻值等。階層式分群方法主要可分成凝聚式

(Agglomerative)與分裂式(Divisive)兩種方法：

1. 凝聚式(Agglomerative)：又可稱為由下而上(Bottom-up)的方法，先將資料中的每一個物件自成一分群，計算兩兩群的相似度，當相似度大於既定的臨界值時，則合併兩群為一個較大的群，直到所有的物件都屬於同一個群，或是符合終止條件才停止。

2. 分裂式(Divisive)：一種由上而下(Top-Down)的分群方式，先將所有項目視為同一群，再依照物件間的相似度分割為較小子群，直到每個子群都只有一個物件或是符合終止條件才停止。

參、系統架構與實作

在本章中將介紹楊英風數位美術館建置社會性標記的技術細節，包含如何利用資訊檢索技術萃取關鍵詞，蒐集使用者於網站上標記的標籤，並將兩者結合形成大眾分類，以達成Web 2.0 應用所能期待的效果。

第一節說明本研究的核心概念；第二節介紹系統架構及技術開發所需的環境及應用軟體；第三節說明系統的資料庫設計圖；第四節到第六節詳細說明本研究開發的核心技術，依序為中文斷詞處理、線上標籤搜集、階層標籤產生器(Tag Hierarchy Generator)；第七節將解釋產出結果的應用，包含標籤地圖、標籤推薦、搜尋標籤；

第八節介紹系統操作畫面。

一、 核心概念

圖16為本研究之核心概念，主要有三個步驟，第一：透過一個線上標籤維護的介面，蒐集使用者提供的標籤；第二：除了使用者提供的標籤之外，系統會運用資訊檢索技術從線上美術館萃取出每一幅藝術作品的關鍵詞；第三：運用標籤階層的概念建立標籤地圖。

根據上一章所介紹的社會性標記，標記行為即為主要功能之一，而標籤成為使用者提供的資料索引，在本研究中所萃取的系統關鍵詞擴充了網站資源的詮釋資料，結合兩者以期能達到知識整合的效果。圖16為本研究的主要核心概念，由以下各點分別說明：

資源

分類使用者

標記資訊檢索

推薦

標籤系統關鍵詞

(詮釋資料)

圖16：本研究之核心概念

1. 標籤：代表使用者的想法，而標記是使用者加註標籤的行為，所以標籤實際上是一種意念的表徵，就意義上來說，是將外界的輸入轉化為資訊的結果。

2. 系統關鍵詞：由本系統擷取每個藝術作品的作品名稱、副標題、體裁、

材質、技法、摘要等欄位，利用資訊檢索技術計算每個詞彙的權重，再根據萃取權重較大者做為系統關鍵詞。其目的是當作推薦資訊的基礎。

當使用者看到系統關鍵詞，可能會聯想到其他相似意涵的標籤，所以它扮演的是激發大眾靈感的輔助角色。在本研究中，使用者除了可提供標籤外，也會透過兩種方式影響系統關鍵詞的權重，第一是資料搜尋，第二是標記行為，詳細的作法將會在後續介紹。

3. 分類：由標記資源所形成的分類稱為大眾分類，相對於傳統專家分類則是一種自由的分類方法。在本系統中，經由使用者不斷地標記及調整系統關鍵詞權重，分類的呈現會愈來愈完整，且不同於傳統的專家分類。

4. 使用者：在本研究是最核心的角色，所有的概念皆由使用者角度出發，

標籤必須經由標記行為產生，系統關鍵詞也會透過使用者影響其權重。

所謂Web 2.0 就是希望讓使用者與使用者、及使用者與系統間互動，讓網路資源更豐富地呈現。

5. 推薦：使用標籤地圖提供推薦詞。標籤在地圖內為節點，節點與節點中間的連線，即為兩者同時擁有的資訊內容。

本研究是改良Hsieh等人[13]的研究，應用於楊英風數位美術館上，與前研究的差異在於本研究將數位內容用中文斷詞擷取出關鍵詞，而非只是單純的讓使用者提供標籤；再者，本研究結合關鍵詞與標籤，共同建立標籤階層結構，並改良了Concept Space Generator Algorithm(CSG’s Algorithm)，強調標籤與標籤之間的共用性，而不只是用相似度來判斷兩者之間的關係。

二、 系統架構

本研究之系統架構如圖17所示。使用者進入楊英風數位美術館即可對站內美術作品進行標記。

系統模型於第一階段會將站內資料進行前置作業，針對每個藝術作品先利用 CKIP 中文斷詞系統將文字加以處理，再經過權重計算擷取其關鍵詞；第二階段則蒐集使用者於網站上所提供的標籤及搜尋資料時使用的關鍵字，並調整系統關鍵詞的權重；第三階段為系統關鍵詞與標籤的合併，然後運用階層式標籤分群法將標籤及關鍵詞建構為階層式標籤；第四階段將產生的階層式標籤分群以標籤地圖呈現，它建立標籤/關鍵詞之間的連結，透過其間的連結，對每個藝術作品提供相關的標籤推薦，稱為推薦詞，經由此推薦詞可搜尋到其他相關的藝術作品。在後續小節將針對系統的每一個模組詳細說明。

圖17：本研究之系統架構

楊英風數位美術館之標記功能開發環境如表 2。它是建構在Microsoft IIS 6 之上，原始網站程式語言採用ASP，而本研究後端標籤資料彙整是由Java語言撰寫，包含中文斷詞、詞性擷取、權重計算、關鍵詞擷取、標籤合併及階層式標籤分群法，採用JDK 1.5.0_11-b03 版本開發，階層分群演算因含大量資料，並於每日執行資料更新，故為批次處理，現階段於每天晚上11:00 執行。

表 2：楊英風數位美術館開發軟體需求

功能軟體名稱

Web Server Microsoft IIS 6

Microsoft Windows 2003 Standard SP2

Development Tools ASP

Java SE Development Kit(JDK) 1.5.0_11-b03 Borland JBuilder 2006 Enterprise

UltraEdit

Database Server Microsoft SQL Server 2005 Enterprise SP1

ODBC Driver Microsoft ODBC

三、 資料庫設計

本研究以Microsoft SQL Server 2005 Enterprise作為資料庫伺服器，在資料庫中主要設計四個表格作為完整標記功能資料的存放，分別為系統關鍵詞

(CKIPTAG Table)、標籤資訊(TAG Table)、系統關鍵詞與標籤合併表(TAGMERGE Table)及標籤階層表(TAGHIERARCHY Table)。此外，artWork Table則是存放所

有藝術作品的原始資料，也是本研究的資料來源，它與CKIPTAG Table和Tag Table呈現一對多的關係，資料模型如圖 18所示。

CKIPTAG Table 儲存資料前置處理後所產生的資訊，經 CKIP 中文斷詞系統作初步斷詞後，篩選所需要的詞性存放於該Table 內，再由公式計算每個字詞的權重，最後會根據權重取出適當的關鍵詞，呈現於藝術作品的頁面上。每筆資料皆有記錄編號(ckiptag_id)、藝術作品編號(no)、所屬類別(workstype)、關鍵詞 (keyword)、詞頻(tf)、反轉文件頻率(idf)、權重(weight)、建立日期(dates)。

TAG Table 是使用者為某一藝術作品加入標籤時，就會建立一筆標籤與作品的關聯，每一個藝術作品皆可給予多個標籤，因此每筆資料皆有記錄編號

在文檔中於數位典藏建立社會性標記之研究 (頁 43-0)