標籤(Tag)技術

二、文獻探討

2.2 標籤(Tag)技術

圖 2.1.1 個人網站架構範例

可以看得出它本質上仍是一個樹狀階層式架構。

2.2 標籤(Tag)技術

人類在看到一篇文章時，可以很快地將其歸類在所屬的領域裡，例如：經濟、政治或運動。Florian Wolf, Tomaso Poggio 和 Pawan Sinha 提到說其實只需幾個字詞，以這些字詞來為文章分類，就可以近似原本文章分類的精確度[1]，也就是我們可以把文章濃縮成幾個字詞。因為標籤本身也就是字詞的一種，如果把字詞替換成標籤，就代表著對文章下幾個標籤後，我們就可以用這些標籤來對文章做分類。

而透過標籤技術，要如何去組織資訊內容呢？在下標籤的同時，對於每個標籤會對應到一個或多個資訊內容上，每個資訊內容也會對應到一個或多個標籤上，彼此間無任何方向性，我們可以利用這些關連來做進一步的利用，以下將做更詳細的說明。

從六個人的小世界(SIX DEGREES)此書中的理論可知，標籤和資訊內容本身為所謂的關聯網路(Affiliation Network)，當二個標籤共同標示於同一個檔案上，就被認為是「相關連的」。關連網路永遠由二種節點所組成，最好的表示方法為二分網路(bipartite network)，所有節點可被分為二群，同一群內的節點彼此不相連。如圖 2.2.1 的上方，

數字編號的為一群，英文字母編號的一群。若將二分圖展開來，拿掉其中一群的節點，

將可得到剩下那群節點的直接連結圖。如圖 2.2.1 的下方，拿掉數字的節點展開後，可得到字母的連結圖。

圖 2.2.1 二分網路(bipartite network)

若將資訊內容(Content) 和標籤(Tag)繪製成二分網路，就會像錯誤! 找不到參照來源。一般，可被分為二個單元網路，一個是資訊內容的網路(Contents Network)，而另一個則為標籤網路(Tags Network)。

圖 2.2.2 資訊內容(Content) 和標籤(Tag) 的二分網路

藉由資訊內容的網路，我們可以用資訊找資訊，像是今天拿到一篇論文，可由此網路找出與它相關的論文。藉由標籤網路，可以用標籤找相關標籤下的資訊，從一種領域找到另一種可能相關的領域，例如假設在「遊戲」這個標籤下，有一張Wii Sport 打網球的圖，圖片擁有二個標籤：遊戲、網球，那麼由標籤網路可找到「網球」這個相關的標籤，進而去尋找其他打真實網球的圖。

CiteULike⁷是一個可整理書目引文資料的網站，如圖 2.2.3。它延續了幾個 del.icio.us 特色：以個人標籤為主的分類組織、可以瀏覽其他人分享的資料，並且提供了匯出匯入的功能，可以跟研究者的書目管理軟體配合使用。CiteULike 能讓使用者訂閱特定期刊的書目資訊，使用者可以從訂閱資訊中選擇是否要加入自己的書目資料庫。他跟一般書目管理軟體不同的地方是，當初步探索特定主題文獻時，可以透過其他人的書目資訊，

類似滾雪球的方式，找出許多相關文獻。在滾雪球的過程中，可以發現引用收錄次數較高的文獻，則這篇文獻相對可能較為重要。另外，可以學習其他收錄者用何種標籤描述這篇文獻，可以幫助檢索者進一步擴張或是限制自己的檢索策略。提供RSS，可以訂閱

7 CiteULike: http://www.citeulike.org/

資訊內容網路

資訊內容

標籤

標籤網路

特定主題或特定人物的書目資訊，能第一時間取得最新資訊。提供社群功能，可以協同管理或編製特定書目。他將標籤做了一個很好的應用，研究者只要收集記錄自己找到的論文，就可以從此為出發點，得到大量其他人整理的資料。

圖 2.2.3 書目管理網站 CiteULike

2.3

2.3.

學的主要人會

Rich

存在和長獨特直接 Atkin 結構 ard Atkins

(1) 感覺儲記憶(memo 不同的認知心

用來了解記提出修正，

人廣泛接受 on 和 Richa 儲存(Senso 儲存(Short‐

儲存(Long‐

存。

iffrin 後來的強調被動的

的三段儲存模型

ory)來保存心理學家對記憶的比喻(

或是直接提受的記憶三段 ard Shiffrin ory store)：

‐term store term store

區別結構和儲 (metaphor) 提出一個新比喻，Atki 結構(hypot 幫助我們容

型(three‐sto 年所提出[3] thetical con 容易去了解記

re model o

。他們將記 hiffrin 並不

nstructs)，

記憶如何運化為圖 2.3.

的使用。在同詮釋方法上

隨著新研究的

of memory) 記憶視為三個

息。

間，但容量仍存訊息，甚

為儲存庫(sto 為感覺記憶

ore)，稱儲

、短期記憶

另一種假設，處理層次架構(levels‐of‐processing framework)是由 Craik 和 Lockhart 所提出的[5]。它與記憶的三段儲存模型不同，他們假設記憶並非由幾個儲存區所組成，

而是假設儲存沿著一個連續的向度(即收錄的深度)，而有所變化。此研究假設在理論上有無限數量的處理層次(LOP)，它用來收錄項目，而層次與層次之間並沒有分界線，並強調處理是儲存的關鍵，訊息被儲存的層次大部分取決於它被收錄的方式。Brown 和 Craik 後來的研究顯示，一般而言處理的層次越深，項目會被提取出來的機率也越高[6]。

Craik 和 Tulving 以一系列的實驗來支持這個觀點[7]。他們先將一串字給受測者看，然後在每一個字前面加上一個問題，依問題的變化來引發三個不同層次的處理，依淺到深的順序排列，分別為：物理的、聽覺的、語意的，如表 2.3.1 所示。實驗的結果呈現，

問題引發的處理層次越深，回憶的表現會比較好。

表 2.3.1 三個不同的處理層次

工作記憶(working memory)被定義為長期記憶的一部分，且包含了短期記憶。它是由一些心理學家從不同角度來看短期記憶與長期記憶[8‐11]。工作記憶只保留長期記憶中近期被活化的部分，且在短期記憶儲存內外移動被活化的部分，如圖 2.3.2。其實我們可以把它視為一個加工廠，加工完後的資訊送到長期記憶中，標標籤的動作可比喻成加工的動作。

圖 2.3.2 工作記憶的示意圖

在古典知識論中，就知識結構分成二種類別：

短期儲存 short‐term

store

長期儲存 long‐term

store 收錄

encoding

提取

retrieval

工作記憶

Working memory

(1) 陳述性知識(declarative knowledge)：可被陳述的事實 (2) 程序性知識(procedural knowledge)：可被執行的程序

由於儲存在電腦裡的資料，皆屬於陳述性知識，所以將以陳述性知識為主軸來設計系統架構。

在1983 年 Anderson 提出的 ACT‐R 的模型中，包含了陳述性知識的網路表徵部分 [12]。他的陳述性網路，像語意網路一樣，概念儲存在網路上各個節點，節點可分為活動和不活動的二種狀態，活動的節點也可以說是被激發的狀態。主要有二個原因會造成節點被激發，一種是直接地由感官或外界刺激來被激發，另一種則是間接地從已激發的節點的活動來使鄰近的節點也被激發。若是當節點不斷地激發鄰近的節點時，活動節點的範圍就會開始拓展開來，直到達到有限的活動節點數，此稱為擴散性激發(spreading activation)，在網路中沿著一組節點而散開。對於系統中的資訊，我們將以網路為其架構，以標籤做為節點，把檔案同時存在二個標籤的關係，畫為二個節點中間的連線，將節點的擴散激發化為標籤和相關(相鄰)標籤的激發。

2.3.2 記憶歷程

認知心理學家一般指的記憶主要歷程包含三種基本的運作：

(1) 收錄(encoding)：指如何將一個物理的、感覺的輸入，轉換為可以放入記憶中的一種表徵。

(2) 儲存(storage)：指如何將已收錄的訊息保留在記憶中。

(3) 提取(retrieval)：指如何取得已儲存在記憶中的訊息。

每一個運作分別代表記憶歷程中的一個階段[6, 13, 14] 。三種運作通常被視為有順序性的過程：首先先接收訊息，接著將它保留一段時間，後來再取出來使用。John Bransford 和 Marcia Johnson 請他們的實驗受測者閱讀一段文章，說明較為抽象，在嘗試收錄文章時，會發現難以收錄，以致於儲存和提取也變得困難。可是如果給予受測者這段文字一個標題，大部分的人會表現得比較好。語言的標籤幫助我們收錄並記住原本難以理解的文章[15]。「標籤」原本就是一個語言上的字詞，以此實驗的結果，我們可預期加標籤會幫助電腦中檔案的收錄。

由於我們想將訊息長期保存後，還能再次地提取出來，所以接下來將把焦點鎖定在長期記憶的方面。

大部分儲存在長期記憶裡的訊息似乎主要是以語意的方式收錄，也就是說以字的意義來收錄。一些不同類型的實驗結果[16, 17]可以當作證據，證明語意的收錄方式被做使用於長期記憶中。例如Grossman 和 Eagle 的實驗[16]，要求受測者記下 41 個不同的

單字，結束後五分鐘時，請受測者從清單中勾選剛才看過的單字。清單中含有非剛才記憶的單字，其中9 個混淆字與原本的 41 個字有語意上的關連，還有 9 個混淆字與原本的沒有關連。最後受測者錯認了較多的同義字，對於較無關連的字錯認較少，顯示語意混淆的可能性較大，可推測主要是以語意方式收錄。事實上標籤本身就是一個字，也就是說以標籤來收錄儲存可相當於以語意來收錄。

訊息由短期記憶轉移到長期記憶需要一個不同的歷程，名稱為固化(consolidation)。

它的方法是在新訊息和我們已經知道或了解的訊息間建立連結或聯想，藉由將新訊息合併到儲存訊息的既有基模中來建立連結，達成轉移的目的。若將基模比喻成系統內的網路結構，那麼在加標籤的過程中，會依資訊內容和標籤的關係，自動建立連結。

記憶的失敗主要是來自提取失敗而非儲存失敗，由Endel Tulving 和 Zena Pearlstone 的實驗結果所得[18]。他們的實驗中，受測者會先聽到類別名稱，例如「文具類」，接著會聽到該類別的字彙，如：鉛筆、尺、原子筆、橡皮擦…。之後分成二組，一組採自由回憶，請受測者儘可能回憶出剛才出現過的字彙；另一組採線索回憶，給予受測者類別名，請他回憶該類別的所有字彙。最後的結果得到，平均來說線索回憶較自由回憶好很多，若只讓受測者自由回憶，可能會得到人不能儲存很多字的結論，但此結果證明了記憶的失敗主要是來自提取失敗而非儲存失敗。

在文檔中個人知識重整-以記憶模型與標籤技術為基礎 (頁 17-0)

二、 文獻探討

2.2 標籤(Tag)技術

2.2 標籤(Tag)技術

2.3

短期儲存 short‐term

store

長期儲存 long‐term

store 收錄

encoding

提取

retrieval

工作記憶

Working memory

二、文獻探討