第四章 THDL 系統介紹
4.1 THDL 的檢索功能
在杜協昌的Focalization Model – a Model on Interactive Web-IR 中,認為使 用者在檢索系統中找資料的過程,是一個interactive sequence of actions[82],會 經過 多次的 query 動作(query 在此指的是使用者將需求轉化成系統接受的檢索 語言),例如:給一個初始的query、調閱檢索結果中的幾件文件、修改 query、
重新下達query,這個過程其實是一個 sequence of focus change(focus 在此是指 檢索回傳的文件集),因為每次使用者做動作都是在調整系統回傳的文件集,也 就是使用者關心的文件集一直在改變。在使用者連續的檢索、調整得到文件的 過程當中,需要系統的協助才能順利地檢視回傳文件、修改 query、一步一步接 近使用者真正想要的文件。此模型認為 focus change 有三種:narrowing(從目 前檢索結果縮小到更小的一塊)、expanding(從目前檢索結果擴展到更大的一 塊)、與 move focus(轉移焦點,例如給一個不同的關鍵詞)。為了輔助這三種 focus change,杜協昌提出了幾種檢索系統上的 operations,其中的 Spotlight Cue 就是THDL 系統中的「後分類瀏覽與檢索」功能,即「檢索後分類」(圖 28 的
1-3、3-2)。
這些Focalization Model 中的觀念也進入了 THDL 系統,形成檢索功能的核 心。以下,我們會詳細描述 THDL 系統提供了哪些檢索方式,使用者如何能操
欄位含有林爽文」的文件。若有多個關鍵詞,可以用「+」、「-」、「 」(空白)
分隔關鍵詞,其檢索的語意分別對應到兩關鍵詞的交集、差集、與聯集。以下 是一些全文檢索的範例:
THDL query 對 應 的 語 意 ( 系 統 回 傳 怎 麼 樣 的 文 件 )
林文察 全文含「林文察」的文件
+劉銘傳 +劉璈 全文同時含有「劉銘傳」與「劉璈」的文件
+林爽文 +張丙 +蔡牽 全文同時含有「林爽文」、「張丙」與「蔡牽」的文件
粵民 粵人 粵庄 客仔 客民 全文含任一「粵民、粵人、粵庄、客仔、客民」詞彙的
文件
+找洗 -找洗字 全文含「找洗」,但不含「找洗字」的文件
+杜賣 找 洗 贖 贈 增 添 全文含「杜賣」,且至少含有「找洗贖贈增添」其中一
字的文件
(二)指定詮釋資料欄位:
指定詮釋資料欄位 B 需含有關鍵詞 A,系統回傳「B 欄位含有 A 的文件」。
例如給定關鍵詞「福康安」與「作者」欄,則回傳「作者欄位含有福康安」的 文件。
THDL 提供檢索的詮釋資料欄位有:「標題」(title)、「作者」(author)、「出 處 」(publication)、「分類」(topic)、「中曆年份」(chyear)、與「西元年份」
(adyear)。系統上有使用介面供使用者填寫,如下圖,可為使用者產生對應的 THDL 檢索語法。
圖 30 THDL 的進階檢索
若有多組的欄位、關鍵詞,也可以用「+」、「-」、「 」(空白)加以組合,
其檢索的語意分別對應到兩組條件的交集、差集、與聯集。以下是一些欄位檢 索的範例:
表 6 THDL 系統中與詮釋欄位檢索對應的檢索語法
THDL query 對 應 的 語 意 ( 系 統 回 傳 怎 麼 樣 的 文 件 )
title:雨水糧價 「標題」欄位含「雨水糧價」的文件
author:福康安 「作者」欄位含「福康安」的文件
publication:起居注 「出處」欄位含「起居注」的文件
topic:廷寄 「分類」欄位含「廷寄」的文件
chyear:乾隆 51 年 「中曆年份」欄位含「乾隆51 年」的文件
adyear:1788 「西元年份」欄位含「1788」的文件
+chyear:乾隆 51 年 +publication:天地會 中曆年份為「乾隆51 年」、且出處含有「天 地會」的文件
(三)以維度過濾:
給一系統內建的維度 B 與值 A,系統回傳「B 維度的值等於 A」的文件。
例如給定「作者」維度與值「欽差協辦大學士福康安」,則回傳「作者維度值等 於欽差協辦大學士福康安」的文件。或者可以給定多個值如 A1、A2、A3,系 統回傳「B 維度值等於 A1、B 維度值等於 A2、與 B 維度值等於 A3」的文件。
這個功能的概念正是杜協昌提出Focalization Model 中的 Spotlight Cue — 一 個引導使用者做 focus change 的協助工具,也就是「後分類瀏覽與檢索」的功 能(圖 28 的 1-3, 3-2),使用者在檢索後,可以在「年代」、「出處」、「作者」、
「分類」四種分類維度底下點選任一項目,或勾選多個項目,便相當於在目前 的檢索結果中,再縮小範圍到該維度值之下,正是 faceted search[83] 提出的概 念。THDL 的維度有:「年代」(TM)、「作者」(AU)、「出處」(CL)、「分類」
(TP)。使用者只需在「檢索後分類」介面上進行操作(點選或勾選),系統會自 動產生對應的檢索語法。
圖 31 THDL 的「後分類瀏覽與檢索」功能
表 7 THDL 系統中與維度過濾檢索對應的檢索語法
THDL query 對 應 的 語 意 ( 系 統 回 傳 怎 麼 樣 的 文 件 )
{TM:清乾隆五十三年} 「標題」欄位含「雨水糧價」的文件
{CL:乾隆朝上諭檔|廷寄} 「作者」欄位含「福康安」的文件
{AU:閩浙總督常青} 「出處」欄位含「起居注」的文件
{TP:上諭|廷寄} 「分類」欄位含「廷寄」的文件
(四)用系統中文件的唯一識別碼 (identity) 取得文件:
THDL 系統中文件的唯一識別碼稱為「檔名」。給一檔名 A(字串),系統 回傳「檔名為 A」的文件。或者可給定多個檔名,例如 A1、A2、A3,系統回 傳「檔名為A1、檔名為 A2、與檔名為 A3」共三篇文件。
這個檢索方式通常發生在使用者點選檢索結果中的文件、或是勾選了多件 欲檢視文件的內容時,系統會自動產生對應的語法,進行檢索,調閱出使用者 要求的文件內容。
圖 32 THDL 系統的檔名檢索語法
表 8 THDL 系統中與檔名檢索對應的檢索語法範例
THDL query 對 應 的 語 意 ( 系 統 回 傳 怎 麼 樣 的 文 件 )
{ihp-0257652-0005100051-a001.txt} 檔名為 ihp-0257652-0005100051-a001.txt 的文件
{ihp-0257652-0001300015.txt|ihp-0257652-0002000021.txt}
「檔名」為ihp-0257652-0001300015.txt、與檔名 為ihp-0257652-0002000021.txt 的文件
(五)個人文件集:
給一文件集名稱A,系統回傳使用者儲存於 A 文件集的所有文件。
THDL 允許使用者自訂個人的文件集,把感興趣的文件先儲存起來,日後 便可調閱,譬如使用者若想查找比較模糊的觀念、但沒有明確的單一關鍵字詞 時,便可利用個人文件集,將不同關鍵字詞找到的文件分批儲存於同一個使用 者自訂的文件集。
圖 33 使用者自訂文件集的範例
欲調閱已儲存的個人文件集,只需點選系統畫面左上角「個人文件集」中 欲調閱的文件集名稱,系統會自動產生對應的檢索語法,為:以方括號包夾文 件集名稱,例如「[林爽文:乾隆時期]」。已儲存的文件集正如任何檢索結果文 件集一樣,可以進行「後分類瀏覽與檢索」等縮小範圍的查詢。
使用者可以繼續下達別的查詢條件,將新找到的文件分批加入已儲存的文 件集中,即下圖的「將勾選加入」按鈕。而若在文件集中發現不想留存的文件,
也可以勾選該文件,按下「將勾選自文件集刪除」的按鈕,如下圖。
圖 34 THDL 系統可將勾選文件加入已儲存的文件集,或從文件集刪除
我們認為:透過這些檢索方式,THDL 系統已經可以提供相當彈性的檢索 訊檢索模型中的Boolean Model[84]相同 — 全文或 metadata「含有」關鍵字詞的 文件系統就認為是 relevant,「不含」的文件系統就認為是 irrelevant,並且系統 會 將 含 有 關 鍵 字 詞 的 文 件 全 部 回 傳 給 使 用 者 , 也 不 會 依 照 「 相 關 程 度 」 (relevance score) 排序,而是讓使用者自己選擇排序的方式(檔名順序、年代、
出處)。我們認為這樣的notion of relevance 與 ordering 方式,比較符合歷史研究 者找史料的需求,因為 query 在此系統下的意義是符合使用者直覺的(系統會