第四章 資料蒐集與建立模型
4.1 第一階段:問卷蒐集
4.1.3 問卷回收與整理
將有效問卷樣本依各校與人員給予代碼、整理至 excel 檔後,依據不同限 制條件(圈選上限依序由八遞減至三)得到六組樣本數目;初步以性別劃 分,共計十八組樣本:
表 1 十八組樣本數目 性別
圈選限制
所有樣本數 男性樣本數 女性樣本數
1~8 309 146 163
1~7 298 138 160
1~6 286 134 152
1~5 264 122 142
1~4 222 107 115
1~3 161 77 84
茲就上表舉例說明:假設以「圈選限制為 1~8 項嗜好、樣本不分男女」為 對象,本研究將樣本隨機劃分為兩部分:第一部分計 231 份樣本、約占四 分之三,於後續第二階段製作興趣關聯圖;第二組共 78 份樣本、約占四 分之一,於後續第三階段測試推薦系統並評估推薦系統準確度。
4.2 第二階段 第二階段 第二階段: 第二階段 : : :建立興趣關聯圖 建立興趣關聯圖 建立興趣關聯圖 建立興趣關聯圖
1. 概念上將興趣關聯圖分為兩層(參見圖 11),上層是項目層(共八類興趣
15、81 項嗜好)、下層則是樣本層(取有效樣本之四分之三,即 231 人):
圖 11 興趣關聯圖之兩層示意圖
2. 連結建立的方式依照下列順序進行:樣本 VU1001 共有二十一項嗜 好,其中電影類型偏好喜劇片、科幻片、恐怖片,音樂類型方面則喜 好國語歌、動感舞曲、古典音樂,喜愛的寵物是狗與鳥,…,興趣關 聯圖則根據樣本 VU1001 所勾選的每項嗜好將〈人—嗜好〉連結(參見 圖 12):
15 為方便圖示,將興趣類別以較大圓圈表示,將嗜好置於其中、以小圓圈表示。
VU1001
VU1002 CY1009
SC2011
CT1006
… …
電影類型 音樂類型 喜愛寵物 … …
項目層:八類、共八十一項嗜好
樣本層:共 231 個樣本
圖 12 建立〈人—嗜好〉連結
3. 將此兩層圖投影到項目層(參見圖 13)。如此原先的〈人—嗜好〉連結 即投影至項目層,當單一樣本擁有多於一項嗜好時,即可將任兩條
〈人—嗜好〉連結轉為一條〈嗜好—嗜好〉連結:
圖 13 投影〈人—嗜好〉連結轉為〈嗜好—嗜好〉連結
VU1001
電影類型 音樂類型 喜愛寵物 … …
註:(1) 僅依樣本 VU1001 之嗜好繪製
(2) 為簡化圖形以便呈現,僅將電影類型之科幻片、恐怖片,
(2) 音樂類型之國語歌與喜愛寵物之狗彼此連結。
VU1001
VU1002
CY1009
SC2011
CT1006
… …
電影類型 音樂類型 喜愛寵物 … …
項目層:八類、共八十一項嗜好
樣本層:共 231 個樣本
喜劇片 科幻片 恐怖片
記錄片 國語歌 動感舞曲 古典音樂
台語歌曲 爬蟲 鳥
狗
4. 依序重複 1 到 3 步驟,將眾多建立於樣本層與項目層之間的連結,一 一投影於共同之項目層(供模型使用),即完成興趣關聯圖:
於本例中,即使用 231 個樣本建立模型。每一個樣本建立屬於各自的 項目層,共可得到 231 個屬於各樣本的項目層,此 231 個項目層各自 代表 231 個樣本的興趣關聯;於圖 14 中,樣本 VU1001、CY1009、
SC2011、…等,231 個樣本都有獨自代表自己的項目層:
圖 14 各項目層之〈嗜好—嗜好〉連結投影於總和項目層
電影類型 音樂類型 喜愛寵物 … …
項目層:八類、共八十一項嗜好
電影類型 音樂類型 喜愛寵物 … …
電影類型 音樂類型 喜愛寵物 … …
共231 個樣本
… …
VU1001
CY1009
SC2011
電影類型 音樂類型 喜愛寵物 … …
以下 231 個樣本均投影於此項目層
以興趣關聯圖為基礎之推薦系統其模型所使用的項目圖位於圖 14 最 上方,是藉由將「代表 231 個樣本的 231 個項目層」的每一條〈嗜好—
嗜好〉連結線加總,加總後形成每一條具有不同關聯次數的關聯線。
本研究利用關聯線顯示「每一樣本所建立的項目層所擁有的連結線加 總後的結果」。其中,關聯次數是指具有相同〈嗜好—嗜好〉連結線 的樣本數一共有多少人,它以 1+1+0+1+0+0+…的方式形成,其中 0 或 1 代表單一樣本是否圈選此一組嗜好。
換言之,本研究使用之問卷皆由台灣的大學生所填寫,亦即視「台灣 的大學生」為母體,因此隨意挑出樣本 VU1001 與樣本 VU2097 兩者 的〈狗—中式料理〉連結線所貢獻的比重相同。
當樣本 VU1001 同時喜愛狗與中式料理時,此樣本即存在〈狗—中式 料理〉連結線,此時系統在關聯次數上累計一筆(+1)。
反之,當另一樣本只喜歡狗(例如,樣本 VU1011)或是只喜歡中式料理 (例如,樣本 VU1052)、或是兩者皆不喜歡時(例如,樣本 VU1043),
則此三樣本的〈狗—中式料理〉連結線即不存在,此時系統的關聯次 數不做任何動作(+0)。
本研究模型中,其中一次隨機挑出的 231 個樣本之中,共同喜愛〈狗—
中式料理〉的大學生計有 184 人,因此在當次建立的模型中,〈狗—
中式料理〉關聯次數就是 184 次。
藉由連結線加總形成關聯線,將諸多粗細不一的關聯線置於共同的項 目層(參見圖 14 的最上方),便形成興趣關聯圖的模型。
關聯線數目計算方式是針對任何一個嗜好關聯到「來源嗜好之外的其 他嗜好」;本研究針對 81 個嗜好,每一項嗜好均有可能關聯到「另外 80 個目標嗜好」,因此關聯線數目最多可達 6480(81×80=6480)條。
關聯線粗細表示不同的關聯次數;關聯線條愈粗者表示相對於關聯線 條細者,其關聯次數較多。
此例中,因為模型是由 231 個樣本所建立,所以最高可能關聯次數是 231 次;假設恰好這隨機選中的 231 個樣本皆有相同的〈嗜好—嗜好〉
連結,即可加總出 231 次的關聯次數。此時呈現於系統模型中,最粗 的關聯線即是此具有最高關聯次數的〈嗜好—嗜好〉關聯線。
反之如果有一〈嗜好—嗜好〉只有一個樣本共同喜好,亦即只有一個 樣本貢獻其〈嗜好—嗜好〉連結線,則此〈嗜好—嗜好〉關聯線所具 有的關聯次數即為 1,將會是呈現在系統模型中最細的一條關聯線。
最極端的例子為如果存在一組〈嗜好—嗜好〉是完全沒有樣本同時喜 愛的,則此〈嗜好—嗜好〉關聯線因為具有的關聯次數為 0,而無法 呈現於系統模型中。
以上從使用者角度看待形成總和項目層的過程;本研究由總和項目層呈現 興趣關聯圖。以下就興趣關聯圖進一步說明:
5. 當不只樣本 VU1001 這個人同時喜好科幻片與國語歌,而還有其他人 也同時喜好科幻片語國語歌的時候,每多一人則〈嗜好—嗜好〉之間 的線條就多一條,假設樣本 VU1005 也是同時既喜愛科幻片也喜愛國 語歌,則〈科幻片—國語歌〉之間的連結就從一條增加為兩條;當發 現 VU1009 也是如此時,則連結線增加為三條;…,當越多樣本同時 喜愛相同的一組嗜好時,則〈嗜好—嗜好〉連結越強;反之,當沒有 任何樣本同時偏愛兩嗜好時,則此兩嗜好之間就毫無關聯。
圖 15 總和項目層(興趣關聯圖)連結強度示意圖
6. 興趣關聯圖之圖形分析:每一個項目視為節點(node),在此計有 81 項 嗜好,呈現 81 個節點;節點之間的關聯強度由連結線數目的多寡計算
電影類型 音樂類型 喜愛寵物 … …
註:(1) 依樣本 VU1001、VU1005 、VU1009 之嗜好繪製 (2) 為簡化圖形以便呈現,僅將電影類型之科幻片、恐怖片,
(2) 音樂類型之國語歌與喜愛寵物之狗彼此連結。
(3) VU1008 不喜歡恐怖片,因此圖中凡關於恐怖片之連 結均較其他組連結為弱。
科幻片 國語歌 狗
恐怖片
VU1001 VU1005 VU1009
得知,亦可經由標準化(normalized)計算以便於比較不同組嗜好之間的 關聯強度。
最終使用 Pajek 軟體將興趣關聯圖以圖形呈現,Pajek 圖呈現於圖 25(第 41 頁)與圖 26(第 42 頁);詳細內容於圖 25 與圖 26 部分再行解 說。
4.2.1 推薦系統推薦系統推薦系統推薦系統實作實作實作實作資訊資訊資訊 資訊
本研究藉由撰寫程式建立興趣關聯圖(含後續之測試推薦系統階段),以下 為實作過程之硬體環境、軟體工具與流程:
1. 硬體環境:IBM X24, Mobile Intel Pentium Ⅲ CPU-M, 1066MHz, 730MHz, 384MB RAM
2. 軟體工具:Microsoft Visual C++ 6.0
3. 撰寫概念:以下使用 UML 呈現程式撰寫概念
以興趣關聯圖為基礎之推薦系統
新進使用者
舊有消費者
系統維護者
尋求推薦
給予推薦 建立興趣關聯圖
簡化推薦報告
推薦效果評估
僅應要 求輸出
僅應要 求輸出
僅應要 求輸出
圖 16 以興趣為基礎之推薦系統實作程式之 UML 案例圖
圖 16 粗略描述於實作程式之中,參與推薦系統的各種角色可以從中得到 的回饋。
圖 17 以興趣為基礎之推薦系統實作程式之 UML 案例情境
圖 17 則將圖 16 以情境的方式說明。系統的使用方式一共可分為三種情 境,以下分別就不同參與角色敘述。
使用案例情境一:
因資料來源為問卷,因此實作過程是藉程式模擬系統與使用者互動的 過程:在受測試之使用者問卷中,任選一興趣類別(A)設為推薦系統 選定的興趣類別,將此興趣類別(A)中使用者所圈選的嗜好(p, q, r,…) 依個數不同(允許上限由八個嗜好降為三個嗜好)分別測試;並將同一 份問卷另一興趣類別(B)視為受測試之使用者欲知的興趣類別,並依 興趣關聯圖為基礎給予推薦。
在八類別之中,每一份問卷共可得到 56 次的測試。
受測試之使用者問卷的「欲知興趣類別」中,真實圈選的嗜好(i, j, k, …) 則可以在系統維護者所面臨的使用案例情境三中,為推薦系統提供評 估準確度的依據。
使用案例三情境
1. 使用者將自己興趣類別(A)之中喜愛的數個嗜好(p, q, r,…)輸入推薦系
統,其中興趣類別(A)由推薦系統選定;推薦系統給予使用者關於欲得知 之興趣類別(B)的三個推薦嗜好(x, y, z)。
2. 當消費者在勾選各興趣類別嗜好時,推薦系統即將資料分別儲存,一種
是儲存為某位消費者所有的已勾選的嗜好列表、另一名單則儲存某一嗜 好的愛好者;並且將所有的連結關係對應到嗜好,於是系統得到一張興 趣關聯圖。
3. 系統維護者藉由推薦系統將興趣關聯圖所給予的建議回饋新進使用者;
或可以將興趣關聯圖關聯次數給予正規化、得到簡化後的興趣關聯圖。
同時,系統維護者可以藉由比較使用者真實的勾選狀況與系統推薦的比 對得到關於推薦效果的準確度衡量。
使用案例情境二:
當新增一筆完整的資料時,系統一共反應兩個動作:依每一個人建立 被圈選嗜好的連結;同時將任選一被圈選嗜好做為中心、依據此人新 增的資料增加嗜好之間的關聯強度,此動作會依此人圈選n個嗜好而 重複n次。
使用案例情境三:
系統與系統維護者可以依據所需的要求(可能由使用者提出或做為系 統維護者檢視之用)而有不同的輸出結果:使用者希望的是系統給予推 薦,因此系統必會給予推薦;系統維護者希望獲得宏觀的資訊(諸如系
系統與系統維護者可以依據所需的要求(可能由使用者提出或做為系 統維護者檢視之用)而有不同的輸出結果:使用者希望的是系統給予推 薦,因此系統必會給予推薦;系統維護者希望獲得宏觀的資訊(諸如系