第三章 系統平台與分析
3.3 相似度模型分析
(Emotion)
delight Boolean 喜
(Location)
31 longitude Double 經度
32 時(When) datetime Datetime 照片時間 時間模型
(Datetime)
yyyy/M
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
係根據資訊檢索的相關研究,將照片進行相似度分析,根據特徵屬性型別,分別出三種 相似度計算模型,並利用模型來設計不同的故事版型,為使用者進行說故事拼圖推薦。
下列則是本研究中定義的三種相似度模型說明。
關鍵字模型
此相似度模型是以”人”、”事”、”物”、”情感”這四種特徵的標記屬性為相片做定義。
所以在計算相似度時,我們會先將這四種特徵設定故事版型所需的參數,再與其 他的相片做相似度的計算,以此計算方法作為使用者推薦說故事相片的依據。其 公式定義如下:
𝑁𝑁𝑆𝑆𝑎𝑎 = S𝑎𝑎⁄(𝑆𝑆𝑎𝑎−𝑚𝑎𝑎𝑥 − 𝑆𝑆𝑎𝑎−𝑚𝑎𝑎𝑛𝑛)
(式 3-1) 𝑁𝑁𝑆𝑆𝑎𝑎 = 正規化後的關鍵字特徵相似度
(1) 首先,將相片的屬性關鍵字特徵轉換成一個空間向量,其中關鍵字特徵屬 性包含”人”(4)、”事”(8)、”物”(10)、”情感”(7),總共 29 個屬性,將這 29 個屬性各視為一個維度,則每張照片總共有 29 個維度,即每張照片可用 1 個 29 維的向量做為特徵屬性的代表(𝑝𝑝𝑎𝑎𝑎𝑎)。
(2) 將每張照片轉換為 29 維的向量時,再利用向量內積公式,計算 2 個向量 的夾角計算(式 3-2)其相似度。計算出角度愈大,表示 2 張照片之間愈不 相似。角度愈小,表示愈相似。
S𝑎𝑎 = 𝑝𝑝𝑎𝑎𝑎𝑎∙ 𝑝𝑝𝑎𝑎𝑗𝑗
|𝑝𝑝𝑎𝑎𝑎𝑎|�𝑝𝑝𝑎𝑎𝑗𝑗�
(式 3-2) 𝑝𝑝𝑎𝑎i = (𝑣1, 𝑣2, 𝑣3… 𝑣29), 第 i 張相片的關鍵字屬性向量維度
𝑝𝑝𝑎𝑎j = (𝑣′1, 𝑣′2, 𝑣′3… 𝑣′29), 第 j 張相片的關鍵字屬性向量維度
17
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
S𝑎𝑎 = 𝑝𝑝𝑎𝑎𝑎𝑎與𝑝𝑝𝑎𝑎𝑗𝑗之間的屬性關鍵字相似度
(3) 最後,我們將相似度做正規化的計算。將計算出來的關鍵字特徵的相似度 (S𝑎𝑎)的範圍正規化於0到1之間(𝑁𝑁𝑆𝑆𝑎𝑎),以利於與其他相似度模型比較判斷。
空間模型
此相似度模型是藉由GPS的經緯度資訊,可比較相片間的距離,利用距離與相似度 轉換公式,來計算出相片與相片的相似度數值。此模型可以讓使用者用空間的角 度來定義其故事版型,也可鎖定使用者利用空間限制來建立故事場地。其公式定 義如下:
𝑁𝑁𝑆𝑆𝑔𝑔 = S𝑔𝑔⁄�𝑆𝑆𝑔𝑔−𝑚𝑎𝑎𝑥 − 𝑆𝑆𝑔𝑔−𝑚𝑎𝑎𝑛𝑛�
(式 3-3) 𝑁𝑁𝑆𝑆𝑔𝑔 = 正規化後的空間特徵相似度
(1) 首先,我們取出每張照片的經緯度,將其定義為一個 2 維的向量(𝑝𝑝𝑔𝑔𝑎𝑎) 𝑝𝑝𝑔𝑔𝑎𝑎 = (𝛼𝛼𝑎𝑎 , 𝛽𝛽𝑎𝑎)
(式 3-4) 𝛼𝛼𝑎𝑎 = 第 i 張照片的緯度
𝛽𝛽𝑎𝑎 = 第 i 張照片的經度
(2) 利用 GPS 距離公式(Great-Circle Distance)7算出大圓距離。
𝑑𝑑𝑔𝑔 = 𝑅 ∗ arccos�sin 𝛼𝛼𝑎𝑎sin 𝛼𝛼𝑗𝑗 + cos 𝛼𝛼𝑎𝑎cos 𝛼𝛼𝑗𝑗cos�𝛽𝛽𝑗𝑗− 𝛽𝛽𝑎𝑎��
(式 3-5) R = 地球半徑
7 "Great-circle_distance," in http://en.wikipedia.org/wiki/Great-circle_distance 18
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
𝑝𝑝𝑔𝑔𝑎𝑎 = (𝛼𝛼i , 𝛽𝛽𝑎𝑎), 𝑝𝑝𝑔𝑔𝑗𝑗 = �𝛼𝛼𝑗𝑗 , 𝛽𝛽𝑗𝑗�
𝑝𝑝𝑔𝑔𝑎𝑎, 𝑝𝑝𝑔𝑔𝑗𝑗為i 與 j 2 張照片的緯經度 𝑑𝑑𝑔𝑔 = 大圓距離
(3) 由於照片的空間模型是以大圓距離來計算,所以當照片分佈於不同地區(洲) 或是南北極時,兩兩相比後,其距離值差異會非常的極端,所以我們將大 圓距離�𝑑𝑑𝑔𝑔�利用 log 函式,讓差異趨緩。當距離愈大,表示相似度愈低,
所以我們將其數值以倒數方式轉換成其空間模型下的相似度。
S𝑔𝑔 = � 1, 𝑑𝑑𝑔𝑔 = 0 1 log�𝑑𝑑⁄ 𝑔𝑔�, 𝑑𝑑𝑔𝑔 > 0
(式 3-6) 𝑆𝑆𝑔𝑔 = 𝑝𝑝𝑔𝑔1與𝑝𝑝𝑔𝑔2之間的位罝相似度
(4) 同樣的,我們將上面的相似度進行正規化的計算,使得相似度(𝑆𝑆𝑔𝑔)數值區 間可以落在0~1之間(𝑁𝑁𝑆𝑆𝑔𝑔)。
時間模型
此相似度模型主要是以時間區間做為相片檢索的條件限制,與空間模型一樣,目 的在於可讓使用者選擇所需的時間範圍下的相片做為故事的內容。所以我們會先 將每張相片的日期取出,比對出屬於檢索的時間區間內的照片,再以這些照片進 行相似度的計算,這個模型的目的希望達到使用者對於某個時期的相片進行故事 的創作,讓互動敘事與回憶之間結合更為貼近。其相似度公式定義如下:
𝑁𝑁𝑆𝑆t = S𝑡𝑡⁄(𝑆𝑆𝑡𝑡−𝑚𝑎𝑎𝑥− 𝑆𝑆𝑡𝑡−𝑚𝑎𝑎𝑛𝑛)
(式 3-7)
19
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
𝑁𝑁𝑆𝑆𝑡𝑡= 正規化後的時間特徵相似度
(1) 我們先將兩兩照片的日期換算成毫秒(ms),相減後即為 2 張照片的時間距 離(D𝑡𝑡)。但時間距離愈近,表示照片與照片之間的時間相似度愈小,所以,
我們將其距離再以倒數計算,當作照片與照片之間的相似度(𝑆𝑆𝑡𝑡)。
𝐷𝐷𝑡𝑡 = �𝑃𝑃𝑃𝑃𝑃𝑃𝑎𝑎 − 𝑃𝑃𝑃𝑃𝑃𝑃𝑗𝑗� 第i 與 j 照片的時間距離
𝑆𝑆𝑡𝑡 = 1 𝐷𝐷𝑡𝑡
第i, j 照片之間的相似度
(式 3-8) 𝑃𝑃𝑃𝑃𝑃𝑃𝑎𝑎 第 i 張照片的日期毫秒
𝑃𝑃𝑃𝑃𝑃𝑃𝑗𝑗第j 張照片的日期毫秒
(2) 同樣,我們將照片之間的相似度(𝑆𝑆𝑡𝑡)進行正規化的轉換,將數值區間轉換 為 0 到 1 之間(𝑁𝑁𝑆𝑆t),以便於我們後續相似度之間的比較。