• 沒有找到結果。

5. 實驗結果與討論

5.4 特徵分析

Real-time Monitor 所定義的 Pattern 來解決這些問題,或許將是本研究之後重要的 課題之一。 的結果來看,User10 主要使用手機的習慣最大宗是上網,其次是使用 facebook 跟設定手機的參數;

5.59491 2.83465 1.083414

1.133413 1.009822 1.017769 1.501805 1.001229 1.587774 1.564972 1.144968 1.933333

表格 5-5 左:User10 全部特徵之前五名的前項除後項 中:User10 前半特徵之前五名的前

1.370606 2.112426 3.793956

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

56

2.633679 1.233577 2.26087 1.361957 1.125587 1.40919 1.073512 1.090909 1.159898

表格 5-7 左:User11 全部特徵之前五名的前項除後項 中:User11 前半特徵之前五名的前項

除後項 右:User11 後半特徵之前五名的前項除後項

在觀察許多使用者的紀錄後發現並無法將前幾名特徵的前項除以後項,當作 有效的辨識方法。

以下實驗將使用第四章研究方法中的公式去計算 Training Data 與 Test Data 的相似度,以全部使用者全部資料量的前半做為 Training Data 與全部使用者的後 半做為 Test Data 的實驗結果如表格 5-8、圖 5-10。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

57

5 6 7 9 10 11 12 13 14 15 5 0.4 0.36 0.27 0.62 0.62 0.6 0.46 0.47 0.48 0.52 6 0.6 0.6 0.3 0.41 0.43 0.43 0.45 0.49 0.32 0.51 7 0.28 0.25 1.16 0.38 0.32 0.42 0.3 0.24 0.26 0.27 9 0.41 0.41 0.31 0.73 0.39 0.64 0.44 0.41 0.25 0.44 10 0.96 0.38 0.3 0.41 0.53 0.67 0.47 0.42 0.47 0.41 11 0.6 0.51 0.22 0.62 0.43 1.07 0.42 0.49 0.34 0.54 12 0.78 0.36 0.3 0.4 0.34 0.76 0.47 0.43 0.28 0.32 13 0.56 0.46 0.27 0.43 0.42 0.63 0.48 0.7 0.33 0.35 14 0.27 0.31 0.27 0.44 0.26 0.45 0.47 0.25 0.55 0.44 15 0.4 0.35 0.28 0.59 0.71 0.41 0.43 0.51 0.3 0.88

表格 5-8 User5,6,7,9,10~15 的前半資料作為 Training Data 與其他部分使用者的後半資料作

為 Test Data 的相似度

Test Data 上有重複出現 Training Data 的行為模式的時候,將此筆行為模式視為重 要的特徵,因此在計算上有不同的權重,但是這種情況並不常見,詳細的 User7 的統計資料如表格 5-9,兩份 log 資料相同的行為模式高達 4 筆,造成相似度偏 高。

User7's Training Data User7's Test Data

使用者用過的應用程式個數:52 使用者用過的應用程式個數:52 Training Data 資料量:1747 Test Data 資料量:1744

行為模式編號 次數 行為模式編號 次數

前半資料為Training Data與後半資料作為Test Data比較直方圖

5 6 7 9 10 11 12 13 14 15

User7's Training Data User9's Test Data

使用者用過的應用程式個數:52 使用者用過的應用程式個數:158 Training Data 資料量:1747 Test Data 資料量:35190

行為模式編號 次數 行為模式編號 次數

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

60

在此說明 User9 的 Test Data 的資料量遠大於 User7 的 Training Data 的資料量,

而資料量的多寡對於行為模式的數量有絕對的影響,因此本研究會將 Test Data 的前十名行為模式次數除以(Test Data 資料量/ Training Data 資料量),為了不讓過 大的資料量影響行為模式的離散程度,將資料等化如表格 5-11。

User9's equalized Test Data

3,3,3 102.9136

16,16,16 81.06993

2,2,2 27.95001

10,5,0 23.13447

44,44,44 21.74442

8,8,0 17.57425

11,11,11 15.53882

1,1,1 14.79415

29,29,29 9.829668

92,92,0 8.588548

表格 5-11 User9 等化過後的 Test Data

User10's Training Data User5's Test Data

使用者用過的應用程式個數:136 使用者用過的應用程式個數:152 Training Data 資料量:29897 Test Data 資料量: 24157

行為模式編號 次數 行為模式編號 次數

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

62

2,2,2 832 3,3,3 504

45,45,45 554 3,3,0 336

6,6,6 354 11,11,11 278 61,61,61 306 15,15,15 260

4,4,0 169 15,15,0 152

6,6,0 166 45,45,45 145

39,1,1 144 3,0,3 135

15,15,15 116 45,0,2 122

表格 5-12 User10 的 Training Data 與 User5 的 Test Data

以上是完整的前半與後半的資料比對結果,但是當我們再對個人的行為模式 進行次數累加的時候,可以先將相對於個人使用次數少的應用程式進行過濾,因 為原本的總使用次數就少的應用程式,在行為模式累加的時候也不可能會組成某 個大量被使用的行為模式,因此本研究嘗試將前 30%、20%、10%、5%以後的資 料過濾後,只有過濾掉 5%以後的資料才會對本研究所取的前十項特徵中的後面 幾項資料有影響,證明了其實大多數的行為模式都只用到使用者所有使用過的應 用程式排名中的前 5%,如表格 5-13、表格 5-14。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

63

5 6 7 9 10 11 12 13 14 15 5 0.38 0.46 0.14 0.37 0.43 0.33 0.42 0.45 0.27 0.34 6 0.76 0.76 0.17 0.24 0.40 0.35 0.44 0.49 0.28 0.34 7 0.22 0.14 1.42 0.48 0.34 0.20 0.22 0.14 0.21 0.23 9 0.16 0.11 0.19 0.72 0.23 0.45 0.19 0.11 0.21 0.25 10 0.52 0.42 0.19 0.31 0.53 0.35 0.37 0.33 0.28 0.36 11 0.32 0.33 0.17 0.45 0.37 0.89 0.34 0.33 0.22 0.31 12 0.78 0.36 0.14 0.23 0.42 0.26 0.42 0.49 0.28 0.34 13 0.55 0.46 0.13 0.28 0.38 0.30 0.44 0.69 0.29 0.34 14 0.18 0.15 0.17 0.20 0.16 0.19 0.36 0.17 1.39 0.49 15 0.35 0.20 0.16 0.38 0.49 0.29 0.35 0.28 0.20 0.69

表格 5-13 取前 5%使用次數最多的 app 以前半資料與後半資料的相似度(user5~15)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

64

16 17 18 20 21 22 23 25 16 0.47 0.28 0.18 0.22 0.17 0.42 0.38 0.34 17 0.22 1.07 0.25 0.32 0.27 0.18 0.09 0.26 18 0.24 0.27 1.03 0.57 0.26 0.27 0.27 0.23 20 0.27 0.32 0.38 0.85 0.38 0.38 0.24 0.23 21 0.42 0.28 0.31 0.31 1.13 0.34 0.28 0.23 22 0.28 0.35 0.40 0.33 0.37 0.40 0.18 0.27 23 0.27 0.33 0.41 0.33 0.33 0.31 0.94 0.39

25 0.33 0.43 0.40 0.26 0.39 0.37 0.33 0.70

表格 5-14 取前 5%使用次數最多的 app 以前半資料與後半資料的相似度(user16~25)

可以得知只用前 5%常被使用 app 作為特徵使用也可以代表該使用者的行為 模式,可以減少記憶的負擔,缺點是某些使用者本來資料就較為少量,在經過過 濾後可以使用的行為模式不足 10 個,故會沒有比較結果。

以上的實驗結果為該使用者前半的 Data 做為 Training Data 與後半的 Data 做 為 Test Data,配合過濾不重要的 log 所呈現的相似度,接下來的實驗結果將以不 同的時間單位(ex:2 個月)取得 Test Data 與 Training Data 來觀察相似度。

以所有使用者最近 2 個月的資料做為 Test Data 與使用者前半部分的資料做為 Training Data,計算出的相似度如表格 5-15、圖 5-12。

User10's Training Data User10's Test Data

使用者用過的應用程式個數:136 使用者用過的應用程式個數:136 Training Data 資料量:29897 Test Data 資料量:41

行為模式編號 次數 行為模式編號 次數

User11's Training Data User11's Test Data

使用者用過的應用程式個數:109 使用者用過的應用程式個數:109

Training Data 資料量:29184 Test Data 資料量:11315

行為模式編號 次數 行為模式編號 次數

想瞭解如何取樣會有最好的比較結果,本研究改變 Training Data 的數量至與 Test Data 相同,而 Test Data 取最近兩個月的資料,Training Data 則以最近兩個

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

69

也代表者該使用者有特定的使用習慣,例如會特定玩某種遊戲、特定用某種 app 照相、或是特定用某種通訊軟體,用相似度來代表習慣的差異度雖然不一定準確,

但是相似度高的使用者們,必然有相似的使用習慣。

研究中也試著藉由 Android Market/Google Play 上取得各式應用程式的詳細資訊,

然而這些分類是基於 Google Play 上的分類,是否能符合研究者需求又是另當別

相關文件