實驗結果 - 觀看節目來源說明 - 協助動態節目導覽推薦系統訓練資料增量之研究

觀看節目來源說明

情境範例 1 實驗結果

圖 4-1.情境範例 1 欲觀看節目排名在驗證資料集進入前四名的比例

(見圖 4-1)我們的測試資料數量為 377 個 training data，基於此測試資料，我們可以看到，training data 為 37 個時，欲觀看節目排名在驗證資料集進入前四名的比例只有 46%；training data 為 98 個的時候欲觀看節目排名在驗證資料集進入前四名的比例仍然維持不變；training data 為 235 個時上升至 54%；training data 為 260 個的時候欲觀看節目排名在驗證資料集進入前四名的比例來到了 66%；

training data 為 365 個時欲觀看節目排名在驗證資料集進入前四名的比例來到了 72%；training data 為 628 個時欲觀看節目排名在驗證資料集進入前四名的比例持續上升來到了 81%；training data 來到 770 個開始，欲觀看節目排名在驗證資

料集進入前四名的比例上升到 85%；training data 為 1056 個開始，時欲觀看節目排名在驗證資料集進入前四名的比例便維持在 94%。在情境的時間範圍為週一至週日時，雖然欲觀看節目排名在驗證資料集進入前四名的比例確實如我們預料的上升，但是最好的比例不達 80%，由此可見，在這樣的情境下，資料量的多寡對於訓練效果有顯著的影響。

情境範例 2 實驗結果

圖 4-2.情境範例 2 欲觀看節目排名在驗證資料集進入前四名的比例

(見圖 4-2) 我們的測試資料數量為 317 個 training data，基於此測試資料，

我們可以看到，training data 為 21 個時，情境範例 2 欲觀看節目排名在驗證資料集進入前四名的比例為 69%，和情境的時間範圍同樣為週一至週日的情境 1，

training data 同樣是最少的情況下相比，訓練效果差距很大；training data 為 105 個時，欲觀看節目排名在驗證資料集進入前四名的比例上升的幅度只有 1%；

training data 為 174 個時，欲觀看節目排名在驗證資料集進入前四名的比例維持不變，同樣是 70%；training data 為 241 個時，欲觀看節目排名在驗證資料集進入前四名的比例上升了 2%來到了 72%，隨後，training data 為 300 個時維持不

變；training data 為 448 時，欲觀看節目排名在驗證資料集進入前四名的比例為個時一樣為 78%；training data 為 611 個時，欲觀看節目排名在驗證資料集進入前四名的比例上升至 82%；training data 為 801 個時，欲觀看節目排名在驗證資料集進入前四名的比例為 93%；training data 為 1083 個時，欲觀看節目排名在驗證資料集進入前四名的比例為 95%。由情境範例 1 和情境範例 2 可知，欲觀看節目排名在驗證資料集進入前四名的比例經歷過下降之再回升的階段後，便會穩定回升，也可以知道，兩者 training data 都是最少的情境下欲觀看節目排名在驗證資料集進入前四名的比例卻有很大差距的原因，應該都是跟情境範例 2 的時間範圍雖然也是週一至週日，但是觀看的時間區間是兩個，而情境範例 1 只有一個時間區間有關。在時間範圍同樣是週一至週日的情況下，兩個時段的情境的訓練效果會比一個時段的情境的訓練效果好得多。

情境範例 3 實驗結果

圖 4-3.情境範例 3 欲觀看節目排名在驗證資料集進入前四名的比例

(見圖 4-3) 我們的測試資料數量為 241 個 training data，基於此測試資料，

我們看到，training data 為 24 個時，欲觀看節目排名在驗證資料集進入前四名的比例只有 4%；training data 為 77 個時，欲觀看節目排名在驗證資料集進入前四名的比例急遽上升了 22%，來到了 26%；training data 139 個時，欲觀看節目排名在驗證資料集進入前四名的比例上升了 34%來到了 60%；training data 為 232 個時，欲觀看節目排名在驗證資料集進入前四名的比例上升的幅度趨緩，只上升了 9%；training data 為 272 個時，欲觀看節目排名在驗證資料集進入前四名的比例更是只上升了 2%，來到 72%；training data 為 419 個開始，到最後的 875 個則是都維持在 88%。和情境範例 1 及情境範例 2 相比，時間範圍為週一至週五

的情境範例 3 訓練效果明顯好了許多，欲觀看節目排名在驗證資料集進入前四名的比例的曲線少了上升再下降的部分，而是多了快速上升與平緩的部分。在訓練上，將時間範圍從周一至週日這樣相對大的範圍抽取出週一至週五，做更細的分類會讓訓練效果更穩定。

情境範例 4 實驗結果

圖 4-4.情境範例 4 欲觀看節目排名在驗證資料集進入前四名的比例

(見圖 4-4) 我們的測試資料數量為 272 個 training data，基於此測試資料，

我們可以看到，training data 為 36 個時，欲觀看節目排名在驗證資料集進入前四名的比例為 13%，對比於情境範例 3，情境範例 4 在 training data 最少的情況

下的欲觀看節目排名在驗證資料集進入前四名的比例比前者多了 9%；training data 為 98 個時，欲觀看節目排名在驗證資料集進入前四名的比例猛然上升了 48%，來到了 60%；training data 為 136 個時，欲觀看節目排名在驗證資料集進入前四名的比例和 training data 為 98 個時一樣為 60%；training data 為 218 個及 266 個時，欲觀看節目排名在驗證資料集進入前四名的比例都是 72%；training data 為 475 個時，欲觀看節目排名在驗證資料集進入前四名的比例上升了 23%，欲觀看節目排名在驗證資料集進入前四名的比例來到了 95%，接著，

training data 為 541 個時上升了 1%，最後，training data 為 762 個和 876 個時，

欲觀看節目排名在驗證資料集進入前四名的比例到達 100%。情境範例 4 中，有三個階段的欲觀看節目排名在驗證資料集進入前四名的比例前者和後者一樣，

由這點來看，情境範例 4 和情境範例 3 相比，更為穩定。

第肆節實驗結果分析

圖 4-5.綜合情境比較

(見圖 4-5)綜合以上四個情境，我們可以發現情境範例 1(藍線)和情境範例 2(橘線)這兩種時間範圍都是週一至週日的情境在欲觀看節目排名在驗證資料集進入前四名的比例上，曲線較為相近，這兩者的 training data 都是在 600 個左右時開始趨於穩定上升，情境範例 3(綠線)和情境範例 4(紅線)這兩種情境在有較為相近欲觀看節目排名在驗證資料集進入前四名的比例上，曲線較為相近，然而，這兩者的時間範圍不一樣，他們的區別是情境範例 3 是工作日，情境範例 4 是假日，這兩種都是更細的分類，也更符合我們看電視的習慣，這兩者的共通點為 : 欲觀看節目排名在驗證資料集進入前四名的比例一開始會迅速上升，接著開始有兩個比例相同的情況，training data 在 400 個左右開始趨於穩定，故我們可以把情境範例 1 和情境範例 2 分為一組，把情境範例 3 情境範例 4 分為一

組，這兩組的主要差異為時間範圍的不同，結果是前者在 training data 為 600 個時欲觀看節目排名在驗證資料集進入前四名的比例開始趨於穩定，而後者欲觀看節目排名在驗證資料集進入前四名的比例則是在 training data 為 400 個時趨於穩定，換言之，後者的時間範圍分類的訓練效果更好。

在文檔中協助動態節目導覽推薦系統訓練資料增量之研究 (頁 34-43)