• 沒有找到結果。

使用者行為統計分析

第二章 接取網路現況與使用者行為相關研究

2.2 使用者行為模型

2.2.2 使用者行為統計分析

為了補足現有公開文獻之不足,本論文亦使用「台大 ADSL」[19]自 2011 年 11 月 13 日至 2012 年 1 月 8 日共 56 天約七千萬筆 2000 人之通信期連線紀錄檔案 來分析。每筆資料紀錄的資訊主要是其 start time、source、destination、port、file size、

UDP or TCP 與 duration,如圖 2-9。

圖 2-9 台大 ADSL 之 log 檔範例

用戶 IP 網址與相關資訊已予隱藏

利用前述資料統計後,即可再多獲得兩項參數資料:下行傳輸速度之機率分 布,以及一日當中各時段流量大小。有了這些資訊之後即可拼湊出本論文第四章 在模擬時所使用之流量產生器全貌。至於 FTP、YouTube 與 HTTP 的檔案大小機率 分布不使用這份 log 檔分析的主要原因,乃是因為單從這些資訊並沒有辦法精準判 斷每筆 session 所屬之類別,故改以公開學術研究[23]與[25]取代。

至於各個類別的傳輸速率則存在統計方法。以 YouTube 下載速率為例,由於 該公司在中研院有一暫存器,在台灣的使用者要觀看 YouTube 影片時,有極大的 比例會連線至該暫存伺服器。同時,其主機 IP 位置通常為 202.169.175.1~254,利 用這個特性即可將台大 ADSL 記錄檔之中屬於 YouTube 的 sessions 過濾出來,再 挑出其中檔案大小大於 10MB 的 session 以確保內容為影片本身。而滿足上述條件 之記錄共有 44,768 筆,其傳輸速度之機率密度圖如圖 2-10 所示。

圖 2-10 台大 ADSL YouTube Sessions 下行傳輸速度機率分布

為了方便後續模擬時套用其資訊,在此將其以 Lognormal Distribution 來近似,

其機率密度函數(PDF)如(2-1)式所示,而 MLE 公式(Maximum Likelihood Estimation of Parameters)則如(2-2)(2-3)所示:

( ; , ) =

( )

, x > 0 (2-1)

̂ = , (2-2)

= ∑ ( ) , (2-3)

其中 ̂ 與 代表在(2-1)式之中 與 的估計值, 代表第 個樣本的值,

而 則代表樣本的總數。套用上述公式可得 YouTube Sessions 傳輸速度之

̂ = 6.46562, = 0.576755,而其 PDF 圖形則如圖 2-11。

圖 2-11 台大 ADSL YouTube Sessions 下行傳輸速度機率分布(含 MLE)

同理,FTP Sessions 也可使用兩個指標來過濾,其一是連線類型必須是 TCP 而不是 UDP,其二是檔案大小必須大於 50MB,並排除已知為 YouTube sessions 的 紀錄。符合上述限制條件的紀錄共有 11,019 筆,且使用 Lognormal Distribution 近 似而得之 ̂ = 6.25212, = 0.945979,其 PDF 圖形如圖 2-12 所示。

圖 2-12 台大 ADSL FTP Sessions 下行傳輸速度機率分布(含 MLE)

至於 HTTP Sessions 篩選的方式,在此使用連接阜(port num.)作為判斷標準,

理由是 HTTP Sessions 必然會使用連接阜 80 作為連線的窗口。但為了降低傳輸時 間因延遲紀錄而被高估的影響,在此亦加上檔案大小須高於 1MB 之限制條件。符 合的紀錄共有 67,490 筆,使用 Lognormal Distribution 近似而得 ̂ = 4.55822,

= 1.02965,而其 PDF 圖形如圖 2-13 所示。

圖 2-13 台大 ADSL HTTP Sessions 下行傳輸速度機率分布(含 MLE)

除了下行傳輸速度之機率分布,台大 ADSL 記錄檔也可以用來計算一日各時 段之流量大小趨勢。受限於篇幅之關係,在此僅列出一日各時段流量之平均值,

如圖 2-14 所示。該統計資料除了可以在模擬時用來產生 Non-stationary Poisson Process,亦將在第三章演算法之中有關使用歷史資訊的部分予以運用。

圖 2-14 台大 ADSL 一日各時段流量平均值

相關文件