• 沒有找到結果。

曲線相似性之檢定 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "曲線相似性之檢定 - 政大學術集成"

Copied!
31
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學統計學系 碩士學位論文. 曲線相似性之檢定 A test for curve similarity 政 治 大 立 ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授:黃子銘 博士 研究生:程毓婷 撰. 中華民國一百年七月.

(2) 謝辭 這篇論文能夠順利完成,首先我要感謝我的指導教授黃子銘老師,黃老師的 耐心指導、諄諄教誨,使我在研究所生涯中獲益良多;從和黃老師的討論中,不 管是思考邏輯、統計上的想法,或是寫程式的部分,我都學到很多新知,在此我 要由衷地向黃老師獻上最深的敬意和感謝。另外,也很開心能和黃老師有一個共 同的興趣─打排球,希望之後的統研盃黃老師能和學弟妹們繼續在排球這個項目 拿下好成績。 我也要感謝我親愛的家人:謝謝爸爸媽媽,總是為我加油打氣,支持我的決 定,鼓勵我完成我的目標;謝謝弟弟,在我煩躁不安時鼓勵我任何事情都要往好 的方面想。 接著,我要感謝允文,謝謝你總是耐心地和苦惱的我討論,聰明的你常常都 有很棒的想法,還有謝謝你總是很貼心,你的陪伴和鼓勵是我堅持下去的力量。 最後,我要感謝所有在研究所修業期間教過我的老師,謝謝老師在學業上對 我的訓練;還有感謝我政大統研所的同學們,謝謝你們在我學業上的幫忙和砥 礪,很開心研究所生涯中能和你們一起努力。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 毓婷 2011 年 7 月.

(3) 立. 政 治 大 摘要. 這篇論文提出了比較兩組資料曲線在對齊後是否有相似外形的分析方法。在. ‧ 國. 學. functional data analysis 中,可能會有多條曲線具有相同外形但是時間轉換卻不一 樣的情形。這篇論文檢定了兩組資料曲線在對齊後是否有相似外形,論文中並提出一. ‧. 個檢定統計量,再藉由模擬得到檢定的 p-value 和檢定力。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(4) 政 治 大 Abstract. This thesis proposed an analysis comparing whether the shape function for. 立. two groups of curves are similar after alignment. In functional data analysis,. ‧ 國. 學. it is common to have curves of the same pattern but with variation in time. The common pattern can be characterized by a shape function. The problem considered in this thesis is to test whether the shape functions for two groups. ‧. of curves are essentially the same. A test statistic is proposed and the p-value is obtained via simulation. Simulation results indicate that the test performs. n. al. er. io. sit. y. Nat. well.. Ch. engchi. i n U. v.

(5) 目 錄 1 緒論. 立. 2 文獻回顧. 政 治 大. 4 6. ‧ 國. 學. 3 研究方法. 4 模擬過程. 8 12. ‧. 5 結果與討論. n. er. io. sit. y. Nat. al. Ch. engchi. 1. i n U. v. 25.

(6) 圖 目 錄. 政 治 大. 4.1. (左)第一組資料曲線,(右)第二組資料曲線 . . . . . . . . . . . . . . .. 14. 4.2. 第一組資料曲線 . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 4.3. 第二組資料曲線 . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 4.4. 隨機生成的第一組資料曲線之時間對齊函數 . . . . . . . . . . . . . .. 18. 4.5. 隨機生成的第二組資料曲線之時間對齊函數 . . . . . . . . . . . . . .. 18. 4.6. 第 1 種之第一、二組外形函數 . . . . . . . . . . . . . . . . . . . . .. 19. 4.7. 第 2 種之第一、二組外形函數 . . . . . . . . . . . . . . . . . . . . .. 19. 4.8. 第 3 種之第一、二組外形函數 . . . . . . . . . . . . . . . . . . . . .. 20. 4.9. 第 4 種之第一、二組外形函數 . . . . . . . . . . . . . . . . . . . . .. 立. y. sit. ‧. ‧ 國. 學. Nat. 20 21. 4.10 第 5 種之第一、二組外形函數 . . . . . . . . . . . . . . . . . . . . .. io. er. 4.11 第 6 種之第一、二組外形函數 . . . . . . . . . . . . . . . . . . . . .. al. n. iv n C 4.13 第 8 種之第一、二組外形函數 h e n. g. . c. .h. i. . U. . . . . . . . . . . . . 4.12 第 7 種之第一、二組外形函數 . . . . . . . . . . . . . . . . . . . . .. 2. 21 22 22.

(7) 表 目 錄. 政 治 大. 4.1. 外形函數係數 vs. 相似度 r . . . . . . . . . . . . . . . . . . . . . .. 23. 4.2. 相似度 r vs. 檢定力 . . . . . . . . . . . . . . . . . . . . . . . . . .. 23. 4.3. 重新生成第 3 種外形函數之相似度 r vs. 檢定力 . . . . . . . . . . .. 24. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 3. i n U. v.

(8) Chapter 1. 政 治 大. 緒論. 立. ‧ 國. 學. 這篇論文考慮檢定兩組資料曲線在對齊後是否有相似外形的問題。假設有兩組資 料曲線,令 n1 , n2 分別為第 1, 2 組的曲線數, yi,j (t)為第 i 組的第 j 條曲線在時間 t 的觀察值,考慮以下的模型:. ‧. yi,j (t) = ci,j + ai,j · fi (µi,j (t)) + εi,j (t),. Nat. y. (1.1). sit. 其中 i = 1, 2, j = 1, 2, 3, . . ., ni , t ∈ {t1 , . . . , tn } ⊂ [0, 1], t1 = 0, tn = 1. 所有. er. io. 2 的 εi,j (tk )’s 為獨立,且每個 εi,j (tk ) 分布為 N (0, σi,j ). (1.1) 的模型中,第 i 組曲. 線可藉著對齊使得曲線外形由 fi 決定,但曲線間可以有尺度和 level 上的差異,分別. al. n. iv n C 為第 i 組曲線的外形函數, µ h 稱為第 i U e nig組第c jh條曲線的時間對齊函數。這裡時間. 由 ai,j 和 ci,j 來決定。這種情形我們稱為第 i 組的曲線在對齊後有相似外形, fi 稱 i,j. 對齊函數 µi,j 必須是 [0, 1] 上的遞增函數(不必是嚴格遞增),滿足 µi,j (0) = 0, µi,j (1) = 1.. (1.2). 此外,設定兩組的第一條曲線各為該組的基準曲線 (reference curve), 具有標準的時 間、尺度和 level, 即 µi,1 (t) = t, ci,1 = 0, ai,1 = 1, ∀ i = 1, 2. 根據以上對曲線在對齊後有相似外形的意義,兩組資料曲線在對齊後外形相似定 義如下: 存在常數 c, a > 0 及時間對齊函數 µ 使得 f1 = c + af2 ◦ µ. 因此所考慮的 問題為檢定 H0 : f1 = c + af2 ◦ µ for some c, a(> 0) and µ. 4. (1.3).

(9) 以上問題的研究動機敘述如下。 Functional data 曲線通常都有一個共同外形 函數 (common shape), 伴隨著不同的時間和尺度。例如在 J.O. Ramsay & B.W. Silverman (2005) 的 “functional data analysis” 一書中有個例子,提到了在加拿大 四個不同地方的氣象台月均溫資料曲線,這四條資料曲線看起來的共同外形函數為正 弦曲線,伴隨著不同的時間和尺度。當有兩組曲線時,我們可能會有興趣想知道這兩 組曲線在對齊後有否有相同的樣子,例如在 Maldonado et al. (2002) 的論文中, 作者想探討是否有足夠的證據顯示年輕老鼠群和年老老鼠群腦組織中的神經節甘脂 (ganglioside) 的分布是有差異的,作者認為隨著年齡增長,腦部的老化會使得某些大. 政 治 大. 腦區域中的神經節甘脂的分布改變,文中的兩組資料曲線分別是年輕老鼠群和年老老 鼠群的神經節甘脂強度資料。 (1.3) 的檢定可應用於這類型的問題。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 5. i n U. v.

(10) Chapter 2. 文獻回顧 政 治 大 立. ‧ 國. 學. 有關資料曲線共同外形的估計,必須要先處理曲線對齊的問題。最早的論文是 使用動態規劃法 (dynamic programming) 去估計時間對齊函數 (Sakoe & Chiba (1978)). 對齊的方法較早出現的是使用 landmark 對齊曲線,常用的 landmark 包. ‧. 括曲線局部極大或極小,以及反曲點的位置。在 Kneip & Gasser(1992) 和 Gasser. y. Nat. & Kneip (1995) 裡探討使用 landmark 對齊時,相關估計量的統計性質,包括. sit. landmark 位置估計量,時間對齊函數 (warping function) 估計量,以及 structural. er. io. average 估計量的漸近行為,其中 structural average 為曲線對齊後外形函數的 平均。在文章中也使用了一組生長曲線的資料來加以應用。如果要探討更多有關. al. n. iv n C U & Li (1998) 提出了使 另外也有些對齊的方法不必使用 landmarks. iRamsay hen h c g 用分段的線性基底去估計時間對齊函數(避免掉了數值積分),以及使用較好計算的 landmark 對齊方法的文獻,可以參考 Bookstein (1991).. smooth 單調轉換做為時間對齊函數。 Kneip et al.(2000) 提出了一個方法,類似於 使用局部多項式去 smooth 時間對齊函數並加以對齊。 Gervini & Gasser (2004) 使 用了 B-spline 基底進行時間對齊函數的估計,然後藉由最小化 average integrated squared error 估計共同外形函數。 Liu & Muller (2004) 提出的模型中,時間的轉 換是隨機的,並藉由計算還沒對齊曲線的 functional convex average, 估出共同外形 函數。 而關於曲線在對齊後外形是否相似的問題,在 Maldonado et al. (2002) 的論文 中作者是使用最小平方法 (method of ordinary least squares) 並以 cubic B-splines. 6.

(11) 的線性組合去估計每條資料曲線,有關 B-splines 的介紹在第三章研究方法中會加 以說明。另外,作者選取局部極值 (local extrema) 和反曲點 (inflection points) 當作 landmark 去對齊估出之曲線;時間對齊函數的估計是使用 cubic smoothing splines 去極小化平方和,再加上懲罰項。作者提出了三個統計量: pooled-mean, pooled-variance ,及 ratio of the pooled-mean to the square-root of the pooledvariance, 並透過模擬藉由 permutation distribution 算出在 H0 下所得的檢定的 p-value.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 7. i n U. v.

(12) Chapter 3. 研究方法 政 治 大 立. ‧ 國. 學. 對於 (1.3) 的檢定問題,這篇論文提出的檢定統計量需要用到外形函數 fi 和時間 對齊函數 µi,j 的估計量,並使用了 B-spline 函數去 model fi 和 µi,j , 而 p-value 則. ‧. 是採用 bootstrap 生成新的資料曲線得到。以下會介紹 B-spline 函數, fi 和 µi,j 的估計,檢定統計量和 p-value 的計算。. y. Nat. 在一區間上的 B-spline 函數為 B-spline 基底的線性組合,而一組 B-spline 基. sit. 底是由內部的 knots (internal knots), 邊界的 knots (boundary knots, 即區間邊界). er. io. 和 order 所決定。每個基底函數為分段多項式 (piecewise polynomial), 其中分段點 為內部的 knots, 多項式次數為 order − 1. B-spline 函數可用來近似一般平滑的函. al. n. iv n C 使用 B-spline 函數做為時間對齊函數時,因為時間對齊函數為遞增且滿足 (1.2), hengchi U B-spline 基底的係數要滿足一些限制。考慮由一組 B-spline 基底 B , . . ., B 組合 數。關於 B-spline 函數的詳細介紹與近似性質,可參考 Schumaker (1981).. 1. 成的 B-spline 函數 g =. Pm. i=1. m. ai Bi . 如果係數 a1 , . . ., am 滿足 a1 ≤ · · · ≤ am. 且 a1 = 0, am = 1, 則 g(x) 為 x 的遞增函數,而且 g(0) = 0, g(1) = 1. 以上性質 可由 Schumaker (1981) 提到 B-spline 函數的定義與導數的性質推導得出。 µi,j 和 fi 的估計,採用以下的步驟 (i)–(iv): (i). 由基準曲線得到 fi 的初步估計量 f˜i . 1. fi 的 B-spline 設定如下。考慮內部的 knots 為 0 到 1 間等距的 dK = n 3 e 8.

(13) 個點,邊界的 knots 為 0 和 1, order 為 3 (二次多項式) 的 B-spline 基底 B1 , . . ., BK+3 . fi 為 fb = b1 B1 + · · · + bK+3 BK+3 ˆ 由最小平方法 (least square 的形式,其中 b = (b1 , . . . , bK+3 ). b 的估計量 b ˆ 為使 method) 得到,即 b n X. (yi,1 (tk ) − fb (tk ))2. k=1. 政 治 大. 最小的 b 值。由此可得 fi 的初步估計量 f˜i = fbˆ .. (ii). 得到 µi,j , ci,j , ai,j 的估計量 µ ˜i,j , c˜i,j , a ˜i,j , 其中 i = 1, 2, j = 2, 3, . . ., ni .. 立. 當 j = 1 時,因第 i 組第一條曲線為基準曲線, µ ˜i,1 為 identity function,. ‧ 國. 學. c˜i,1 = 0, a ˜i,1 = 1.. 當 j ≥ 2 時, µi,j 的 B-spline 設定如下。考慮內部的 knots 為 0 到 1 間等 1. 距的 dK ∗ = 2n 3 e 個點,邊界的 knots 為 0 和 1, order 為 3 (二次多項式) 的. ‧. ∗ B-spline 基底 B1∗ , . . ., BK ∗ +3 , 則 µi,j 為. al. y. er. io. 的形式, 其中 θ = (θ1 , . . . , θK ∗ +3 ) ∈ S, 而. v ni. n. S = {θ : θ1 ≤ · · · ≤ θK ∗ +3 , θ1 = 0, θK ∗ +3 = 1}.. Ch. engchi U. 估 µi,j 的係數 θ 時,取 θˆ 為 S 中使得. (3.1). sit. Nat. ∗ µθ = θ1 B1∗ + · · · + θK ∗ +3 BK ∗ +3. cor((yi,j (t1 ), . . . , yi,j (tn )), (fi (µθ (t1 )), . . . , fi (µθ (tn )))). (3.2). (3.3). 最 大 的 θ 值 , 其 中 cor 為 sample correlation. 由 此 可 得 µi,j 的 估 計 量 µ ˜i,j = µθˆ. 另外, ci,j , ai,j 的估計量 c˜i,j , a ˜i,j 是由最小平方法得到,即 (˜ ci,j , a ˜i,j ) 為使 n X. (yi,j (tk ) − ci,j − ai,j f˜i (˜ µi,j (tk )))2. k=1. 最小的 (ci,j , ai,j ) 值,其中 j = 2, 3, . . ., ni . 9.

(14) (iii). 重新估計外形函數 fi . fi 的 B-spline 設定及 fb 的定義如步驟 (i). 以步驟 (ii) 的 c˜i,j , a ˜i,j 以及 ˆ ,即 µ ˜i,j (t) 當作 µi,j , ci,j , ai,j 的真實值, 重新計算 b 的最小平方估計量 b ˆ 為使 b. ni X n X. [(yi,j (tk ) − c˜i,j − a ˜i,j fb (˜ µi,j (tk ))]2. j=1 k=1. 最小的 b 值。由此可得 fi 的新估計量 f˜i = fbˆ . (iv). 重覆執行步驟 (ii)–(iii) 直到時間對齊函數的估計 µ ˜i,j 和外形函數的估計 f˜i 穩. 政 治 大. 定,然後取使 (3.3) 中 correlation 最大的那次執行的 f˜i , µ ˜i,j , c˜i,j 及 a ˜i,j 作 為 fi , µi,j , ci,j 及 ai,j 的最終估計值,並以 fˆi , µ ˆi,j , cˆi,j 及 a ˆi,j 表示。. 立. ‧ 國. 學. 以下為對檢定想法與統計量計算的說明。在 (1.3) 成立時,. y1,j (t) ≈ c1,j + a1,j (c + af2 (µ(µ1,j (t)))),. (3.4). C(µ) =. n1 X. ‧. 其中 t ∈ {t1 , . . . , tn }, 因此在 (1.3) 成立時,如果估計誤差小且 σi,j ’s 小,   cor (fˆ2 (µ(ˆ µ1,j (t1 ))), . . . , fˆ2 (µ(ˆ µ1,j (tn )))), (y1,j (t1 ), . . . , y1,j (tn )). y. Nat. j=1. sit. 應該接近 n1 . 考慮 µ 為 (3.1) 中 µθ 的形式,且 θ ∈ S, S 如 (3.2) 中所定,取 θ∗. er. io. 為 S 中使 C(µθ ) 最大的 θ 值,令 µ ˆ = µθ∗ , 則 C(ˆ µ) 即為本研究所提出的檢定統計 量,以下簡稱為 C 檢定統計量。當 C 檢定統計量小時,應該拒絕 (1.3) 的假設,即. al. n. iv n C h e n g c h i Up-value 以模擬方式計算, C 檢定統計量在 (1.3) 成立時的分配並不清楚,因此. 認為兩組曲線無法在對齊後有相同外形。. 模擬資料生成說明如下。. 1. 對 i = 1, 2, j = 1, 2, . . ., ni , 計算殘差 εˆi,j (tk ) = yi,j (tk ) − cˆi,j − a ˆi,j fˆi (ˆ µi,j (tk )). 2. 從 εˆi,j (t1 ), . . ., εˆi,j (tn ) 得到一組 bootstrap sample ε∗i,j (t1 ), . . ., ε∗i,j (tn ). 3. 對 i = 1, 2, j = 1, . . ., ni , 第 i 組的第 j 條模擬曲線在時間 tk 的值為 ∗ yi,j (tk ) = cˆi,j + a ˆi,j · fˆi (ˆ µi,j (tk )) + ε∗i,j (tk ),. 1 ≤ k ≤ n. 10.

(15) 每次執行 1-3 的步驟可模擬出兩組曲線並計算 C 檢定統計量,模擬 m 次後得 到 m 個 C 檢定統計量 C1 , . . ., Cm . 令 C0 為原本資料算出的 C 檢定統計量,計 算 C1 , . . ., Cm 小於 C0 的比例,即為 p-value. 也就是說,在 α 顯著水準下,當 p-value 小於 α 時,本論文所提出的檢定拒絕 (1.3) 的假設。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 11. i n U. v.

(16) Chapter 4. 模擬過程 政 治 大 立. ‧ 國. 學. 模擬過程裡的兩組資料各採用 4 條資料曲線 (n1 = n2 = 4), 生成資料時 t1 , t2 , . . ., tn 為 0 到 1 間等距的 101 個點(包含端點)。. 時間對齊函數為 √. t,. sit. Nat. µ1,1 (t) = µ2,1 (t) = t, µ1,2 (t) = µ2,4 (t) =. y. ‧. (i). 時間對齊函數和外形函數皆使用多項式函數生成資料. n. al. er. io. µ1,3 (t) = µ2,3 (t) = t2 , µ1,4 (t) = µ2,2 (t) = t3 .. i n U. v. 為了算出檢定 (1.3) 的 p-value 及檢定力,以下分別生成兩組像與不像資料來 進行模擬:. Ch. engchi. 1. 兩組資料為像的資料 生成資料時,第一組資料的外形函數設定為 f1 (x) = 5x2 − 4x + 2, 第二 4 1 組資料的外形函數設定為 f2 (x) = x2 − x + . 有關誤差的設定:第一 5 3 組資料給的誤差是 N (0, 0.32 ), 第二組資料給的誤差是 N (0, 0.052 ). 還有 ci,j 和 ai,j 的設定為 ci,1 = 0, ci,2 = 0.1, ci,3 = 0.3, ci,4 = 0.5, ai,1 = 1, ai,2 = 2, ai,3 = 4, ai,4 = 1.5, i = 1, 2. 生成出來的第一、二組資料曲線 如圖 4.1 。. 12.

(17) 接著採用第三章研究方法裡的步驟 (i)-(iv) 估計 µi,j 和 fi . 步驟 (iii) 和 (iv) 同研究方法中所述。 步驟 (i) 中 fi 的 B-spline 設定為:內部的 knots 個數為 K = 5, fi 的 B-spline 基底為 B1 , B2 , . . ., B8 . 則 fi 為 fb = b1 B1 + · · · + b8 B8 的形式,這裡 b = (b1 , . . . , b8 ) 的估計量 ˆb 由最小平方法得到,即可得到 fi 的初步估計量 f˜i = fˆb . 步驟 (ii) 中 µi,j (i = 1, 2, j = 2, 3, 4) 的 B-spline 設定為:內部的. 政 治 大. ∗ knots 個數為 K ∗ = 9, µi,j 的 B-spline 基底為 B1∗ , B2∗ , . . ., B12 . 則. µi,j 為. 立. ∗ µθ = θ1 B1∗ + · · · + θ12 B12 ,. ‧ 國. 學. 其中 θ = (θ1 , . . . , θ12 ) 要滿足 (3.2). 估 µi,j 的係數 θ 時,取 θˆ 為 S 中. 使得 (3.3) 最大的 θ 值,由此可得 µi,j 的估計量 µ ˜i,j = µθˆ. 另外, ci,j ,. ai,j 的估計量 c˜i,j , a ˜i,j 是由最小平方法得到,其中 j = 2, 3, 4.. ‧. 原先資料算出的統計量為 C0 , 執行研究方法中的步驟 1-3 可模擬出兩組. y. Nat. 曲線,在這裡模擬 m = 40 次,得到統計量 C1 , . . ., C40 , 計算 C1 , . . .,. sit. C40 小於 C0 的比例,即為 p-value. 重複 100 次實驗,生成 100 次的原 的有 4 個,算出拒絕的比例為. n. al. 誤差 α.. Ch. 4 100. = 0.04, 此即為 (1.3) 檢定問題的型 I. engchi. 13. er. io. 始資料依照上述過程算出 100 個 p-values, 100 個 p-values 中小於 0.05. i n U. v.

(18) f2(x)=x^2−(4/5)x+1/3. y(t) 1.0. 6. 0.5. 4. 0.0. 2 0. 0.2. 0.4. 0.6 t. 立. 0.8. 政 治 大 1.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. t. 圖 4.1: (左)第一組資料曲線,(右)第二組資料曲線. 學. 2. 兩組資料為不像的資料. ‧. 1 17 2 生成資料時,第一組資料的外形函數設定為 f1 (x) = x3 − x + 3 30 4 1 4 1 x + , 第二組資料的外形函數設定為 f2 (x) = x2 − x + . 有關誤 15 2 5 3 差的設定:第一組資料給的誤差是 N (0, 0.0052 ), 第二組資料給的誤差是. y. Nat. sit. N (0, 0.052 ). 還有 ci,j 和 ai,j 的設定為 ci,1 = 0, ci,2 = 0.1, ci,3 = 0.3,. io. ci,4 = 0.5, ai,1 = 1, ai,2 = 2, ai,3 = 4, ai,4 = 1.5, i = 1,2. 生成出來的. er. 0.0. ‧ 國. y(t). 8. 1.5. 10. 2.0. 12. 2.5. f1(x)=5x^2−4x+2. 第一、二組資料曲線如圖 4.2 和圖 4.3 。. al. n. iv n C h e n步驟 和 (iv) 同研究方法中所述。 的 B-spline 設定為:內部的 g c(i)h中i f U. 接著採用第三章研究方法裡的步驟 (i)-(iv) 估計 µi,j 和 fi . 步驟 (iii) i. knots 個數為 K = 5, fi 的 B-spline 基底為 B1 , B2 , . . ., B8 . 則 fi 為 fb = b1 B1 + · · · + b8 B8. 的形式,這裡 b = (b1 , . . . , b8 ) 的估計量 ˆb 由最小平方法得到,即可得到 fi 的初步估計量 f˜i = fˆb . 步驟 (ii) 中 µi,j (i = 1, 2, j = 2, 3, 4) 的 B-spline 設定為:內部的 ∗ . 則 knots 個數為 K ∗ = 9, µi,j 的 B-spline 基底為 B1∗ , B2∗ , . . ., B12. µi,j 為 ∗ µθ = θ1 B1∗ + · · · + θ12 B12 ,. 14.

(19) 其中 θ = (θ1 , . . . , θ12 ) 要滿足 (3.2). 估 µi,j 的係數 θ 時,取 θˆ 為 S 中 使得 (3.3) 最大的 θ 值,由此可得 µi,j 的估計量 µ ˜i,j = µθˆ. 另外, ci,j , ai,j 的估計量 c˜i,j , a ˜i,j 是由最小平方法得到,其中 j = 2, 3, 4. 原先資料算出的統計量為 C0 , 執行研究方法中的步驟 1-3 可模擬出兩組 曲線,在這裡模擬 m = 40 次,得到統計量 C1 , . . ., C40 , 計算 C1 , . . ., C40 小於 C0 的比例。 重複 100 次實驗,生成 100 次的原始資料依照上 述過程算出 100 個比例, 100 個比例中小於 0.05 的有 84 個,算出拒絕 的比例為. 84 100. = 0.84, 此即為 (1.3) 檢定問題的檢定力。. 政 治 大. 立. ‧ 國. 學 f1(x)=(1/3)x^3−(17/30)x^2+(4/15)x+1/2. y 0.8. 1.0. 0.0. 0.2. 0.6 t. Ch. 0.8. 1.0. i n U. 1.32. y1,4(t). 1.24. 2.30. 2.35. v. f1(x)=(1/3)x^3−(17/30)x^2+(4/15)x+1/2. engchi. 2.40. 2.45. 0.4. er. n. al. 0.6 t. f1(x)=(1/3)x^3−(17/30)x^2+(4/15)x+1/2. y1,3(t). sit. 1.10 0.4. 1.28. io. 0.2. 1.14. y1,2(t). 0.54 0.52 0.50. y1,1(t). Nat 0.0. ‧. 1.18. f1(x)=(1/3)x^3−(17/30)x^2+(4/15)x+1/2. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 0.0. 0.2. t. 0.4. 0.6 t. 圖 4.2: 第一組資料曲線. 15. 0.8. 1.0.

(20) 0.0. 0.5. 1.0. y(t). 1.5. 2.0. 2.5. f2(x)=x^2−(4/5)x+1/3. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. t. 學. ‧ 國. 立. 政 治 大. 圖 4.3: 第二組資料曲線. ‧. (ii). 時間對齊函數和外形函數皆使用 B-spline 基底生成資料. 生成資料時,使用 B-spline 基底生成 µi,j (t) (i = 1, 2, j = 1, 2, 3, 4), 考慮內. y. Nat. 部的 knots 為 0 到 1 間等距的 K ∗ = 9 個點,邊界的 knots 為 0 和 1, order. n. al. ∗ µθ = θ1 B1∗ + · · · + θ11 B11 ,. Ch. er. io. sit. ∗ 為 2 (一次多項式) 的 B-spline 基底為 B1∗ , B2∗ , . . ., B11 . 則 µi,j 為. i n U. v. 其中 θ = (θ1 , . . . , θ11 ). 取 θ1 = 0, θ11 = 1; θ2 , . . . , θ10 從 U nif orm(0, 1) 分. engchi. 配中隨機生成再排序,使得 θ2 ≤ · · · ≤ θ10 , θ 滿足 (3.2). 生成出的 µ1,j (t) (j = 1, 2, 3, 4) 如圖 4.4, µ2,j (t) (j = 1, 2, 3, 4) 如圖 4.5 。 再使用 B-spline 基底生成 fi (i = 1, 2), fi 的 B-spline 設定為:內部的 knots 為 0 到 1 間等距的 K = 5 個點,邊界的 knots 為 0 和 1, order 為 3 (二次多 項式) 的 B-spline 基底 B1 , B2 , . . ., B8 . 則 fi 為 fb = b1 B1 + · · · + b8 B8 的形式,這裡 b = (b1 , . . . , b8 ) 從 U nif orm(0, 3) 分配中隨機生成。有關 誤差的設定:第一組資料給的誤差是 N (0, 0.052 ), 第二組資料給的誤差是 N (0, 0.052 ). 還有 ci,j 和 ai,j 的設定為 ci,1 = 0, ci,2 = 0.1, ci,3 = 0.3, 16.

(21) ci,4 = 0.5, ai,1 = 1, ai,2 = 2, ai,3 = 4, ai,4 = 1.5, i = 1,2.. 接著採用第三章研究方法裡的步驟 (i)-(iv) 估計 µi,j 和 fi . 步驟 (iii) 和 (iv) 同研究方法中所述。 步驟 (i) 中 fi 的 B-spline 設定為:內部的 knots 個數為 K = 5, fi 的 B-spline 基底為 B1 , B2 , . . ., B8 . 則 fi 為 fb = b1 B1 + · · · + b8 B8 的形式,這裡 b = (b1 , . . . , b8 ) 的估計量 ˆb 由最小平方法得到,即可得到 fi 的 初步估計量 f˜i = fˆb .. 政 治 大. 步驟 (ii) 中 µi,j (i = 1, 2, j = 2, 3, 4) 的 B-spline 設定為:內部的 knots 個. 立. 學. ‧ 國. ∗ 數為 K ∗ = 9, µi,j 的 B-spline 基底為 B1∗ , B2∗ , . . ., B12 . 則 µi,j 為 ∗ µθ = θ1 B1∗ + · · · + θ12 B12 ,. 其中 θ = (θ1 , . . . , θ12 ) 要滿足 (3.2). 估 µi,j 的係數 θ 時,取 θˆ 為 S 中使得. ‧. (3.3) 最大的 θ 值,由此可得 µi,j 的估計量 µ ˜i,j = µθˆ. 另外, ci,j , ai,j 的估. y. Nat. 計量 c˜i,j , a ˜i,j 是由最小平方法得到,其中 j = 2, 3, 4.. sit. 原先資料算出的統計量為 C0 , 執行研究方法中的步驟 1-3 可模擬出兩組曲線,. er. io. 在這裡模擬 m = 40 次,得到統計量 C1 , . . ., C40 , 計算 C1 , . . ., C40 小於 C0 的比例。 重複 100 次實驗,生成 100 次的原始資料依照上述過程算出 100 個. n. al. i n U. v. 比例,計算 100 個比例中小於 0.05 的比例,此即為 (1.3) 檢定問題的檢定力。. Ch. engchi. 另外定義相似度 r 為隨機生成之第一、二組資料點不加上誤差項,對齊後所算 出的 C 檢定統計量。在相似度 0 到 4 中區分為 8 個等距的區間,重複隨機生 成第一、二組外形函數的係數,直到每一相似度區間中各有一組代表資料,生 成出的 8 種第一、二組外形函數如圖 4.6 到圖 4.13 所示(此 8 種第一、二組外 形函數的係數在表 4.1),而模擬出的檢定力如表 4.2 。 (iii). 增大誤差的部分: 將第 5 種資料的誤差增大 2 倍(第一組資料給的誤差為 N (0, 0.12 ), 第二組資料給的誤差為 N (0, 0.12 )), 觀察檢定力的變化,結果模擬 出的檢定力為 0.75, 表示誤差增大降低了 (1.3) 檢定問題的檢定力。. 17.

(22) 0.8 0.0. 0.4. mu_{1,2}(t). 0.8 0.4. mu_{1,1}(t). 0.0 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 0.0. 0.2. 0.4. t. 1.0. 0.8. 1.0. 0.8 0.4. mu_{1,4}(t). 0.0. 0.0. 0.4. mu_{1,3}(t). 0.8. 0.4. 0.6. 0.8. 1.0. 0.0. 0.2. 0.4. t. 0.6. 學. ‧ 國. 0.2. 0.8. 政 治 大. 立 0.0. 0.6 t. t. ‧. 圖 4.4: 隨機生成的第一組資料曲線之時間對齊函數. 0.6. 0.8. er. 0.8 0.4. 1.0. 0.0. 0.2. i n U 0.4. v. 0.6. 0.8. 1.0. 0.6. 0.8. 1.0. t. 0.0. 0.4. mu_{2,4}(t). 0.8. engchi. 0.0. mu_{2,3}(t). t. 0.0. Ch. 0.4. sit. y 0.2. 0.8. 0.0. 0.4. 0.0. n. mu_{2,2}(t). 0.8 0.4. io. mu_{2,1}(t). Nat. al. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 0.0. t. 0.2. 0.4 t. 圖 4.5: 隨機生成的第二組資料曲線之時間對齊函數 18.

(23) 1.5 0.5. f1(t). 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 0.8 0.2. f2(t). t. 立. 0.2. 0.4. 0.6. 0.8. 1.0. 學. ‧ 國. 0.0. 政 治 大 t. er. al. n. 0.5. io. 1.5. sit. y. Nat f1(t). ‧. 圖 4.6: 第 1 種之第一、二組外形函數. Ch 0.2. 0.4. 0.6. engchi t. i n U 0.8. v. 1.0. 1.0. f2(t). 2.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. t. 圖 4.7: 第 2 種之第一、二組外形函數 19. 1.0.

(24) 1.5 0.5. f1(t). 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 2.5 1.5. f2(t). t. 立. 0.2. 0.4. 0.6. 0.8. 1.0. 學. ‧ 國. 0.0. 政 治 大 t. y. sit. n. er. 0.5 1.5 2.5. io. f1(t). Nat. al. Ch 0.2. 0.4. 0.6. engchi t. i n U 0.8. v. 1.0. 1.0. 1.6. 0.0. f2(t). ‧. 圖 4.8: 第 3 種之第一、二組外形函數. 0.0. 0.2. 0.4. 0.6. 0.8. t. 圖 4.9: 第 4 種之第一、二組外形函數 20. 1.0.

(25) 2.5 1.5 0.5. f1(t). 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2 0.6. f2(t). 1.8. t. 立. 0.2. 0.4. 0.6. 0.8. 1.0. 學. ‧ 國. 0.0. 政 治 大 t. 1.0. io 0.4. n. al. er. 1.6. sit. y. Nat f1(t). ‧. 圖 4.10: 第 5 種之第一、二組外形函數. Ch 0.2. 0.4. 0.6. engchi t. i n U 0.8. v. 1.0. 1.5 0.5. f2(t). 2.5. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. t. 圖 4.11: 第 6 種之第一、二組外形函數 21. 1.0.

(26) 1.5 0.5. f1(t). 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 2.0 1.0. f2(t). t. 立. 0.2. 0.4. 0.6. 0.8. 1.0. 學. ‧ 國. 0.0. 政 治 大 t. n. 1.0. io. al. er. 2.0. sit. y. Nat f1(t). ‧. 圖 4.12: 第 7 種之第一、二組外形函數. Ch 0.2. 0.4. 0.6. engchi t. i n U 0.8. v. 1.0. 1.5 0.5. f2(t). 2.5. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. t. 圖 4.13: 第 8 種之第一、二組外形函數 22. 1.0.

(27) 種類. f1 係數. f2 係數. 相似度 r. 1. 0.21 0.78 1.37 0.78. 1.33 1.36 0.42 0.13. 0.459. 1.70 2.39 1.42 0.56. 0.54 1.37 0.24 1.20. 0.93 1.41 2.73 1.17. 1.41 0.99 1.39 1.50. 1.61 0.67 1.03 0.18. 0.51 1.14 2.71 0.79. 1.07 1.10 0.22 2.78. 2.16 2.52 1.70 0.91. 0.19 2.03 0.99 1.06. 2.94 2.45 1.35 2.90. 1.13 1.59 2.23 0.16. 1.57 0.47 2.34 1.04. 1.48 0.10 2.32 2.95. 2.42 0.46 2.38 0.89. 1.30 1.05 2.27 2.54. 1.84 1.98 0.22 2.04. 0.74 0.03 0.66 1.45. 0.58 0.49 1.02 0.84. 1.02 1.34 1.73 1.94. 1.00 1.78 2.18 0.43. 1.06 1.99 0.13 0.61. 0.22 0.30 0.98 2.60. 1.96 0.82 0.38 1.79. 0.92 2.54 0.26 2.07. 3.443. 2.35 2.38 1.13 2.11. 1.88 1.79 0.44 2.53. 0.84 2.54 2.23 1.83. 0.20 0.28 2.13 1.51. ‧. 4. 5. ‧ 國 8. 政 治 大. Nat. 0.55 2.47 1.32 0.67. 2.144. 2.748. 3.611. 0.38 2.31 2.79 0.29. io. 表 4.1: 外形函數係數 vs. 相似度 r. er. 7. 1.749. 學. 6. 立. 1.146. y. 3. 0.851. sit. 2. n. a l 相似度 r 的範圍 相似度 r 檢定力 iv n C 1 0 ≤hr e < 0.5 h i U 0.95 n g c 0.459. 種類. 2. 0.5 ≤ r < 1. 0.851. 1. 3. 1 ≤ r < 1.5. 1.146. 0.32. 4. 1.5 ≤ r < 2. 1.749. 0.99. 5. 2 ≤ r < 2.5. 2.144. 0.86. 6. 2.5 ≤ r < 3. 2.748. 1. 7. 3 ≤ r < 3.5. 3.443. 1. 8. 3.5 ≤ r < 4. 3.611. 0.87. 表 4.2: 相似度 r vs. 檢定力. 23.

(28) 種類. f1 係數. f2 係數. 相似度 r. 檢定力. 3. 0.17 1.36 2.91 0.37. 2.61 1.97 1.70 1.80. 1.125. 0.99. 0.29 0.59 1.82 2.70. 0.24 2.50 0.98 0.19. 表 4.3: 重新生成第 3 種外形函數之相似度 r vs. 檢定力. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 24. i n U. v.

(29) Chapter 5. 結果與討論 政 治 大 立. ‧ 國. 學. 由上一章模擬過程的結果可看出本論文所提出之方法的檢定效果大致上是不錯 的。模擬過程中第 (i) 部分使用多項式函數生成時間對齊函數和外形函數,模擬出檢. ‧. 定的型 I 誤差的控制和檢定力還不錯。模擬過程中第 (ii) 部分使用 B-spline 基底生 成時間對齊函數和外形函數,外形函數於不同的相似度區間中取得 8 種係數,由表. y. Nat. 4.2 的結果可以看出相似度介於 1 到 1.5 時的檢定力僅 0.32, 和其它相似度下所模擬. sit. 出的檢定力相比明顯小很多,這可能是因為這次所取到的外形函數較難估計(模擬時. er. io. 算出的 C 檢定統計量亦沒有大幅增加),但我們在此相似度區間中另取一組外形函 數,結果模擬出的檢定力為 0.99 (表 4.3), 與其它各相似度區間所算出的檢定力差異. al. n. iv n C 形函數時,本論文之研究方法較不易有好的估計。以未來之發展來說,因本方法執行 hengchi U 模擬的過程有點費時,所以可以試圖加以改進;另外,也可考慮使用其他方法進行對. 不大;由此可知,在不同的相似度下都可以有不錯的檢定力,但是遇到某些特殊的外. 齊,再與本文之研究方法做一比較。. 25.

(30) 參 考 文 獻. 政 治 大. [1] J´er´emie Bigot. Landmark-based registration of curves via the continu-. 立. ous wavelet transform. Journal of Computational and Graphical Statistics, 15(3):542–564, 2006.. ‧ 國. 學. [2] Theo Gasser and Alois Kneip. Searching for structure in curve samples. Journal of the American Statistical Association, 90:1179–1188, 1995.. ‧. [3] Daniel Gervini and Theo Gasser. Self-modelling warping functions. Journal of the Royal Statistical Society, Series B: Statistical Methodology,. Nat. sit. y. 66(4):959–971, 2004.. io. Journal of Applied Statistics, 25:155–171, 1998.. n. al. Ch. er. [4] C. A. Glasbey and K. V. Mardia. A review of image-warping methods.. i n U. v. [5] A. Kneip, X. Li, K. B. MacGibbon, and J. O. Ramsay. Curve registra-. engchi. tion by local regression. The Canadian Journal of Statistics / La Revue Canadienne de Statistique, 28(1):19–29, 2000. [6] Alois Kneip and Theo Gasser. Statistical tools to analyze data representing a sample of curves. The Annals of Statistics, 20:1266–1305, 1992. [7] Xueli Liu and Hans-Georg M¨ uller. Functional convex averaging and synchronization for time-warped random curves. Journal of the American Statistical Association, 99(467):687–699, 2004. [8] Yolanda Mu˜ noz Maldonado, Yolanda Munoz Maldonado, Joan G. Staniswalis, Louis N. Irwin, and Donna Byers. A similarity analysis of 26.

(31) curves. The Canadian Journal of Statistics / La Revue Canadienne de Statistique, 30(3):373–381, 2002. [9] J. O. Ramsay and Xiaochun Li. Curve registration. Journal of the Royal Statistical Society, Series B: Statistical Methodology, 60:351–363, 1998. [10] J. O. Ramsay and B. W. Silverman. Functional Data Analysis. SpringerVerlag Inc, 1997. [11] Birgitte B. Rønn, Birgitte B. Ronn, and Birgitte B. Roenn. Nonparametric. 政 治 大. maximum likelihood estimation for shifted curves. Journal of the Royal Statistical Society, Series B: Statistical Methodology, 63(2):243–259, 2001.. 立. [12] H. Sakoe and S. Chiba. Dynamic programming algorithm optimization. ‧ 國. 學. for spoken word recognition. IEEE Trans. on Acoust., Speech, and Signal Processing, ASSP-26(1):43–49, 1978.. ‧. [13] Rong Tang and Hans-Georg M¨ uller. Pairwise curve synchronization for. Journal of the American Statistical Association,. io. er. Curve Registration.. 103(481):328–339, 2008.. n. al. Bayesian Hierarchical. sit. Nat. [14] Donatello Telesca and Lurdes Y. T. Inoue.. y. functional data. Biometrika, 95(4):875–889, 2008.. Ch. i n U. v. [15] Grace Wahba. Spline Models for Observational Data. SIAM [Society for. engchi. Industrial and Applied Mathematics], 1990.. [16] Kongming Wang and Theo Gasser. Alignment of curves by dynamic time warping. The Annals of Statistics, 25(3):1251–1276, 1997.. 27.

(32)

參考文獻

相關文件

對任意連續函數,每個小區間上的取樣點 x 都選擇在函數最 大值與最小值發生的點。如下圖,淺色方塊的高度都挑選小

而此時,對於相對成長率為 k 的族群,其滿足族群成長模型 的解為指數函數 Ce kt ,此時的 k 便是指數中時間 t

如果函數是由基本函數所組成,至少需要注意:分式函 數分母會等於 0

相對應的,由於這些函數可以跟雙曲線上的點做對應,所以 稱為雙曲函數,其中主要的奇組合稱為 hyperbolic sine 雙曲 正弦函數,偶組合稱為

動態時間扭曲:又稱為 DTW(Dynamic Time Wraping, DTW) ,主要是用來比

(五)性騷擾申評會應對申訴案件做出成立或不成立之決議;評議成

對於給定的一個 x 值,經過某一對應方式後得到「唯一」的 y 值,這種對應方式我們稱 為函數,其中 x 是自變數,y 是應變數。. 而在表

前一章我們學過了一次函數,本章將繼續延伸到二次函數。二次函數的函數圖形為拋