投影追蹤法的核心工作就是投影指標的設定,投影指標的不同設定,可能會 導致投影追蹤法有不同的結果(鄭天澤、甘貴華,1990)。由本文第四章的模擬方 法與結果中,雖然驗證了投影指標值越大,並非使得投影後的資料點越密集,但 是卻能由投影指標看出,投影指標越大,可能代表資料點越能明顯的分群,至於 投影指標要多大才能使資料明顯分群,或者是投影指標要多小才能判斷出資料是 不能分群的,這個問題還有待探索。
探索當資料點先透過投影追蹤法,去找尋到的最終投影方向的投影點,再與 未經過投影追蹤法的資料點,使用 SPSS 之分層集群法去做分析,分別去求算其 錯誤判斷率,雖然並非每一筆的模擬資料,其一維度或二維度的錯誤判斷率比原 始資料低,但是就全部模擬資料的錯誤判斷個數的帄均數而言,不管其群間距離 測定方法為何,一維度或二維度的錯誤判斷個數皆比原始資料小。以變異數分析 的角度來看,不同的群間距離測定方法對於三種不同的資料型態(原始資料、一 維度投影追蹤法以及二維度投影追蹤法)的 F 值與 P-value 皆是顯著的,代表著這 三種不同資料型態的錯誤判斷個數的帄均數至少有一個與其它是不相同的。由事 後檢定值表格可以看出,原始資料的錯誤判斷個數的帄均數明顯不同於一維投影 追蹤法的錯誤判斷個數的帄均數及二維投影追蹤法的錯誤判斷個數的帄均數,然 而一維度投影追蹤法與二維度投影追蹤法之帄均錯誤判斷個數無顯著差異。這也 說明對於 Iris 資料而言,因為二維度投影追蹤法的結果並沒有比一維度投影追蹤 法的結果的好,所以使用一維度投影追蹤法去做分析即可。
本文仍有許多未完善之處,像這次的研究探討,只著重在資料中只有兩、三 個群數,但現實資料中可能是有多個群數,應以更多實際資料去做探討;然而當 資料中有部分重疊時,要用什麼方式,才能夠使資料明顯的分群。這些是本研究 未來要努力研究的方向。
32
參考文獻
1. Chen, Z. Y. (1989). Robust linear discriminant procedures using projection pursuit methods. Ph.D. dissertation, University of Michigan.
2. Friedman, J. H. (1987). Exploratory projection pursuit. Journal of the American Statistical Association, 82, 249-266.
3. Friedman, J. H. and Tukey, J. W. (1974). A projection pursuit algorithm for exploratory data analysis. IEEE Transactions on Computers, 9, 881-890.
4. Friedman, J. H. and Stuetzle, W. (1981). Projection pursuit regression.
Journal of the American Statistical Association, 76, 817-823.
5. Fisherkeller, M. A., Friedman, J. H. and Tukey, J. W. (1974). “PPRIM-9: An interactive multidimensional data display and analysis system ” . SLACPUB-1408.
6. Friedman, J. H., Stuetzle, W. and Schroeder, A. (1984). Projection pursuit density estimation. Journal of the American Statistical Association, 79, 599-608.
7. Huber, P. J. (1985). Projection pursuit. The Annals of Statistics, 13, 2, 435-475.
8. Jones, M. C. and Sibson, R. (1987). What is projection pursuit. Journal of the Royal Statistical Society, 150, 1, 1-37.
9. Kruskal, J. B. (1969). Toward a practical method which helps uncover the structure of a set of multivariate observations by finding the linear transformation which optimizes a new index of condensation. In statistical computation (Milton, R. C. and Nelder, J. A. Ed.), 427-440. New York:
33
Academic Press.
10. Kruskal, J. B. (1972). Linear transformation of multivariate data to reveal clustering, in multivariate scaling: theory and applications in the behavioral sciences. Volume 1, 179-191, New York and London: Seminar Press.
11. Li, G. and Chen, Z. (1985). Projection pursuit approach to robust dispesion matrices and principal components: primary theory and monte carlo. Journal of the American Statistical Association, 80, 759-766.
12. Nason, G. P. (1995). Three-dimensional projection pursuit. J. R. Statist. Soc. C, 44, 411-430.
13. Touboul J. (2010). Projection pursuit through ∅-divergence minimization.
Entropy 12, no. 6: 1581-1611.
14. Zhu M. (2004). On the forward and backward algorithms of projection pursuit.
The Annals of Statistics, 32(1), 233-244.
15. 林師模,陳苑欽 (2003)。 多變量分析,雙葉書廊,台北市。
16. 陳正昌,程炳林,陳新豐,劉子鍵 (2009)。 多變量分析方法-統計軟體應用 第五版,五南,台北市。
17. 鄭天澤,甘貴華 (1990)。 投影追蹤法近年研究之回顧。 中國統計學報第 28 卷 第 2 期,213-226。
34
startPeriod = periodBase(1); % beginning period to test
endPeriod = periodBase(length(periodBase)); % end period to test periodToDo = startPeriod:endPeriod;
deVal = [];
deVec1 = [];
deVec2 = [];
for dataInd = 1:length(periodToDo) period = periodToDo(dataInd) ind = period;
[X text] = xlsread(['totalData\' num2str(ind) '.xlsx']);
N = 150;
Xk = sum(K5)/(floor((1-p)*N)-floor(p*N));
s = sqrt(sum(((K5-Xk).^2)./(floor((1-p)*N)-floor(p*N))));
35
36
37
38 K = (X(i,:)*k);
K2 = [K2;K];
end
for i = 1:150 jj = i;
J2 = [J2;jj];
end
MI = [K2 J2];
file =['totalData1\' num2str(dataInd) '.xlsx'];
delete(file);
SUCCESS = xlswrite(file,MI);
end
39
二維度演算法
close all clear all
periodBase = [1:100];
startPeriod = periodBase(1); % beginning period to test
endPeriod = periodBase(length(periodBase)); % end period to test periodToDo = startPeriod:endPeriod;
deVal = [];
deVec1 = [];
deVec2 = [];
for dataInd = 1:length(periodToDo) period = periodToDo(dataInd) ind = period;
[X text] = xlsread(['totalData\' num2str(ind) '.xlsx']);
N = 150;
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62