• 沒有找到結果。

應用文件探勘技術於概念股股價共同移動之研究 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "應用文件探勘技術於概念股股價共同移動之研究 - 政大學術集成"

Copied!
64
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊管理學系. 碩士學位論文 指導教授:楊建民博士. 立. 政 治 大. ‧ 國. 學. 應用文件探勘技術於概念股股價共同移動之研究. ‧ y. Nat. er. io. sit. A Study of Using Text Mining on The n. al Co-movement of Concept Stock v Price i n Ch engchi U. 研究生:吳振和 中華民國一百年十月.

(2) 摘要 證券市場在台灣為相當熱門的投資標的,台灣屬於淺碟式市場,股市投資 者以散戶居多,且資訊來源大多為報紙、電視、網路…等媒體,因此外界的訊 息易於影響股價波動。近年來股票分類方式除了傳統的產業類別分類,衍生出 了一種新的分類方式-概念股。概念股是某種被看好之產品或產業甚至政策相 關個股的集合,概念下的股票通常具有相當大的話題性,因此會引發報章媒體 的報導,引發投資者的關注。基於以上原因,可推論概念相關的報導會對概念. 政 治 大 探勘技術加以分析,以聚集出人們有興趣概念所相關之個股。 立. 相關個股的漲跌有一定影響。因此本研究以消息面的資訊作為基礎,並以文字. ‧ 國. 學. 本研究以聯合知識庫 2011 年 1 月至 4 月共 86,579 篇新聞為資料來源,以 iPad2 概念為標的,透過文字探勘的技術找出各新聞內容的特徵,並透過關聯. ‧. 分析對新聞做分析,從中找出概念及個股之間的關聯規則,藉此找出和概念相. sit. y. Nat. 關之個股。接著本研究從台灣證券交易所網站取得 2011 年 2 月至 5 月所有交易. io. er. 日大盤之上漲、下跌個股數量,以其較大值與兩數和相除計算其股價共同移動 程度,並取得其累積報酬率與本研究所選出之概念股進行比較。. n. al. Ch. engchi. i Un. v. 在研究結果中,本研究方法所選出之概念股在門檻值為 0.2 時在 2 月至 5 月 股價共同移動程度分別為 79.3%、73.6%、70.2%、68.1%,皆高於 MoneyDJ 選出 之概念股及大盤同期間之股價共同移動程度。而以成對樣本 T 檢定在顯著水準 95%下,顯示本研究選出之概念股顯著有股價共同移動現象。因此也證實了藉由 文字探勘技術及關聯規則,能從雜亂無序的新聞中發掘出人們有興趣之概念所相 關的個股,以提供投資者做更深入分析。 關鍵字:概念股、文字探勘、關聯規則. I.

(3) ABSTRACT In Taiwan stock market, most of investors are individual, as the result, the external information will affect the stock price. Concept stock is an aggregation of many stocks on a relative basis such as industry or particular product. It is usually makes the topic to mass media for report, therefore the investor will pay close attention to it. There are many websites offering digital news so we can obtain easily these from the Internet and analyze them. This paper proposes an method to find. 政 治 大. stocks that relate to the concept from the digital news.. 立. In this paper, we collected the news from Udndata, using the text mining. ‧ 國. 學. technique to analyze these data and performing association analysis’s algorithm to. ‧. find out the association rule between stocks and concept. Then, we use statistical test. sit. y. Nat. to test the co-movement pattern between these Concept Stocks to the Taiwan Stock. io. al. er. Index. The result illustrate text mining technique is able to find the relation between. n. stocks and concept and proofs the Concept Stocks have co-movement pattern.. Ch. engchi. i Un. Keywords: text mining, concept stock, association rule. II. v.

(4) 目錄 第一章. 緒論...................................................... 1. 第一節. 研究背景與動機........................................ 1. 第二節. 研究目的.............................................. 3. 第二章. 文獻探討.................................................. 4. 第一節. 台灣股票市場相關研究.................................. 4. 1.1. 台灣股市現況.......................................... 4. 1.2. 淺碟形市場............................................ 4. 1.3. 投資人以散戶為主...................................... 5. 概念股相關研究....................................... 10 文字探勘............................................. 12. y. Nat. 第四節. ‧. 第三節. 台灣股市之效率市場研究................................ 8. sit. 2.2. 效率市場假說.......................................... 7. 學. 2.1. ‧ 國. 第二節. 政 治 大 效率市場假說之相關研究................................ 7 立. 4.2. 布林模式............................................. 14. 4.3. 向量模式............................................. 15. 4.4. 中文斷詞處理......................................... 17. n. 第五節. al. er. 文件表示法........................................... 13. io. 4.1. Ch. engchi. i Un. v. 關聯規則............................................. 19. 5.1. 關聯規則的種類....................................... 20. 5.2. 關聯規則的評估指標................................... 21. III.

(5) 第三章. 研究設計................................................. 22. 第一節. 研究架構與步驟....................................... 22. 1.1. 資料蒐集............................................. 23. 1.2. 內容萃取............................................. 23. 1.3. 斷詞處理............................................. 23. 1.4. 內容過濾及索引建置................................... 24. 1.5. 關聯分析............................................. 26. 1.6. 雜訊過濾............................................. 28 研究資料與統計檢定................................... 29. 2.1 2.2. 報酬率之檢定......................................... 35. 實驗結果................................................. 37. sit. y. Nat. 第四章. 累積報酬率比較....................................... 34. ‧. 2.4. 學. 2.3. 治 政 研究資料............................................. 29 大 立 股價共同移動程度檢定................................. 30 ‧ 國. 第二節. 第二節. 股價共同移動程度之比較............................... 41. er. 不同信心程度概念股................................... 37. io. 第一節. al. 第四節. 累積報酬率之比較..................................... 47. 第五節. 報酬率檢定........................................... 49. 第五章. n. 第三節. iv n C 股價共同移動程度之檢定 44 h e n g............................... chi U. 結論與建議............................................... 51. 第一節. 結論................................................. 51. 第二節. 建議及未來方向....................................... 53. 參考文獻........................................................... 54. IV.

(6) 圖目錄 圖 2-1 集中交易市場成交金額投資人類別趨勢 ........................ 6 圖 2-2 文件集向量 ............................................... 13 圖 2-3 布林模式 ................................................. 14 圖 2-4 文件於向量模式表示方式 ................................... 15 圖 3-1 研究架構圖 ............................................... 22 圖 3-2 文件所引示意圖 ........................................... 25 圖 3-3 關聯分析流程圖 ........................................... 27. 政 治 大 圖 4-2 股價累積報酬率比較圖 ..................................... 47 立 圖 4-1 股價共同移動程度比較圖 ................................... 42. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. V. i Un. v.

(7) 表目錄 表 2-1 集中交易市場成交金額投資人類別比例 ........................ 5 表 4-1 以 2011 年 1 月新聞進行 iPad2 概念股檢索結果 ................ 37 表 4-2 以 2011 年 2 月新聞進行 iPad2 概念股檢索結果 ................ 38 表 4-3 以 2011 年 3 月新聞進行 iPad2 概念股檢索結果 ................ 39 表 4-4 以 2011 年 4 月新聞進行 iPad2 概念股檢索結果 ................ 40 表 4-5 MoneyDJ 網站之 iPad2 概念股列表 ........................... 41. 政 治 大. 表 4-6 股價共同移動程度比較表 ................................... 42. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VI. i Un. v.

(8) 第一章 緒論 第一節 研究背景與動機 由於近年來民理財的意識的提升,且隨著銀行利率的調降,理財方式也因 此更加的多元化,民眾投資方式除了基本的存款利息外,還有股票、債券、基 金、期貨、選擇權及房地產等多元的選擇。根據台灣證券交易所的資料,截至 2011 年 3 月為止,集中市場累積開戶數已超過 1575 萬戶,由於股票對於投資. 政 治 大 此股票也成為相當普遍的理財工具。 立. 者相較於其他的投資標的物來說,變現容易,有較低的限制等…種種原因,因. ‧ 國. 學. 在證券市場中影響股市因素很多,這些因素使得投資者較不容易在股市中. ‧. 獲利(林春淋,2010)。像是大盤指數的漲跌有可能會影響到個股的漲跌,大盤. sit. y. Nat. 重挫時,常常會使得市場低迷連動到個股的漲跌;類股的指數也會影響個股的. er. io. 趨勢,當類股大漲時,通常類股中的各股也會隨之上漲;另外政治的因素及國. al. iv n C hengchi U 漲跌,甚至國外政府的策略也會影響股票的漲跌,例如歐盟及歐美若對於當地 n. 際的情勢也會影響到股市的價格,當政府宣布某些策略時,也會帶動到個股的. 進口做限制時有可能會影響到出口商的股價;公司的規模也會影像股票的漲跌 幅,若公司市值較大,會使股票的價格變動的幅度較低;而消息面也是影響股 票漲跌的重要因素之一,有時新聞一連幾天報導利多的消息會使的股價連續幾 天上漲,對公司不利的消息則使得股票一連下跌數天;影響股票漲跌的還有其 他種種的因素,像是技術面、基本面等,使得股票市場充斥著各種的不確定因 素。. 1.

(9) 鑒於種種影響股價的因素,可得知對於股市資訊掌握的程度在證券市場上 是相當重要的。而三大法人相較於一般投資者來說,會有專業的研究團隊對產 業做分析,了解公司營運狀態,公司也會不定期招開法人說明會主動說明公司 現況及產業近況,因此三大法人在資訊掌握則是一般投資者無法比擬的(林春淋, 2010)。而一般投資大眾因為時間、金融知識、財力等各方面的因素,不容易掌 握到太多較深入的消息,因此一般投資者的消息來源大多從電視、報紙、雜誌、 等媒體報導。另外台灣屬於股市結構大多以散戶為主,容易受到消息面影響, 甚至對這些消息做出不正確的解讀,而容易做出買高賣低決定,進而影響股價 波動。. 立. 政 治 大. 一般而言,投資最活耀、具題材的股票,最可能在短期內獲得利潤,所謂. ‧ 國. 學. 概念股就是在這樣的特性下,衍生出來的。概念股是具有共同特徵之股票的總. ‧. 稱,概念股的形成通常是在一段期間內具有很大話題性,且被期望能帶動產業. sit. y. Nat. 發展的股票集合,這些概念通常會被媒體大篇幅的報導,因此對於概念內的股. io. er. 票有很大的廣告效應,也容易受到投資者的重視。例如 iPad2 上市消息發布後, 立即引發了媒體的大量報導,券商及媒體也隨之整理出此概念相關的個股,進. al. n. iv n C 而引發投資人的重視。概念股和一般產業類股分類方式最大的差異是,概念下 hengchi U 股票可能會有橫跨產業類別的情形,如 iPad2 概念下的股票,就是有關製造 iPad 相關產品的廠商,可能會包含面板、機殼、代工組裝等相關股票。. 鑒於科技的進步及數位化的結果,各大網站及報社,都會提供網路文字新 聞,一般大眾也都能夠透過網路觀看新聞內容。近年來文字檢索、探勘…等文 字處理領域的發展相當成熟,也相當多學者提出對於文字處理相關的演算法, 如相似度分析、分群,分類…等。因此我們能夠透過文字探勘的技術對於這些 網路上的文字資訊加以分析,以從中挖掘出潛在、有用的資訊。. 2.

(10) 第二節 研究目的 綜合上述的背景與動機,本研究是以消息面的資訊做為凝聚概念的基礎, 以網站或報社等網路資源所提供網路文字新聞為資訊來源,並藉由文字探勘的 技術對其資料加以整理分析,以從中找出概念和新聞的相關性。. 本研究期望達到以下研究目的:. 1.. 探討文字探勘技術,並應用於新聞中,分析股票與概念間的關聯性,. 政 治 大. 藉此找出和概念相關之個股。. 立. ‧ 國. 學. 探討並驗證概念股間股價共同移動之現象及概念股與大盤間報酬率之. ‧. 差異。. io. sit. y. Nat. n. al. er. 2.. Ch. engchi. 3. i Un. v.

(11) 第二章 文獻探討 第一節 台灣股票市場相關研究 1.1. 台灣股市現況. 台灣的證券市場受影響的因素多,是較不穩健的市場,像是天災人禍,政 府政策、選舉…等因素都會導致台股隨之波動,各企業之內部消息發布所造成 的影響更是不容忽視。. 淺碟形市場. 立. 學. ‧ 國. 1.2. 政 治 大. 市場中的參與者大多是中小企業,因此股權有被財力雄厚之專業投資者掌. ‧. 握的可能,再加上台灣特有之漲、跌幅度的限制,常常會造成無法買賣的流動. sit. y. Nat. 性風險,進而導致一般投資人進出量雖然不大,卻也常常遇到無法買到股票或. io. er. 是造到套牢的情況(商業周刊,2006)。. al. n. iv n C 台灣就是明顯的淺碟型市場,因此政府政策等因素常常會使得台股的股價 hengchi U 非理性漲跌,一檔價值型股票其公司策略沒有太多的改變下,股價卻有一倍的 落差;而市值較小的投資型股票,漲跌的波動幅度甚至可高達 2 倍至 3 倍。因 而台灣投資人得多花心力在非經濟面研究,才能避免這種震盪的風險。. 淺碟型市場大多為新興股市,在新興股市中最頭痛的問題,莫過於人為炒 作的問題。這是因為市場參與者少,再加上台灣個股多為市值較小的中小型企 業,以人為操作所造成的影響機會,大為提高。而這些非基本面之變動而造成 股價隨著變化的行為,終究會回到反映出真實價格,導致股價暴跌等結果(商業 周刊,2006)。 4.

(12) 1.3. 投資人以散戶為主. 從表 2-1 及圖 2-1 中可以看出,台灣股票市場是一個以散戶為主的市場, 而一般的散戶對於市場資訊的取得相對緩慢且不容易,甚至不知從何獲得適當 的資訊,所以容易受到市場的不確定消息而使得人心惶惶,進而造成買高賣低 等不理性的投資行為發生,最終造成股價反應過度的現象;另外,因為專業的 投資機構相對於一般投資者取得市場上相關資訊皆較為正確且迅速,更有專業 人員的分析與判斷,因此在投資的決策上較不易出現不理性的投資行為。. 政 治 大. 台灣股市中散戶所佔的比例高達 70%以上,而一般散戶們容易受到非基本. 立. 面訊息所影響,導致台灣股市相當容易出現非經濟面各種因素的干擾而反映出. ‧ 國. 學. 相當不穩定的特性。. ‧. 表 2- 1 集中交易市場成交金額投資人類別比例. y. Nat. 集中交易市場成交金額投資人類別比例. n. al. 本國法人. 僑外法人. 2003. C 11.5 h. 2004. 11.6. 2005. er. io. 原始值. sit. 百分比(%). iv n U 77.8. 本國自然人. e n 9.4 gchi. 外國自然人 1.3. 10.9. 75.9. 1.6. 13.3. 15.5. 68.8. 2.4. 2006. 11. 16.2. 70.6. 2.2. 2007. 13. 17.6. 67.3. 2.1. 2008. 14. 22.1. 61.7. 2.3. 2009. 11.6. 16.3. 72. 0. [資料來源:行政院金管會]. 5.

(13) 立. 政 治 大. ‧ 國. [資料來源:行政院主計處]. 學. 圖 2- 1 集中交易市場成交金額投資人類別趨勢. ‧. sit. y. Nat. 人們的行為是否完全理性已經引發相當多的爭議,更有學者認為人們的行. io. er. 為實乃非理性且並非隨機發生(Shleifer, 2000)。從台灣市場為淺碟式市場及投資 者大多為散戶的特性,同時台灣投資人亦不如 Fama(1970)的效率市場假說中所. n. al. 言那樣的理性, 「羊群效應. iv n C (The Effect Flock) 」常常發生,表示台灣的 h e nofgSleep chi U. 投資人彼此之間互相影響的事實。. 由以上種種的現況可以解釋出台灣之股票市場中,消息面的資訊為什麼會 對股價的漲跌造成影響。. 6.

(14) 第二節 效率市場假說之相關研究 效率市場假說. 2.1. 效率市場最早是由 Samuelson(1965)所提出,他在研究中指出資本市場的效 率性是由證券價值反映所有資訊的速度所決定。而後引發學者們相繼對此論點 投入研究。Fama 於 1970 年所發表發表的一篇論文中,對效率性市場做了一個 比較清楚的定義,他認為資本市場主要可分為三種: 1.. 弱式效率市場:過去所有的歷史資料,都已充分反應在目前的證券價. 政 治 大. 格。因此,當市場具有弱式效率的特性時,技術性分析無效,即表示. 立. 已然無法獲得超額利潤。. 半強式效率性:目前證券的價格已充分反應所有已公開的資訊,因而. ‧ 國. 學. 2.. 在擁有半強式效率性市場的特性時,基本面的分析無效,即已經無法. ‧. 獲得超額報酬。. Nat. y. 強式效率性:目前證券的價格已充分反應所有市場上已公開及未公開. sit. 3.. n. al. er. io. 的資訊。在擁有強式效率市場的特性時,即使擁有未公開之內線消息 亦無法獲得超額利潤。. Ch. engchi. i Un. v. 同時他認為效率資本市場的存在要滿足下列四點假設: 1.. 所有的資訊取得不需負擔額外的成本,且所有的市場投資人都能在同 一時間輕易的獲得並且都有相同的預期。. 2.. 沒有交易成本、所得稅率等限制的存在,市場具有無摩擦性的特質, 股票將隨著資訊的發布而反映到適當的價格。. 3.. 市場價格不會被任何單一的個人或機構影響,而投資人的角色即為價 格接受者。. 4.. 所有投資人都是理性的並會追求最大的利潤(Fama, 1970) 。 7.

(15) 2.2. 台灣股市之效率市場研究 台灣是否符合率市場假說,一直以來都有許多的學者加入探討、研究。曾. 有學者利用序列相關檢定法和連檢定法等,可以得到台灣股票市場市場呈現弱 式的效率市場(張金桂,1981)。另外有學者以一段期間之所有普通股股票以及 這些股票所組成的投資組合,來推論台灣股票市場之效率性,得到台灣符合弱 式效率市場的假設(鄭雅仁,1994);如果以一段時間區間之日報酬資料和週報 酬資料當樣本,學者發現若以日報酬來檢定,台灣店頭市場不是弱式效率市場, 但若以週報酬來檢定的話,台灣店頭市場符合弱式效率市場(陳惠純,1998)。. 政 治 大. 如果把證交稅、手續費等交易成本加入研究的範疇時,有研究指出這些交. 立. 易成本的變動宣告對股價的影響,將會支持台灣股市是屬於半強式效率市場之. ‧ 國. 學. 假說(倪晶瑛,1990);而如果利用股票之本益比利用市場模式理論,並使用 T 檢定及變異數分析來做檢定,可以發現證券價格能夠充分反映出本益比的資訊,. ‧. 學者便藉此證實台灣的股票市場為半強式效率市場(陳尚群,1989)。. sit. y. Nat. er. io. 另外對於訊息面影響臺灣股市的研究方面,有學者以報紙資訊的宣告來檢. al. iv n C hengchi U (王慧雯,1998);有學者以上市公司進行重大投資宣告時,是否具有資訊效果, n. 定半強式效率市場是否成立,檢定出台灣的股票市場確實符合半強式效率市場. 以實驗證實宣告日當天即產生顯著的正向異常報酬,顯示重大投資宣告具有正 面的資訊效果。而其影響在兩天內就反應完畢,進而支持台灣的股票市場具有 半強式效率市場之特性(林章德,2000);另外對於重大事件發生時,是否會對 股價造成影響,也有相當多學者加入討論,有學者就以選取台灣一段時間內之 重大災難事件為樣本,來探討產險業在重大災難事件發生後股價異常變動的情 況,顯示出台灣的產險業類股為半強式效率市場(葉淑玲,2003);. 8.

(16) 從以上各篇研究結果,我們雖然無法確切指出臺灣究竟為何種效率市場, 不過卻可以明確指出,台灣目前仍非強式效率市場,所以內線消息依然相當的 效力;許多學者研究證實台灣符合弱式效率市場之假說,因此當新的消息產生 後,仍然會對股市產生影響(吳真蕙,2000;李春淋,2010)。綜合以上學者們 的研究可以得出一個結論:台灣介於弱式效率市場以及半強式效率市場之間, 並且對於台灣股票市場而言,訊息面有著相當大的影響。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 9. i Un. v.

(17) 第三節 概念股相關研究 本研究主要係研究透過文字探勘技術發掘概念股之可行性,概念股亦為本 研究之主軸,因此在本節中,本研究整理概念股之相關文獻,並對概念股做出 文字定義。. 林澄源(2008)在概念股宣告對股價異常報酬之研究中,主要研究概念股宣 告後,相關概念股股價的波動,在研究中作者以事件研究法探討概念股宣告的 效果,且比較不同產業類別間概念股名詞宣告後是否會對股價產生不同的異常. 政 治 大. 報酬。研究結果發現,在某概念股名詞出現後,對於股價會有正面的顯著反應,. 立. 且會有異常報酬的現象。而在此研究中,作者對於概念股的定義為"投資具題材. ‧ 國. 學. 性的股票較能在短期獲利,概念股是依產品或標的物畫圈圈,橫跨產業類別,. ‧. 和產品的上下游相關的個股" 。. y. Nat. er. io. sit. 張獻文(2007)在概念股之共同移動研究-以任天堂遊戲機 Wii 概念股為例 的研究中,主要以概念股的交易為主軸,探討遊戲機概念股是否有共同移動之. n. al. Ch. i Un. v. 現象。作者在此論文對於遊戲機概念股上,是以生產遊戲機零組件及遊戲機組. engchi. 裝之國內上市櫃公司做研究。其研究結果證實,遊戲機概念股有共同移動之之 現象,且共同移動現象的改變與股價有相當程度的關係。作者在文中對概念股 的定義為"所謂的概念股,是區分個股群組的概略性分法。通常用來指有共同特 質的公司,如相互競爭的同一產業公司、有合作關係的上下游公司、同一集團 公司等都可以被歸納為同一概念股,且概念股在台灣有其漲齊跌的特性。". 10.

(18) 綜合以上研究結果及研究中對概念股的定義,我們得知,概念股在宣告後 會對於股價會有正面的顯著反應,且會有異常報酬的現象,且概念股會有共同 移動的現象。整合以上研究結果及其對概念股的定義,本研究對概念股的定義 如下,概念股是有共同主題的一群個股,且此主題是具話題性,投資者被看好 會帶動概念相關個股價有正面反應,並具有齊漲齊跌之現象。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 11. i Un. v.

(19) 第四節 文字探勘 隨著科技及網路的進步,數位世界裡充斥著各式各樣的數位資料,一般人 電腦中會存在著大量的檔案,除了應用程式外,大多是記載各式資料的文件檔, 企業中也存在著各種不同的文件資料,如新聞、會議記錄、電子郵件…等,網 際網路上也存在著大量的數位資料,且大多以文字的方式儲存網頁資料、電子 書、資料庫、報告、數位新聞、研究文獻、產品資訊...等。這些文字資料中常 存在著大量的珍貴資訊,為了分析這些資訊並從中萃取出資料有用的資訊,資 料探勘的相關技術常被用於文字的處理及分析,這種資料探勘技術用來分析文. 政 治 大. 字資訊就稱為文字探勘(丁一賢、陳牧言,2005),文字探勘可以說是資料探勘. 立. (Data Mining)的延伸(Fayyad & Simoudis, 1996)。. ‧ 國. 學 ‧. 根據 Sullivan 定義文字探勘為一種編輯、組織及分析大量文件的方法和過 程,為了可提供特定使用者特定的資訊,以及發現特定資訊的特徵之間的關聯. y. Nat. er. io. sit. (Sullivan, 2001)。文字探勘的技術還包含了不同領域的技術,如資料探勘、資訊 檢索、人工智慧、機器學習、統計…等技術,每個技術都是一個專門的領域,. n. al. Ch. i Un. v. 且都有成熟的發展(黃孝文,2010)。而文字探勘則是利用這些技術從非結構或. engchi. 半結構化的文字內容中萃取出未知、隱含的知識。. 12.

(20) 4.1. 文件表示法. 在資訊檢索系統中,文件通常會將文件以最小單位"詞"的集合所組成,因 此文件會被做斷字斷詞的處理來得到詞的集合,文件集經過訓練後會得到字典 檔(所有文件集中文字的集合)。而文件通常由向量 d={w1 , w2 ,.., w𝑛 }表示,其意 義是旨被視為特徵的字詞出現在每篇文件的現象,此種表示法稱為 bag-of-word 或是向量空間模型(VSM)。其中w𝑖 表示字典檔中的字詞在文件中的權重值,其 向量的維度則為字典檔中字詞的總數 。 文件集可由字詞文件矩陣表示,其中w𝑖𝑗 表示字典中第 i 個字詞在第 j 篇文 件的權重,如圖 2-2 所示:. 立. 政 治 大. ‧. ‧ 國. 學. n. 圖 2- 2 文件集向量. Ch. er. io. sit. y. Nat. al. i Un. v. [資料來源: Salton and McGill,1983)]. engchi. 13.

(21) 4.2. 布林模式. 布林模式是由 Heap(1978)所提出,是資訊擷取的模式中最簡單的方式,主 要是以集合理論(Set Theory)和布林代數(Boolean Algebra)為基礎,布林模式是很 直覺的概念,通常能夠透過一些關鍵詞與邏輯運算元(Logical operators)所組成 的交集、聯集等布林語句,來表示使用者想檢索的資訊需求。在此模式中只關 心檢索文字是不是存在於同一份文件中,索引字詞的權重以 0 和 1 來表示,若 其權重值為 1 則表示此字詞存在於文件中,反之則表示此字詞不存在於文件中。 因此一個布林表示式的查詢能夠以分離標準形式(DNF)的方式來呈現(吳恩典,. 政 治 大. 2007)。以圖 2-3 為例,一查詢 q= k 𝑎 ∩ ( k 𝑏 ∪ ¬ k 𝑐 ),其 DNF 為q 𝑑𝑛𝑓 =(1,1,1) ∩. 立. (1,1,0) ∩ (1,0,0),每一個元素都是與(k 𝑎 , k 𝑏 , k 𝑐 )有關的二元權重向量,如果有一. ‧ 國. 學. 篇文件d𝑗 其 DNF 為 df=(0,1,0),表示這篇文件中含有字詞k 𝑏 ,但是對於 q= k 𝑎 ∩ ( k 𝑏 ∪ ¬ k 𝑐 )的查詢式來說,d𝑗 會被視為不相關的文件。. ‧. n. al. er. io. sit. y. Nat. 𝑘𝑎. Ch. engchi. i Un. v. 圖 2- 3 布林模式 [資料來源:吳恩典,2007] 布林模式的缺點是使用不是為 0 就是為 1 的二分法來表示文件,只關心字 詞是不是有出現於文件中,因此只能區分文件是否相關,字詞在文件中出現的 頻率並不會影響文件與查詢的相關程度,因此結果較不準確。. 14.

(22) 向量模式. 4.3. 立. 政 治 大. 圖 2- 4 文件於向量模式表示方式. ‧ 國. 學. [資料來源:Salton,1975]. 向量模式(Salton and Lesk, 1968)主要是為了彌補布林模式中二元權重的不. ‧. 足而發展出的,能做到布林模式所無法做到的部分比對。向量模式中索引的字. sit. y. Nat. 詞並不是以 0 和 1 的二元的數值表示,而是以字詞在文件中權重的方式表示,. n. al. er. io. 且此權重能被用來計算使用者查詢系統每篇文件的相似度,計算後以相似度對. i Un. v. 文件做排序,則表示文章和使用者查詢的相關程度,就算文件只有部分符合使. Ch. engchi. 用者查詢,還是會有相似度的值,因此和布林模式相較之下所能擷取的文件集 會有更大的彈性(吳恩典,2007)。 一篇文件可以透過文件向量方式表示,d𝑗 =(𝑤1𝑗 , 𝑤3𝑗 , 𝑤3𝑗 ,…, 𝑤𝑡𝑗 ),其中𝑤𝑖𝑗 代表字詞𝑘𝑖 於文件d𝑗 中的權重,而查詢可以表示為𝑞=(𝑤1𝑞 , 𝑤2𝑞 , 𝑤3𝑞 ,…, 𝑤𝑡𝑞 ),同 樣,𝑤𝑖 為字詞𝑘𝑖 於查詢 q 中的權重值,t 則表示系統中索引字詞的總數量。因此 每一篇文件d𝑗 及使用者查詢 q 皆會以 t 維向量表示,向量模式則能由計算此兩 向量所構成的 Cosine 夾角而得到使用者查詢與文件之間的相似度,計算公式如 下: Cos(q, d𝑗 )=. d𝑗 ∗𝑞. |d𝑗 |∗|𝑞|. ...................................................... (公式 1) 15.

(23) 其中|d𝑗 |和|q 𝑗 |為文件向量及查詢向量的長度,|d𝑗 |在文件空間中提供了正規 化的作用。詞頻為早期文字檢索中用來代表文件的權重,若一字詞於文件中出 現的次數很高,則表示其字詞對於文件的重要程度越高,但齊夫定律(Zipf, 1949) 表示通常文件中出現頻率最高的幾個字詞都是較沒有鑑別力的通用字,如 the,a,of,this…等字詞。因此通常w𝑖𝑗 以及w𝑖𝑞 的值會使用 tf-idf(Term Frequency and Inverse Document Frequency)來代表,其中 tf 視為單一文件內部的分布特性,可 以用來描述一篇文件對定義之索引項目的包含程度,也就是字詞在文件中出現 的頻率。 tf(i, j) = ∑𝑡. w𝑖,𝑗. 政 治 大 上式 tf(i,j)是指字詞 j 在第 i 篇文章所出現的頻率(詞頻);而 IDF 則是指全 立 𝑘=1 w𝑖𝑘. .............................................. (公式 2). ‧ 國. 學. 域資料的分布特性,是用來測量在所有文件中,不同索引項目的重要程度,此 權重值是字詞鑑別性參考的依據。. ‧. N. idf = log ( n ) ................................................ (公式 3) 𝑗. y. Nat. io. sit. 其中 N 為資料庫中的文件總數,n𝑗 則為包含索引項目w𝑗 的文件數目,由上. n. al. er. 式可以看出當一字詞所出現的文件數量越多,idf 的值會越小,表示此索引字詞. Ch. i Un. v. 的鑑別性很低;反之若 idf 數值越大,表示此索引字詞只出現在少數文件中,. engchi. 因此鑑別性較高。而在向量空間模型式中常見的權重計算法則如下: 𝑤𝑖𝑗 = tf(i, j) x idf(j) ........................................ (公式 4) 如有 100 篇文章,其中如果字詞『是』出現在所有的文章中,則表示字詞 『是』在文件集中是沒有鑑別力的通用字,其 IDF 則為 0,就算字詞『是』在 某文件中出現次數很高,但經 tf*idf 計算後則結果為 0;反之如果字詞『戰爭』 只出現在 1 份文件中,其 idf 為 log(100),若詞『戰爭』在文件此中出現次出很 高,其 tf-idf 的權重值也會很大,因此可以判斷此文件與『戰爭』有很高的相 關性。. 16.

(24) 中文斷詞處理. 4.4. 英文的每個單字皆具有一個明確的含意,而且在文章中單字之間皆存在著 空白字元,因此英文文件只需要透過空格符號分隔就能將每一個單字斷開。而 中文的文件是由字與標點符號以非結構化的方式所組成,單一的字元未必能成 為有意義的單位,字詞與字詞間沒有明顯的邊界(喻欣凱,2008) ,這是和英文 最大的不同。因此我們在處理中文文件前,必頇對文章採取斷詞的動作,才能 使字能以有意義的詞彙方式呈現,如「滑鼠」一詞只有在兩個字同時存在時才 具有意義。. 政 治 大 研究顯示,斷詞的方式大致分成詞庫式斷詞、統計式斷詞及混合式斷詞三 立. ‧ 國. ‧. 1.. 學. 種,其差異如下:. 詞庫式斷詞法(Chen, 1992):詞庫式斷詞法的演算法較直覺且較容易實. sit. y. Nat. 作,是目前最普遍的斷詞方式。由於詞庫會影響斷詞的品質,因此若. n. al. er. io. 詞庫越完整,比對及斷詞的效果就會越好,但是詞庫無法隨著未知詞. i Un. v. 的成長而即時更新,所此方法必頇時常維護詞庫的內容。. 2.. Ch. engchi. 統計式斷詞法(Sproat, 1990):統計式斷詞法是參考大型語料庫上的統 計資訊,是透過統計鄰近字元同時出現頻率為斷詞的依據。好處是不 需要知道詞彙本身的意義,但是在斷詞的過程中不太容易發現不合適 的詞彙,而且當文件數量不夠龐大時,斷詞結果的效益則不大。. 3.. 混合式斷詞法(Nie, 1996):混合式斷詞法主要是先透過詞庫斷出不同 組合的詞彙,再利用詞彙的統計資訊來找出最佳的組合。這種方法是 整合以上兩種斷詞之方法,擷取兩斷詞法優點的斷詞方法。. 17.

(25) 目前 Yahoo!的斷章取義及中央研究院 CKIP 中文詞知識庫小組所發展的中 文斷詞系統已有相當發展,除了基本的斷詞功能,此系統也對於未知詞做了人 名、譯名、複合詞等擷取動作,並對各個詞彙賦予詞性標籤,這些皆簡化了文 字探勘所需的前處理階段,尤其當我們使用新聞做為研究的對象時,新聞所出 現的未知詞也隨著時間不斷成長,因此使用這些現成的服務能簡化研究時所需 的中文斷詞作業,使我們能進一步對研究做出分析。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 18. i Un. v.

(26) 第五節 關聯規則 關聯規則最早是由 Agrawal(1993)等學者所提出,主要是用在大量的資料中 找出項目之間共同出現的關係。舉例來說,消費者購買衛生紙後,通常有 75% 的人會同時買垃圾袋,此時『買衛生紙=>買垃圾袋』就是一個關聯規則。而關 聯規則的探勘,就是在龐大的資料中,把一些資料項目的相關性找出來的方法。 以交易資料庫為例,每天都會大量的交易發生,經年累月下會累積龐大的資訊, 因為資訊過多所以無法由人員進行分析來找出商品之間的關聯性,但是這些交 易紀錄事實上隱含了很多有用的資訊(如購買者的習慣) ,如果能夠運用適合的. 政 治 大. 方法將這些隱含的重要資訊找出來,就可能發現商機,進而創造利潤,關聯規. 立. 則中最經典的例子為啤酒與尿布規則(Berry and Linoff, 1997);探勘關聯規則的. ‧ 國. 學. 演算法也是在上述的需求之下所產生出來的探勘方法(鐘明璇,2002)。. ‧. 在探勘關聯規則的領域中,主要方法可以分為兩大類:(1)Apriori-like 的方. y. Nat. er. io. sit. 法產生 Candidate Set,並找出符合最小支持度的大項目集合(Large Itemsets),再 依據大項目期和產生關聯規則;(2)使用 Non Apriori-like 的方法找出大項目集合. n. al. (鐘明璇,2002)。. Ch. engchi. i Un. v. Apriori-like 的方法是以 Apriori 演算法為基礎所發展的相關方法,Apriori 演算法也是關聯規則探勘技術中,最早被提出且運作穩健的演算法。Apriori-like 的方法的特點是第一次的 Candidate Set(C1 )是直接掃過一次資料庫而得到,而第 C𝑘 (k>1)次產生方式都包含了兩個主要步驟:首先合併產生 Candidate Set,另一 則是將這些項目集合中,含有不是前一次作業的大項目集合者去除,再對所留 下來的 Candidate Set,計算支持度,去除不滿足最小支持度的項目集合後則得 到最後的大項目集合(鐘明璇,2002)。. 19.

(27) 關聯規則的種類. 5.1. 關聯規則大致上可以分成以下三類(Han and Kamber, 2006) (鐘明璇,2002,頁 22):. 1.. 以屬性值的型態為基礎: 如果所關注的只是項目是否出現,為 Boolean Association Rule,例如『牛 奶=>麵包(Support=2%,Confidence=60%)』就是這類關聯規則。如果對 於項目的單位數也有所關注,則為 Association Rule with Repeated Items, 例如『牛奶 2 單位=>麵包 3 單位(support=2%,confidence=60%)』就是. 政 治 大 Quantitative Association Rule。這種關聯規則的可能性太多,所以必頇 立 這類關聯規則。若所要描述的規則其項目是一個數值,則為. ‧ 國. 學. 把數量值切割成不同的區間(可以事先切好,或根據資料分布情況來 切割,或根據語意、模糊函數、資訊含量等不同方式切割) ,才有辦法. ‧. 產生關聯規則。. sit. y. Nat. n. al. er. 以規則中包涵的維度為基礎:. io. 2.. i Un. v. 若在關聯規則中的項目或屬性只參照單一維度時,稱為 Single. Ch. engchi. Dimensional Association Rule,例如將『牛奶=>麵包』的關聯規則寫成 『購買(X, "牛奶")=>購買(X, "麵包")』 ,則其注重的是『購買』 ,這個維 度。如果關聯規則中的項目或是屬性參照兩個以上的維度時,則稱為 Multidimensional Association Rule,例如年齡(X, "40…45")^收入(X, "7 萬…8 萬")=>購買(X,海外基金)這個關聯規則中的例子,便包含了年齡、 收入及購買三個維度。. 20.

(28) 3.. 以規則中所涵蓋的抽象層級為基礎: 如果在關聯規則中的項目或屬性可以屬於不同的概念層級,如『年齡 (X, "中年")=>購買(X, "瑞穗鮮奶"』("中年"對於年齡而言屬於較高及概 念),但瑞穗鮮奶對於購買項目而言屬於較低層級概念),則稱這類規 則為 Multilevel Association Rule。反之沒有參照到不同層級的項目或屬 性規則,則稱為 Single-level Association Rule。. 5.2. 關聯規則的評估指標. 政 治 大 度是用來界定一個規則必頇涵蓋得最少資料數目;而小信賴度則代表這個規則 立 關聯規則的評估指標,大多是以最小支持度和最小信賴度為主。最小支持. ‧ 國. 學. 的預測強度,關聯規則的支持度和最小信賴度可用來評估該規則是否成立,當 探勘出的規則滿足使用者訂定的最小支持度和信賴度的門檻時,這個規則才算. ‧. 成立(王美淳,2003)。其公式如下:. sit. y. Nat. er. io. Support(A => B) = P(A ∪ B)··································(公式 5). al. n. v C hsupport(A=>B) U n i i n g c h························· Confidence(A => B) = e (公式 6) support(A) 除此之外尚有許多學者提出其他具有不同特性和用途的評估指標,但大多 仍以 Support 和 Confidence 為基礎衍生而來(鍾明璇,2002) 。. 21.

(29) 第三章 研究設計 概念股是在一段期間內具有題材、話題性且具有共同元素及關聯股票的集 合,因為題材豐富,這些概念通常會被媒體以較多的篇幅的報導,而這些報導 的內容中通常都會提到概念及相關個股名稱。因此本研究主要是以消息面的資 訊為主,透過分析新聞文件中概念及股票的關聯,找出相關的個股,並探討其 股價共同移動之現象。 第一節 研究架構與步驟. 政 治 大. 本研究以新聞文件為分析對象,藉由新聞內容中的關聯規則,分析一段期. 立. 間內某個概念或話題下真正與其相關的個股,本研究研究架構如圖 3-1:. ‧. ‧ 國. 學 新聞文件集. n. 內容萃取. CKIP. Ch. engchi. er. io. sit. y. Nat. al. i Un. v. 斷詞處理. 資 料 前 處 理 模 組. 詞庫. 關聯分析. 過濾 過濾雜訊 索引. 圖 3- 1 研究架構圖 [資料來源:本研究整理] 22. 資 料 分 析 模 組.

(30) 圖 3-1 為本研究之研究架構圖,各步驟之過程詳述如下。 資料蒐集. 1.1. 數位化的趨勢,使得各大入口網站及報社均提供網路新聞,且對於新聞有 完善的分類機制,因此我們能夠透過爬蟲由指定的新聞網站將研究所需新聞內 容擷取下來,本研究開發一新聞下載模組,於聯合知識庫下載特定時間之新聞 內容,供後續分析使用。. 內容萃取. 1.2. 治 政 由於新聞下載模組所擷取之新聞檔皆為 html 格式,因此必頇分析其標籤內 大 立 容及規則,已從中萃取出我們所真正需要的新聞內文,依照聯合知識庫新聞的 ‧ 國. 學. 格式,透過解析其中內文標籤的內容即可從中萃取出新聞內文,供後續步驟使. y. sit. io. n. al. er. 斷詞處理. Nat. 1.3. ‧. 用。. i Un. v. 目前提供中文斷詞之免費服務有 Yahoo 奇摩的中文斷詞服務以及中央研究. Ch. engchi. 院中文詞知識庫小組 CKIP 的中文斷詞服務。Yahoo 及中研院 CKIP 的斷詞服務 皆能提供很好的斷詞結果,但鑒於 Yahoo 斷詞服務每組 API key 每天只能發出 1000 次要求的限制,因此在中文斷詞模組的部分本研究選擇使用中央研究院的 CKIP 斷詞服務。 此步驟主要始將前一步驟所萃取出的新聞內文以 HTTP POST 方式傳送給 CKIP Web Service,CKIP 斷詞服務會將斷詞的結果以 XML 格式傳回(其中包含 字詞、詞性、句子等內容)。. 23.

(31) 1.4. 內容過濾及索引建置 在經過段詞處理後,新聞文件會被以字詞的向量表示,由於新聞文件甚多,. 在訓練後字典檔的維度會相當的高,但其中大部分都是對文件沒有鑑別力的常 用字詞,因此本研究在索引建置前會將停用字詞作過濾,以減少後續處理及分 析的負載。過濾方式則是利用應停用字詞表並將斷詞後的每個字詞作與停用字 詞表作對應,以從文件內容中過濾掉較無意義的常用字詞。. 文件內容經過濾後,本研究會將過濾後的的字詞以倒轉檔索引法建置新聞. 政 治 大 其主要目的是提供快速的檢索以改善使用者建所資料的速度。其主要架構包含 立. 文件索引。倒轉檔索引方法是一種基本且廣泛應用於資訊檢索系統的索引方式,. ‧ 國. 學. 文件表(Documents file)、詞典表(Dictionary)以及倒轉字串表(Inversion list or posting files)三個資料表(Kowalski, 2007) 。文件表主要是記錄每筆文件的關鍵. ‧. 字詞;詞典表是紀錄經排序後的關鍵字詞,並紀錄其出現的文件總數(DF)及字. sit. y. Nat. 詞編號(Term ID),而倒轉字串表則是記錄所有文件的關鍵字詞並關聯至包含其. n. al. er. io. 字詞的文件編號。當使用者以關鍵字詞檢索文件時會由詞典檔找出關鍵字所對. i Un. v. 應的字詞編號(Term ID),接著會透過字詞編號(Term ID)關聯至倒轉字串表找出 字詞所出現的所有文件。. Ch. engchi. 24.

(32) 本研究對於新聞文件之索引建置步驟如下,其示意圖如圖 3-2 所示:. 1.. 每篇新聞文件給予一個唯一編號(Doc ID)。. 2.. 對於斷詞後文件的每個字詞做拜訪,若遇到停用字詞則將此字詞移 除。. 3.. 若字詞在索引過的文件中未曾出現過,則在詞庫中加入此字詞,並將 字詞關聯至文件,並將 DF 設為 1。 若字詞於已存在於詞庫之中,則直接將字詞語文件做關聯並將此字詞 的 DF 加 1。. 立. 政 治 大. 學 ‧. ‧ 國 io. sit. y. Nat. n. al. er. 4.. Ch. engchi. i Un. 圖 3- 2 文件所引示意圖 [資料來源:本研究整理]. 25. v.

(33) 1.5. 關聯分析 經前幾項步驟處理完成後,所有文件皆會以向量的模式儲存於資料庫中,. 另外,由於在新聞中,若內容有提到個股相關消息,都會以公司簡稱對個股作 報導,例如,宏達國際電子股份有限公司在新聞報導中不會報導公司全名,而 是以宏達電做代稱。本研究由臺灣證券交易所取得臺灣所有上市上櫃的公司代 稱,並將此資料建置於資料庫。. 因此我們能透過倒轉檔索引及布林檢索模式做檢索,使用欲查詢之概念或. 政 治 大 們對於這些文章再作分析,找出文章所提及之個股名稱,並透過布林模式以概 立. 話題作為查詢字串,對文件資料庫做檢索,找出與此概念相關之文章。接著我. ‧ 國. 學. 念名稱及個股名稱為查詢字串,一一對所有和概念相關之個股作查詢,以得到 個股於此概念中所共同出現之新聞數量。接著我們再以這些與查詢之概念相關. ‧. 之個股名稱對詞庫做查詢,便可得到文件庫包含此個股名稱的新聞總數。經此. sit. y. Nat. 階段處理後則會得到在查詢概念所出現個股的個股新聞篇數、與概念共同出現. n. al. er. io. 新聞篇數資料,接著由 Agrawal 提出之 Apriori 關聯分析演算法對資料作分析,. i Un. v. 因此會得到個股與此概念的支持度(Support)及信賴度(Confidence)。流程如圖 3-3 所示:. Ch. engchi. 26.

(34) 檢索概念相關 文件向. 新聞. 量. 查詢文章所包 資料庫. 含個股. 詞庫. 政 治 大. 檢索個股及概 立. ‧ 國. 聞. ‧ y. 文件數. sit. io. a取得個股出現 iv l C n 文件數 hengchi U. n. N. 取得個股出現. er. Nat. 是否還. 學. Y. 念共同出現新. 關聯分析. 輸出結果. 圖 3- 3 關聯分析流程圖 [資料來源:本研究整理]. 27. 個股名 稱.

(35) 1.6. 雜訊過濾 在進行關聯分析後,會得到所有在使用者所查詢概念新聞中所出現所有個. 股之支持度及信心度結果,但財經新聞中一篇報導可能會包含多個議題(如綜合 報導產業的趨勢),有些和概念不相關的新聞也會被包含於其中。因此必頇要將 這些不相關之個股做過濾,過濾方法可由關聯分析的信賴度作過濾,因為不相 關的個股可能會出現在很多的新聞報導,但與查詢概念共同出現的新聞相對少 量,同時也依個股新聞數量與總新聞數比例將比例過小的個股過濾,避免新聞 數量過少的個股影響分析結果。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 28. i Un. v.

(36) 第二節 研究資料與統計檢定. 為了探討本研究方法所發掘之概念股之結果,本研究將以 iPad2 概念進行 相關概念股之檢索,首先分別以不同時間長度之新聞資料分別進行檢索,由於 包含 iPad2 的新聞從 2011 年 1 月開始有較多的數量,因此本研究將分別使用 2011 年 1 月、2 月、3 月及 4 月的新聞進行 iPad2 概念股之發掘,透過本研究所 提出之方法,檢索出 iPad2 相關之個股,將依關聯分析之信心程度結果分別使 用不同的信心程度作為門檻值,比較其概念股在不同信心程度下之檢索時間後 1 個月內之股價共同移動之現象差異,並比較所選出之概念股在不同信心程度. 政 治 大. 下之檢索時間後 1 個月內的累積報酬率差異,最後將此結果與大盤及 Money DJ. 立. 網站所列出之 iPad2 概念股進行比較,以探討本研究方法所選出之概念股間股. ‧ 國. 學. 價共同移動之現象,並比較其現象與 Money DJ 網站所列出之概念股及大盤之. ‧. io. y. sit. 研究資料. Nat. 2.1. er. 差異。. 本研究所主要是對新聞文件做分析,所使用之新聞文件為聯合知識庫之新. al. n. iv n C 聞文件,主要使用 2011 年 1 月至h2011 年 5 月新聞文件共 86579 篇新聞。 engchi U. 而在股市資料部分所使用的資料為台灣經濟新報資料庫(TEJ)資料庫 2011 年 2 月 8 日至 5 月 31 日之開盤日股價及其報酬率一共 77 筆資料,其中 2 月份 有 14 筆、3 月份 22 筆、4 月份 19 筆、5 月份 21 筆資料。. 為了計算股價共同移動移動程度,必頇取得大盤指數在研究選定期間內上 漲個股數量及下跌數量,而本研究所使用之上漲下跌個股數資料為台灣證券交 易所網站所提供之盤後資訊資料,資料期間為 2011 年 2 月 8 日至 5 月 31 日共 77 筆資料。 29.

(37) 2.2. 股價共同移動程度檢定 另外,本研究所定義之概念股會有齊漲齊跌之特性,因此本文將以本研究. 所提出之方法檢索 iPad2 概念相關個股並以齊漲齊跌之特性對於檢索結果進行 統計檢定。. 首先在概念股檢索及檢定之個股選擇部分分別為 2011 年 1 月、2 月、3 月 及 4 月之新聞所發掘之概念股,分別以檢索結果之個股從台灣經濟新報資料庫 (TEJ)取得其隔月之股價,也就是 2 月、3 月、4 月、5 月進行概念股股價共同 移動程度之檢定。. 立. 政 治 大. ‧ 國. 學. 在股價共同移動程度計算部分,本研究首先從台灣證券交易所網站(TWSE) 分別取欲檢定之概念股所對應大盤在同一時間區間每一開盤日之上漲個股數及. ‧. 下跌個股數,以計算其股價共同移動程度值S𝑖 ,計算方式如下。. sit. y. Nat. n. al. er. io. 𝑅𝑖 :第 i 天大盤上漲個股數量 𝐷𝑖 :第 i 天大盤下跌個股數量. Ch. engchi. 𝑆𝑖 :第 i 天大盤股價共同移動程度值 𝑆𝑖 =Max(𝑅𝑖 , 𝐷𝑖 )/ (𝐷𝑖 +𝑅𝑖 ). 30. i Un. v.

(38) 另外,將本研究方法所挑出之概念股分別從台灣經濟新報資料庫(TEJ)中分 別取得同一期間其中開盤日之個股股價,計算其每日報酬率,並以其報酬率漲 跌分別對應至漲、跌、帄盤三種屬性,接著計算所挑出之概念股每日上漲及下 跌之個股數,計算其股價共同移動之程度值CS𝑖 。. 𝐶𝑅𝑖 :第 i 天上漲個股數量 𝐶𝐷𝑖 :第 i 天下跌個股數量 𝐶𝑆𝑖 :第 i 天股價共同移動程度值 𝐶𝑆𝑖 =Max(𝐶𝑅𝑖 , 𝐶𝐷𝑖 )/ (𝐶𝐷𝑖 + 𝐶𝑅𝑖 )). 立. 政 治 大. 此股價共同移動之程度值所代表之意涵為一群股票單日股價漲跌之不帄均. ‧ 國. 學. 程度,其股價共同移動之程度值之數值會藉於 0.5 至 1,若一群股票在某日的. ‧. 上漲數量R 𝑖 和下跌數量𝐷𝑖 相同則𝑅𝑖 = 𝐷𝑖,𝑆𝑖 =Max(𝑅𝑖 , 𝐷𝑖 )/ (𝐷𝑖 +𝑅𝑖 ) = 1/2,而若. y. Nat. 一群股票中某日所有個股皆為上漲或下跌則 Max(𝑅𝑖 , 𝐷𝑖 ) = ( 𝐷𝑖 + 𝑅𝑖 ),. er. io. sit. 𝑆𝑖 =Max(𝑅𝑖 , 𝐷𝑖 )/ (𝐷𝑖 +𝑅𝑖 ) = 1,因此若此數值越靠近 1 表示這群股票的股價變動 方向有股價所移動的方向越一致,反之代表這群股票的股價變動方向沒有共同. n. al. 移動之現象。. Ch. engchi. 31. i Un. v.

(39) 在檢定方法的選擇上,本研究所採用之檢定方法為 t 檢定,假設大盤指數 沒有股價共同移動之現象,並使用以下兩種方式進行檢定:. 兩成對母體帄均數差異之 t 檢定,n=77,𝛼 = 0.05 大盤在第 i 天股價共同移動程度: 𝑌1 , 𝑌2 , 𝑌3 … 𝑌𝑖 計算大盤每日股價共同移動程度帄均值μ0 ,標準差s0 概念股在第 i 天股價共同移動程度:𝑋1 , 𝑋2 , 𝑋3 … 𝑋𝑖 計算選定之概念股每日股價共同移動程度帄均值μ1,標準差s1 𝐷𝑖 = 𝑋𝑖 − 𝑌𝑖 , ∀𝑖 = 1,2,3 … 𝑛 𝜇𝐷 =∑𝑛𝑖=0 𝐷𝑖 /𝑛. 政 治 大. 立. 𝑠𝐷 =√∑𝑛𝑖=0(𝐷𝑖 − 𝜇𝐷 )2. 學. ‧ 國. 𝐻0:概念股沒有股價共同移動之現象,與大盤股價移動無異,𝜇𝐷 ≤ 0. 𝜇𝐷 −0. y. 𝑠𝐷 /√𝑛. sit. Nat. 計算檢定統計量:𝑇 =. ‧. 𝐻𝑎 :概念股有股價共同移動之現象,𝜇𝐷 >0. io. 拒絕域(RR)={|T|>𝑡∝ },接受域(AR)={T≤ 𝑡∝ }. n. al. er. 1.. Ch. engchi. i Un. v. 若 T 統計量於接受域 AR 則接受虛無假設𝐻0,表示𝜇0 和𝜇1 沒有顯著差 異,反之若 T 統計量於拒絕域則拒絕虛無假設𝐻0,接受對立假設𝐻1 , 表示𝜇0 和𝜇1 有顯著差異,且𝜇1 顯著大於𝜇0 。. 32.

(40) 取得 2011 年 2 月 1 日至 5 月 31 所有開盤日之共同移動程度值以推估 大盤股價共同移動之分布並對概念股之股價共同移動程度值進行 t 檢 定,𝛼 = 0.05. 計算大盤每日股價共同移動程度帄均值𝜇0 ,標準差𝑠 計算選定之概念股每日股價共同移動程度帄均值𝜇1. 𝐻0 :概念股沒有股價共同移動之現象,與大盤股價移動無異,𝜇1 ≤ 𝜇0. 治 政 𝐻 :概念股有股價共同移動之現象,𝜇 >大 𝜇 立 𝑎. 1. 計算檢定統計量 𝑇 =. 0. 𝜇1 −𝜇0 𝑠𝐷 /√𝑛. 拒絕域(RR)={|T|>𝑡∝ },接受域(AR)= {T≤ 𝑡∝ }. 學. ‧ 國. ‧ sit. y. Nat. 𝐻0 之接受域 AR=T<=𝑡∝ ,若T統計量於接受域,接受虛無假設,表示. io. 概念股間沒有股價共同移動之現象,反之,則拒絕𝐻0 假設,接受𝐻𝑎 假. n. al. er. 2.. i Un. v. 設,表示概念股間相對於大盤有股價共同移動之現象。. Ch. engchi. 33.

(41) 累積報酬率比較. 2.3. 在報酬率的部分本研究假設投資人以本研究所提出之方法,以一個月的新 聞資料進行概念股檢索,並選取其概念相關之個股,與大盤比較其一個月後累 積報酬率之差異。. 累積報酬率計算如下: 日報酬率𝑅𝑡 =. 𝑃𝑡 −𝑃𝑡−1 𝑃𝑡−1. 𝑃𝑡 :交易日當日收盤價 𝑃𝑡−1 :前一交易日收盤價. 立. 政 治 大. 累積報酬率 𝑅 = (1 + 𝑅1 )(1 + 𝑅2 )(1 + 𝑅3 ). . . . . . (1 + 𝑅𝑛 ) − 1. ‧ 國. 學 ‧. 本研究以 iPad2 概念為例,且 Iiad2 上市時間為 2011 年 3 月,且因 2011. sit. y. Nat. 年 1 月開始就有相關新聞,因此觀察期間為 2011 年 1 月 1 日至 2011 年 5 月 31. io. er. 日,在 iPad2 相關概念股之檢索方面,本研究將以 2011 年 1 月至 4 月每個月的 新聞分別進行概念股發掘,將所選取之個股視為一類股,由台灣經濟新報資料. al. n. iv n C 庫(TEJ)取得概念股發掘後次月之所有交易日之股價,計算其累積報酬率,並 hengchi U 取得同一期間所有交易日之大盤股價,並計算此一期間之累積報酬率以進行比 較。. 34.

(42) 報酬率之檢定. 2.4. 為了檢視本研究提出方法所選出之概念股的漲跌幅及報酬率與大盤指數之 差異以觀察概念股之間股價共同移動方向,因此本研究對於本研究方法所選出 之概念股分別做了以下檢定:. 1.. 檢定所選出之概念股與大盤指數在一個月內報酬率波動,將 2 月、3 月、4 月、5 月大盤加權指數的報酬率波動與本研究方法所選出之概念. 政 治 大. 股於同一期間之報酬率波動分別做雙母體 t 檢定,檢定方法如下:. 立. 大盤在第 i 天股價報酬率波動: 𝑌1 , 𝑌2 , 𝑌3 … 𝑌𝑖. ‧. ‧ 國. 學. 兩母體帄均數差異之 t 檢定,𝛼 = 0.05,n=當月開盤天數. 概念股在第 i 天股價報酬率波動:𝑋1 , 𝑋2 , 𝑋3 … 𝑋𝑖. sit. y. Nat. 𝐷𝑖 = 𝑋𝑖 − 𝑌𝑖 , ∀𝑖 = 1,2,3 … 𝑛. al. n. 𝑠𝐷 =√∑𝑛𝑖=0(𝐷𝑖 − 𝜇𝐷 )2. er. io. 𝜇𝐷 =∑𝑛𝑖=0 𝐷𝑖 /𝑛. Ch. engchi. i Un. v. 𝐻0 :𝜇𝐷 ≤ 0,概念股報酬率波動與大盤無異. 𝐻𝑎 : 𝜇𝐷 >0,概念股報酬率波動高於大盤波動 𝜇 −0. 計算檢定統計量:T = 𝑠 𝐷/ 𝐷. √𝑛. 拒絕域(RR)={|T|>𝑡∝ },接受域(AR)={T≤ 𝑡∝ }. 若 T 統計量於接受域 AR 則接受虛無假設𝐻0 ,表示𝜇0 和𝜇1 沒有顯著差異, 反之若 T 統計量於拒絕域則拒絕虛無假設𝐻0,接受對立假設𝐻1,表示𝜇0 和𝜇1 有 顯著差異,且𝜇1 顯著大於𝜇0 ,表示概念股報酬率波動高於大盤波動。. 35.

(43) 2.. 檢定概念股與大盤之報酬率,將 2 月至 5 月大盤加權指數每日的報酬 率與本研究方法所選出之概念股之 2 月、3 月、4 月、5 月對應的每日 報酬率共 77 天做雙母體之 t 檢定,以檢定概念股與大盤報酬率之差異. 兩母體帄均數差異之 t 檢定,𝛼 = 0.05,n=77 大盤在第 i 天股價報酬率: 𝑌1 , 𝑌2 , 𝑌3 … 𝑌𝑖 概念股在第 i 天股價報酬率:𝑋1 , 𝑋2 , 𝑋3 … 𝑋𝑖. 治 政 大 𝐷 = 𝑋 − 𝑌 , ∀ = 1,2,3 … 𝑛 立 𝜇 =∑ 𝐷 /𝑛 𝑖. 𝐷. 𝑛 𝑖=0. 𝑖. 𝑖. 𝑖. 學. ‧ 國. 𝑖. 𝑠𝐷 =√∑𝑛𝑖=0(𝐷𝑖 − 𝜇𝐷 )2. ‧. 𝐻0 :𝜇𝐷 ≤ 0,概念股報酬率無高過大盤. y. Nat. 𝐻𝑎 : 𝜇𝐷 >0,概念股報酬率高過大盤. n. al. √𝑛. 拒絕域(RR)={|T|>t ∝ },接受域(AR)={T≤ 𝑡∝ }. Ch. engchi. er. io. 𝐷. sit. 𝜇 −0. 計算檢定統計量:T = 𝑠 𝐷/. i Un. v. 若 T 統計量於接受域 AR 則接受虛無假設𝐻0 ,表示𝜇0 和𝜇1 沒有顯著差異, 反之若 T 統計量於拒絕域則拒絕虛無假設𝐻0,接受對立假設𝐻1,表示𝜇0 和𝜇1 有 顯著差異,且𝜇1 顯著大於𝜇0 ,表示概念股之報酬率高過大盤。. 36.

(44) 第四章 實驗結果 第一節 不同信心程度概念股 為探討其信心程度門檻值對概念相關個股之影響,本研究以 iPad2 概念股 分別對不同月分之新聞進行分析,所分析的新聞時間分別為 1 月、2 月、3 月、 4 月,信心程度大於 0.1 結果分別如表 4-1、表 4-2、表 4-3 及表 4-4: 表 4- 1 以 2011 年 1 月新聞進行 iPad2 概念股檢索結果 股票代號 個股名稱 信心程度 2368 金像電 0.666667 8086 宏捷科 0.6 2354 鴻準 0.409091 2392 正崴 0.35 2384 勝華 0.304348 9914 美利達 0.3 2357 華碩 0.294479 6153 嘉聯益 0.263158 6121 新普 0.263158 3406 玉晶光 0.25 3042 晶技 0.25 3044 健鼎 0.235294 3630 新鉅科 0.235294 3673 TPK 0.233333 2376 技嘉 0.233333 2313 華通 0.214286. 政 治 大. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. 3622 2430 8109 2393 2448 3008 4716 2324 2317 3231 3584 2498 2545 [資料來源:本研究整理]. e n洋華 gchi 燦坤 博大 億光 晶電 大立光 大立 仁寶 鴻海 緯創 介面 宏達電 皇翔. 37. i Un. v. 0.185185 0.175 0.166667 0.16 0.157303 0.141791 0.13986 0.138614 0.138249 0.137255 0.133333 0.111498 0.111111.

(45) 表 4- 2 以 2011 年 2 月新聞進行 iPad2 概念股檢索結果 股票代號. 個股名稱. 信心程度. 2369. 菱生. 0.75. 3030. 德律. 0.714286. 2354. 鴻準. 0.636364. 3406. 玉晶光. 0.583333. 6121. 新普. 0.529412. 8086. 宏捷科. 0.5. 3211. 順達科. 0.5. 2392. 正崴. 0.416667. 3673. TPK. 0.4. 2384. 勝華. 0.39726. 治 政大立光. 3008. 立. 2377. 大立. 0.296296 0.28 0.266667. 學. ‧ 國. 4716. 微星. 大. 3615. 安可. 0.208333. 2357. 華碩. 0.178571. 1455. 集盛. 0.176471. 2474. 可成. 0.161616. 3481. 奇美電. 5007. 力鵬. n. 3584. al. Ch. y. sit. 0.15873. er. io. 1447. 0.218182. ‧. 鴻海. Nat. 2317. n U i e n三星 h gc 介面. 0.157895 v i 0.15625 0.150442. 3037. 欣興. 0.142857. 2498. 宏達電. 0.138211. 2382. 廣達. 0.107527. 2409. 友達. 0.107143. [資料來源:本研究整理]. 38.

(46) 表 4- 3 以 2011 年 3 月新聞進行 iPad2 概念股檢索結果. 政 治 大. n. 緯創 奇美電 碩禾 宏達電 可成 亞光 安可 立錡 介面 雷凌 越峰 聯發科. [資料來源:本研究整理] 39. y. sit. io. 3231 3481 3691 2498 2474 3019 3615 6286 3584 3534 8121 2454. engchi. er. Nat. Ch. 信心程度 0.653846 0.647059 0.522727 0.5 0.5 0.454545 0.444444 0.428571 0.41791 0.4 0.391304 0.388889 0.388889 0.37931 0.375 0.375 0.333333 0.333333 0.327273 0.304688 0.279793 0.277778 0.26087 0.25 0.214286 0.210526 0.2 0.2 0.2. ‧. ‧ 國. 立. al. 個股名稱 鴻準 金像電 勝華 順達科 德律 健鼎 華通 正崴 TPK 台郡 南電 瑞儀 玉晶光 嘉聯益 新普 百和 聯鈞 宏捷科 大立光 華碩 鴻海 禾瑞亞 燿華 仁寶 燦坤 晶技 廣達 景碩 欣興. 學. 股票代號 2354 2368 2384 3211 3030 3044 2313 2392 3673 6269 8046 6176 3406 6153 6121 9938 3450 8086 3008 2357 2317 3556 2367 2324 2430 3042 2382 3189 3037. i Un. v. 0.19697 0.181818 0.181818 0.179811 0.176991 0.173913 0.166667 0.166667 0.142857 0.142857 0.142857 0.10101.

(47) 表 4- 4 以 2011 年 4 月新聞進行 iPad2 概念股檢索結果 股票代號. 個股名稱. 信心程度. 2392. 正崴. 0.692308. 3042. 晶技. 0.545455. 2384. 勝華. 0.367347. 6176. 瑞儀. 0.35. 3622. 洋華. 0.307692. 2354. 鴻準. 0.296296. 6121. 新普. 0.25. 2357. 華碩. 0.226563. 3673. TPK. 0.197802. 3584. 介面. 0.195652. 3615. 安可. 0.192308. 玉晶光 治 政 威達電 大 鴻海. 3406 3022. 立. 2317. 0.190476 0.183544. 緯創. 0.15942. 學. ‧ 國. 3231. 0.192308. 仁寶. 2382. 廣達. 3481. 奇美電. 2498. 宏達電. 0.108392. 2409. 友達. 0.108333. 4904. 遠傳. 0.106667. 3008. 大立光. n. Ch. engchi. 0.128571 0.125. y. sit. 0.105769. er. io. al. [資料來源:本研究整理]. 0.135802. ‧. Nat. 2324. i Un. v. 從表 4-1 結果可以看出以 1 個月的資料進行 iPad2 概念股檢索時,信心程 度大於 0.1 的個股有 31 檔,大於 0.2 的個股則有 16 檔。而從從表 4-2 結果可以 看出以 2 月的資料進行 iPad2 概念股檢索時,信心程度大於 0.1 的個股有 26 檔, 其中有 24 檔為相關個股。在表 4-3 結果中信心程度大於 0.1 的個股有 43 檔, 其中信心程度大於 0.2 的個股則有 29 檔。在表 4-4 的結果中信心程度大於 0.1 的個股有 23 檔,其中信心程度大於 0.2 的個股則有 8 檔。. 40.

(48) 第二節 股價共同移動程度之比較. 從前一節已分析出透過 2011 年 1 月至 4 月每月之新聞所得到之 IPad2 概念 股,此節將比較以 0.1 為門檻及 0.2 為門檻結果在次月股價共同移動之程度,並 將此共同移動程度與大盤及 MoneyDJ 網站所列出之 IPad2 概念股做比較,並對 結果及差異進行探討。. 表 4- 5 MoneyDJ 網站之 iPad2 概念股列表 證券代碼. 簡稱. 證券代碼. 簡稱. 3068. 美磊. 2474. 可成. 政 治 3406大 9938 立安可 正崴 6269 日月光. 3615. 5346. 3638 3211. 聚鼎. 3209. 新普. 3388. 聯詠. 3481. 中光電. 3037. 欣興. 力晶. 3049. 和鑫. 興勤. 2317. 台積電 全科 崇越電 奇美電. a l台達電 3042 i v n C IMLh e 2368 U i h ngc. n. 2308. io. 2428. Nat. 5371. 2330. y. 3034. 瑞儀. ‧. 6121. 台郡. sit. 6224. 百和. 學. 6176. ‧ 國. 2392. 玉晶光. er. 2311. 鴻海 晶技 金像電. 順達科. 8046. 南電. 5392. 應華. 2430. 燦坤. 5491. 連展. 3008. 大立光. 2384. 勝華. 2354. 鴻準. 6153. 嘉聯益. 2313. 華通. 2327. 國巨. 3044. 健鼎. 3673. TPK. 8112. 至上. 2455. 全新. 8086. 宏捷科. [資料來源:本研究整理]. 41.

(49) 表 4- 6 股價共同移動程度比較表 門檻值 0.2. 門檻值 0.1. MoneyDJ. 大盤. 2月. 0.793678. 0.769754. 0.751887. 0.638801. 3月. 0.73634. 0.735554. 0.708044. 0.629387. 4月. 0.702134. 0.686184. 0.696788. 0.630446. 5月. 0.681122. 0.66208. 0.667998. 0.625327. [資料來源:本研究整理]. 立. 0.9. io. al. n. 0.2. sit. 0.3. y. Nat. 0.4. er. 0.5. ‧. 0.6. ‧ 國. 0.7. 學. 0.8. 政 治 大. 0.1 0 2月. Ch. 3月. engchi 4月. i Un. v. 5月. 圖 4- 1 股價共同移動程度比較圖 [資料來源:本研究整理]. 42. 門檻值0.2 門檻值0.1 MoneyDJ 大盤.

(50) 從表 4-5 及圖 4-1 的結果可以觀察出 MoneyDJ 網站所列出之 iPad2 概念股 在 2 月到 5 月股價共同移動程度皆比大盤高。而本研究方法所發掘之概念股當 門檻值設為 0.1 時所發掘之概念股在 2 月及 3 月股價共同移動程度比 MoneyDJ 結果高,在 4 月及 5 月股價共同移動程度的結果則較 MoneyDJ 結果低些微。本 研究方法之概念股發掘結果在門檻值為 0.2 時,2 月到 5 月的股價共同移動程度 皆比門檻值為 0.1 時的結果高,且在 2 月到 5 月的股價共同移動程度也都比 Money 及大盤之結果高。. 因此,從以上結果可以歸納出,本研究所提出之概念股發掘方法在門檻值. 治 政 為 0.2 時所得到的概念股結果較門檻值為 0.1 時之結果有較高的股價共同移動現 大 立 象,且相較 MoneyDJ 網站所整理之概念股及大盤有較高之股價共同移動現象。 ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 43. i Un. v.

(51) 第三節 股價共同移動程度之檢定 1. 為了證明本研究所發掘之概念股股價共同移動之特性,本研究以門檻值為 0.2 所選出之 iPad2 概念股結果與大盤 2011 年 2 月至 5 月股價共同移動程 度進行雙母體統計檢定,期間的成對母體帄均數差異檢定結果如下:. ∑𝑛 𝑖=0 𝐷𝑖. 𝜇𝐷 =. 𝑛. = 0.092. 𝑠𝐷 =√∑𝑛𝑖=0(𝐷𝑖 − 𝜇𝐷 )2 /(𝑛 − 1)=0.152 𝐻0:概念股沒有股價共同移動之現象,與大盤股價移動無異,𝜇𝐷 ≤ 0. 政 治 大. 𝐻𝑎 :概念股有股價共同移動之現象, 𝜇𝐷 >0. 立. t ∝ = 1.665. ‧ 國. 學. 拒絕域(RR)={|T|>1.665},接受域(AR)={T<=1.665} 0.092−0. ‧. 檢定統計量:T = 0.152/√77 = 5.339>1.665(拒絕𝐻0 假設,接受𝐻𝑎 假設). sit. y. Nat. io. er. 在概念股與大盤股價共同移動程度之雙母體帄均數差異的檢定下,在自由 度 76 時T統計量大於 1.665,因此我們拒絕虛無假設𝐻0 :𝜇𝐷 ≤ 0 ,接受對立. al. n. iv n C 假設Ha:𝜇𝐷 > 0,也就是說,在統計上本研究所選定之概念股在 2011 年 1 月 1 hengchi U 日至 2011 年 5 月 31 日這段期間交易日股價共同移動程度之帄均值𝜇1 顯著大於 同一期間大盤之股價共同移動程度之帄均值𝜇0 ,因此本研究所選定之概念股股 價相對於大盤有共同移動之現象。. 44.

(52) 為了證明本研究所發掘之概念股每個月股價共同移動之特性,本研究以門 檻值為 0.2 所發掘之 iPad2 概念股結果其次月之股價共同移動程度分別與 2011 年 2 月 8 號至 5 月 31 日之大盤股價共同移動程度進行 t 檢定,檢定 之結果如下: 𝐻0 :概念股沒有股價共同移動之現象,與大盤股價移動無異𝜇1 ≤ 𝜇0 𝐻𝑎 :概念股有股價共同移動之現象,𝜇1 > 𝜇0 𝑛 = 77 ,自由度=76, 𝑡∝ = 1.665 ∑𝑛 𝑖=1 𝑆𝑖. 𝜇0 =. 𝑛. = 0.623. 政 治 大 拒絕域(RR)={|T|>1.665},接受域(AR)={T<=1.665} 立 𝑠0 =√∑𝑛𝑖=1(𝑠𝑖 − 𝜇0 )2 /(𝑛 − 1)=0.087. 𝑛. = 0.794 0.794−0.623. = 15.94 > 1.6657. y. Nat. 0.087/√77. io. er. 2011 年 2 月新聞發掘之概念股檢定結果: ∑𝑛 𝑖=1 𝐶𝑆𝑖. ‧. 檢定統計量:𝑇 =. sit. ∑𝑛 𝑖=1 𝐶𝑆𝑖. 𝜇1 =. 學. 2011 年 1 月新聞發掘之概念股檢定結果:. ‧ 國. 2.. al. iv n C U h n10.35 0.736−0.623 g c h>i 1.6652 檢定統計量:T= 0.087/√77e = 𝑛. = 0.736. n. 𝜇1 =. 2011 年 3 月新聞發掘之概念股檢定結果: ∑𝑛 𝑖=1 𝐶𝑆𝑖. 𝜇1 =. 𝑛. = 0.702. 檢定統計量:𝑇 =. 0.702−0.623 0.087/√77. = 7.014 > 1.665. 2011 年 4 月新聞發掘之概念股檢定結果: ∑𝑛 𝑖=1 𝐶𝑆𝑖. 𝜇1 =. 𝑛. = 0.681. 檢定統計量:𝑇 =. 0.681−0.623 0.087/√77. = 4.96 > 1.665. 45.

(53) 由於 T 統計量在自由度 76, 𝛼=0.05 的情況下,若大於 1.665,則拒絕虛無假 設𝐻0,接受對立假設𝐻1,反之則不能拒絕虛無假設𝐻0,從以上結果可以看出, 本研究以 1 月、2 月、3 月、4 月之概念股發掘結果,分別再次月之股價共同移 動程度 T 統計量皆大於 1.665,拒絕虛無假設𝐻0 ,接受對立假設𝐻1 。. 因此可以看出以不同月份之新聞所選定之概念股股價共同移動程度帄均值 大於大盤之帄均值,且經檢定結果可得知,本研究所選定之概念股股價相對於 大盤有共同移動之現象。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 46. i Un. v.

(54) 第四節 累積報酬率之比較 此節將比較第一節所列出之透過 2011 年 1 月至 4 月每月之新聞所得到之 iPad2 概念股結果在門檻值為 0.1 及為門檻及 0.2 時,次月之累積報酬率,並分 別與 MoneyDJ 網站所列出之 iPad2 概念股及大盤指數在同一期間之累積報酬率 進行比較,並對其結果進行探討。. 表 4-5 股價累積報酬率比較表 門檻值 0.2. 門檻值 0.1. MoneyDJ. 3.87% 3.79% 政 治 大 -5.00% -4.56%. -5.62%. 5.69%. 4.50%. 4.51%. 3.48%. 9.87%. 5.96%. 6.83%. 1.30%. 3月. -5.00%. 4月 5月. 立. [資料來源:本研究整理]. n. al. er. io. sit. y. Nat. 10.00% 8.00% 6.00%. Ch. engchi. i Un. v. 門檻值0.2. 4.00%. 門檻值0.1. 2.00%. MoneyDJ. 0.00% -2.00%. -0.51%. ‧. ‧ 國. 6.28%. 學. 2月. 12.00%. 大盤. 2月. 3月. 4月. 5月. -4.00% -6.00% -8.00%. 圖 4- 2 股價累積報酬率比較圖 [資料來源:本研究整理]. 47. 大盤.

(55) 表 4-5 及圖 4-2 為本研究方法所發掘之概念股門檻值 0.2,0.1 時之分析結 果次月之累積報酬率,及 MoneyDJ 網站所列出之 iPad2 概念股及大盤指數分別 於 2 月至 5 月之累積報酬率比較表及比較圖。從表中結果可觀察出,本研究之 結果在門檻值為 0.1 及 0.2 時,由 1 月、3 月、4 月新聞之所分析之概念股於次 月之累積報酬率皆為正向,且相對大盤及 MoneyDJ 皆有較高之累積報酬率,因 此可得知 iPad2 概念股在此期間股價有正向共同移動現象。而在本研究方法以 2 月份新聞所發掘之概念股在 3 月份的累積報酬率皆低於大盤之累積報酬率, 因此本研究將對此月份之事件加以分析探討其原因。. 治 政 經分析 3 月份之事件後發現,在日本在 3 月份時發生規模 9.0 大地震,而 大 立 影響 iPad2 日本之供應鏈,進而影響出貨,因此相關個股在此期間有一波下跌 ‧ 國. 學. 的趨勢,從 MoneyDJ 網站所列出之 iPad2 概念股在此月份之累積報酬為-4.56%. ‧. 可以看出 iPad2 概念股在此月之下跌趨勢,而本研究所所得到之概念股因為齊. sit. y. Nat. 漲齊跌之現象較MoneyDJ 明顯,因此在股價下跌時,也有較大的跌幅。綜合以. io. al. n. 較大的波動。. er. 上結果可發現概念股因為有股價共同移動的特性,因此在上漲及下跌時都會有. Ch. engchi. 48. i Un. v.

(56) 第五節 報酬率檢定 本研究對於大盤指數及本研究所選出之概念股於次月之一個月的投資報 酬率波動做雙母體之檢定,檢定之月份分別為 2011 年 2 月至 2011 年 5 月, 檢定結果如下: 𝐻0 :𝜇𝐷 ≤ 0 大盤與概念股報酬率波動無差異 𝐻𝑎 : 𝜇𝐷 >0 大盤與概念股報酬率波動有差異 2011 年 1 月新聞發掘之概念股報酬檢定結果: ∑𝑛 𝑖=0 𝐷𝑖. 𝜇𝐷 =. 𝑛. = 0.724. 政 治 大. 𝑠𝐷 =√∑𝑛𝑖=0(𝐷𝑖 − 𝜇𝐷 )2 /(𝑛 − 1)=1.462. 立. 拒絕域(RR)={|T|>1.782},接受域(AR)={T<=1.782} 0.724−0. 檢定統計量:𝑇 = 1.462/√14 = 1.786 > 1.782. 2011 年 2 月新聞發掘之概念股報酬檢定結果:. io. sit. = 0.601. 𝑠𝐷 =√∑𝑛𝑖=0(𝐷𝑖 − 𝜇𝐷 )2 /(𝑛 − 1)=1.063. al. er. 𝑛. y. Nat. ∑𝑛 𝑖=0 𝐷𝑖. 𝜇𝐷 =. ‧. 拒絕𝐻0 假設接受𝐻𝑎 假設. 學. ‧ 國. 1.. n. iv n C 拒絕域(RR)={|T|>1. 72},接受域(AR)={T<=1. h e n g c h i U 72} 0.601−0. 檢定統計量:𝑇 = 1.063/√22 = 2.654 > 1.72 拒絕𝐻0 假設接受𝐻𝑎 假設 2011 年 3 月新聞發掘之概念股報酬檢定結果: ∑𝑛 𝑖=0 𝐷𝑖. 𝜇𝐷 =. 𝑛. = 0.39. 𝑠𝐷 =√∑𝑛𝑖=0(𝐷𝑖 − 𝜇𝐷 )2 /(𝑛 − 1) = 0.565 拒絕域(RR)={|T|>1. 739},接受域(AR)={T<=1. 739} 0.39−0. 檢定統計量:𝑇 = 0.565/√19 = 2.969 > 1.739 拒絕𝐻0 假設接受𝐻𝑎 假設 49.

(57) 2011 年 4 月新聞發掘之概念股報酬檢定結果: ∑𝑛 𝑖=0 𝐷𝑖. 𝜇𝐷 =. 𝑛. = 2.142. 𝑠𝐷 =√∑𝑛𝑖=0(𝐷𝑖 − 𝜇𝐷 )2 /(𝑛 − 1) = 2.018 拒絕域(RR)={|T|>1. 729 },接受域(AR)={T≤ 1. 729 } 2.142−0. 檢定統計量:𝑇 = 2.018/√21 = 4.746 > 1.729 拒絕𝐻0 假設接受𝐻𝑎 假設 從檢定結果可以看出,以本研究方法分別在 2011 年 1 月、2 月、3 月、4 月新聞中所發掘之概念股在 2011 年 2 月、3 月、4 月、5 月的報酬波動對於大. 治 政 盤加權指數報酬波動皆拒絕了H 假設,接受H 假設,也就是說,本研究方法所 大 立 選出之概念股股價報酬波動,在統計上顯著於大盤加權指數報酬之波動。 0. ‧ 國. 學. 而在 2 月至 5 月對本研究方法選出之概念股與大盤間每日報酬率差異檢定. sit. = 0.383. io. 𝑛. al. n. 𝑠𝐷 =√∑𝑛𝑖=0(𝐷𝑖 − 𝜇𝐷 )2 /(𝑛 − 1) = 0.1953. Ch. engchi. 𝐻0 :概念股報酬率無高過大盤,𝜇𝐷 ≤ 0. er. ∑𝑛 𝑖=0 𝐷𝑖. 𝜇𝐷 =. y. Nat. 結果如下:. ‧. 2.. a. i Un. v. 𝐻𝑎 :概念股報酬率高於大盤, 𝜇𝐷 >0 𝑡∝ = 1.665 拒絕域(RR)={|T|>1.665},接受域(AR)={T≤ 1.665} 0.383−0. 檢定統計量:T = 0.1953/√77 = 1.71 > 1.6656 (拒絕𝐻0 假設,接受𝐻𝑎 假設). 檢定結果拒絕了𝐻0 假設,接受𝐻𝑎 假設,亦即本研究方法所選出之概念股在 2 月至 5 月間的報酬率在統計上顯著高於大盤,也意味著本研究所選出之概念 股於此段期間有較高的報酬率。 50.

參考文獻

相關文件

本案件為乳癌標準化化學藥物治療與個人化化學治 療處方手術前化學治療療效比較之國內多中心研 究,於 2008 年 8 月 1 日由

2-1-1 複變數的概念.

「資訊證照 門檻、「英 語檢定門 檻」. 多修之學 分數得認

「資訊證照 門檻、「英 語檢定門 檻」. 多修之學 分數得認

「資訊證照 門檻、「英 語檢定門 檻」. 多修之學 分數得認

第六章 其他相關規定 第一節 獲配股利或盈餘所得 壹、 「公司組織」獲配股利或盈餘及其所含的可扣抵稅額之課稅規定48

An Analysis of the January Effect of the United State, Taiwan and South Korean Stock Market, Asia Pacific Journal of Management, 9,

多修之 學分數得 認列為自 由選修 2... 外語證照及系證照門檻通過後,務必將『證照正本』送語言中心及系