• 沒有找到結果。

目錄

N/A
N/A
Protected

Academic year: 2022

Share "目錄 "

Copied!
95
0
0

加載中.... (立即查看全文)

全文

(1)
(2)
(3)
(4)
(5)

摘要

本研究從股價漲跌記錄與財經新聞以關聯分析去找出關聯規則。結果顯示,

關聯規則存在於這些資料之中,並且這些規則可以用來繪製產業關聯圖。此外,

從漲跌記錄產生的關聯規則可預測股價漲跌。當漲、跌被定義為1%的價格變化 時,統計結果顯示,這些規則可以預測下跌趨勢。也就是說,當這些記錄產生關 聯規則:「股票A 下跌Î股票 B 下跌」,此規則顯示當股票 A 股價下跌時,股票 B 有很高的機率在當日下跌。若股票 B 當天股價持平時,股票 B 隔日有很高的 機率會下跌。

關鍵字:關聯規則、股市分析、技術面分析、消息面分析、產業關聯

(6)

Abstract

This research used association mining to find out the association rules from the stock market rise and drop records and financial and economic news. The results showed that association rules exist in these data, and these rules can be used to draw the industry relationship graph. Moreover, the association rules produced from the rise and drop records can forecast the rise and drop of stock price. When rise and drop are defined as 1% change of price, the statistical results showed that these rules can forecast drop trend. That is, when these records produced association rule: “Stock A drop Î Stock B drop”, the rule shows that when stock A drops, stock B drops with high probability on the same day. If stock B doesn’t drop or rise on the same day, it will drop with high probability on the next day.

Keyword:Association Rule, Technical Analysis, News, Industry Relationship

(7)

誌謝

一轉眼,兩年的時光就匆匆流過了。感謝葉怡成教授在這段期間細心的指 導,與培養學生專業的知識與研究能力,讓學生能順利的完成論文;而在日常生 活上,也承蒙恩師的關懷,使得學生能養成良好的價值觀與正確的待人處事的方 法,非常感謝恩師的教導。

在初進研究所的期間,承蒙劉瑞瓏教授的帶領,讓學生在陌生的環境能安定 下來,並指導學生求學與研究應有的態度與能力,真誠的感謝老師的教導。

另外要感謝商業智慧實驗室的研究夥伴-靜婉、其彬、冠呈、謹豪、韋綸、

兆瑜和逸芸,感謝你們在苦悶的研究室陪伴我ㄧ起做研究,使得研究生涯多了很 多美好的回憶;也感謝研究所怡雰學姐及同學暉智、崇愷、登傑的鼓勵與督促,

讓我的研究論文能如期的完成,也帶給我許多美好的回憶。

在此還要感謝我的好朋友-桂榕,默默的為我加油,並適時給予我一些建 議,讓我能有目標的去完成學業;最後要感謝我的家人,親愛的爸爸、媽媽以及 哥哥、弟弟,因為有你們在背後的支持與鼓勵,讓我能無後顧之憂的專心去完成 學業。

謹識于中華大學資訊管理研究所 九十五年七月

(8)

目錄

摘要...i

Abstract ...ii

誌謝... iii

目錄...iv

圖目錄...vi

表目錄... viii

第一章 導論...1

1-1 研究背景 ...1

1-2 研究目的 ...2

1-3 研究方法 ...2

1-4 研究內容 ...4

第二章 文獻回顧...6

2-1 股市的投資分析 ...6

2-1-1 技術面分析...6

2-1-2 基本面分析...7

2-1-3 消息面分析...7

2-2 關聯分析 ...8

2-3 關聯分析與股市的投資分析 ...13

第三章 關聯分析在台灣股市消息面分析之應用...15

3-1 導論 ...15

3-2 方法 ...15

3-3 結果 ...16

3-3-1 建立新聞資料...16

3-3-2 建立關聯規則...18

(9)

3-3-3 分析關聯規則...19

3-4 關聯規則與產業結構之關係—關聯圖之應用 ...24

3-5 結論 ...31

第四章 關聯分析在台灣股市技術面分析之應用...32

4-1 導論 ...32

4-2 方法 ...32

4-3 結果 ...32

4-3-1 建立漲跌資料...32

4-3-2 建立關聯規則...34

4-3-3 分析關聯規則...36

4-4 關聯規則與產業結構之關係-關聯圖之應用 ...41

4-5 以關聯規則預測股價漲跌之可行性分析 ...48

4-6 結論 ...62

第五章 結論與建議...63

5-1 結論 ...63

5-2 建議 ...65

參考文獻...67

附錄A:財經新聞關聯規則...70

附錄B:股市漲跌關聯規則...76

(10)

圖目錄

圖1-1 消息面關聯分析研究流程圖 ...3

圖1-2 技術面關聯分析研究流程圖 ...3

圖2-1 三維模式:BÎC...14

圖2-2 三維模式:A+BÎC ...14

圖2-3 線條模式:AÎC ...14

圖2-4 線條模式:A+BÎC ...14

圖3-1 財經新聞紀錄範例 ...16

圖3-2 最大項目數與支持度變化產生關聯規則數量表 ...18

圖3-3 信賴度與支持度變化產生關聯規則數量表 ...19

圖3-4 長榮航、華航之關聯圖 ...24

圖3-5 英業達、仁寶之關聯圖 ...25

圖3-6 金融機構之關聯圖 ...25

圖3-7 液晶面板業之關聯圖 ...26

圖3-8 營建業之關聯圖 ...27

圖3-9 光學鏡頭產業之關聯圖 ...27

圖3-10 局部關聯圖 ...28

圖3-11 整體關聯圖(1/2)...29

圖3-12 整體關聯圖(2/2) ...30

圖4-1 最大項目數與支持度變化產生關聯規則數量圖 ...35

圖4-2 信賴度與支持度變化產生關聯規則數量圖 ...36

圖4-3 光碟片廠之關聯圖 ...42

圖4-4 面板業之關聯圖 ...43

圖4-5 鋼鐵業之關聯圖 ...43

圖4-6 光學鏡頭業之關聯圖 ...44

(11)

圖4-7 營建業之關聯圖 ...45

圖4-8 整體關聯圖(1/2) ...46

圖4-9 整體關聯圖(2/2) ...47

圖4-11 股市補漲範例結果圖 ...49

圖4-12 股市補跌範例結果圖 ...50

(12)

表目錄

表2-1 項目表 ...10

表2-2 交易表 ...10

表2-3 交易二元表現矩陣 ...10

表3-1 關鍵字比對新聞資料後之結果(部分)...17

表3-2 友達、廣輝和華映之關聯規則 ...20

表3-3 豐興和東鋼之關聯規則 ...20

表3-4 鴻準、鴻海和廣宇之關聯規則 ...21

表3-5 液晶面板業之關聯規則 ...22

表3-6 光學鏡頭業之關聯規則 ...23

表3-7 手機出貨預估圖 ...23

表3-8 營建業之關聯規則 ...23

表4-1 原始股價資料表(部分示意圖)...33

表4-2 漲跌幅與項目數比較 ...34

表4-3 最大項目數與支持度變化產生關聯規則數量表 ...35

表4-4 信賴度與支持度變化產生關聯規則數量表 ...36

表4-5 國碩跌、利碟跌和精碟跌之關聯規則 ...37

表4-6 威致漲、志聯漲和燁興漲之關聯規則 ...38

表4-7 清三漲和欣錩跌之關聯規則 ...39

表4-8 面板產業之關聯規則 ...39

表4-9 光學鏡頭業之關聯規則 ...40

表4-10 營造業之關聯規則 ...41

表4-11 補漲與補跌資料統計表(括號中數字為次數)...51

表4-12 成對母體平均數差異 t 檢定(全部) ...54

表4-13 成對母體平均數差異 t 檢定(同漲規則) ...55

(13)

表4-14 成對母體平均數差異 t 檢定(同跌規則) ...55

表4-15 成對母體平均數差異 t 檢定(當天持平) ...55

表4-16 成對母體平均數差異 t 檢定(當天反向漲跌) ...55

表4-17 成對母體平均數差異 t 檢定(平後漲跌) ...56

表4-18 成對母體平均數差異 t 檢定(跌後漲跌) ...56

表4-19 成對母體平均數差異 t 檢定(平後跌漲) ...57

表4-20 成對母體平均數差異 t 檢定(漲後跌漲) ...57

表4-21 2006 年 1 至 6 月驗證下跌規則結果表 ...57

表4-22 成對母體平均數差異 t 檢定(持平情況) ...59

表4-23 成對母體平均數差異 t 檢定(上漲情況) ...59

表4-24 下跌規則的反向統計數據 ...60

表4-25 成對母體平均數差異 t 檢定(下跌情況) ...61

表4-26 成對母體平均數差異 t 檢定(不漲情況) ...61

(14)

第一章 導論

1-1 研究背景

二十世紀中期以後,科技與經濟的發展突飛猛進,經濟市場的蓬勃發展,隨 之造就了股票交易市場的興盛。各種大大小小的企業無不力求上市、上櫃,期使 公司的獲利能更上一層樓。而投資者也藉著這個機會,將本身的資金投入其中,

心中無不掛念著公司股票的漲跌,也期待著所投資的公司能使自己一夕致富。也 因為如此,股票投資學也就受到更多人的注目與研究,各門各派的學說也就如雨 後春筍般的冒出芽來,且不論是以哪種角度來探討股市分析,均有其支持者的存 在。

因為股市的表現會受到非常多的因素所影響,有些因素可以用量化來比較其 差異,例如:股價的月平均價格、漲跌的幅度、公司的獲利率…等;而有些因素 確很難讓人去量化它,例如:投資者的心理、政局的表現、媒體的報導…等。這 些因素或多或少都會去影響到股市的表現,而股市投資者若是能從這些資料去獲 得投資的準則,可能可以獲得較大的利潤。但若是無法從中獲得正確的投資準 則,或是忽略了某些因素的影響力,將使獲利降低,甚至造成投資的虧損。

在台灣,上市的公司就高達700 家左右,而上櫃的公司也高達 500 家左右。

投資者如果能在進行投資決策時,考量到這近1200 家公司彼此的影響力,或是 藉由其中的產業結構去找到特殊的影響力,可能可以增加獲利。

一般來說,投資者在進行買賣股票時,通常會由三個面向去決定投資決策:

1. 技術面分析:根據股價變動的趨勢,找尋買賣股票最佳的時點。

2. 基本面分析:根據國內外經濟情勢、個別產業前景、公司經營績效等資訊,

評估股票真實的價值,做為進出股市及選擇個股的依據。

3. 消息面分析:根據媒體或公司發布的財經新聞,預測投資此公司的獲利性。

以往投資者根據上述的三個面向去判斷投資的標的是否是最佳的目標與最 佳的投資時間點為何,但效果常常是非常有限的。這可能是因為股市的行為十分

(15)

複雜,很難用簡單的方法就去找出一套非常有效的投資準則。近年來,資料探勘 技術的發展,許多研究者嘗試著使用資料探勘的技術去進行投資決策的分析,試 圖找出一套有效的投資準則。雖然資料探勘的技術有非常多種類,但以往主要都 是利用分類探勘與迴歸探勘去建立股市預測模型,很少利用關聯探勘來進行股市 的分析。關聯探勘定義為給予一組足夠數量的紀錄,其中每筆紀錄都登記了一些 項目,而可以從中找出一個能夠以某些項目出現與否來預測其它項目出現與否的 相依規則。因此本研究的目的就是要利用關聯探勘來進行台灣股市『技術面』與

『消息面』的關聯分析,並比較兩者之間的差異。

1-2 研究目的

關聯分析的目的是要從一堆表面看似無甚關聯的資料中,去找出一些獨特的 關聯性。本研究主要資料來源是台灣的股市消息面資料與技術面的資料,研究目 的包括:

1. 找出各別的關聯性規則,並給予其合理的解釋。

2. 藉由此兩部份研究所產生的關聯規則中,去找出產業的關聯性是否存在。

3. 比較此兩部份的關聯規則中是否存在著某種特殊的關係,亦即由股市消息面 的規則中找到與技術面規則相似的關聯規則。

4. 驗證關聯規則在股價漲跌的預測是否可行。

1-3 研究方法

本研究的研究方法概述如下:

(16)

圖1-1 消息面關聯分析研究流程圖 圖1-2 技術面關聯分析研究流程圖

1. 消息面關聯分析(參考圖 1-1)

消息面分析主要是利用網路上收集來的網路新聞,利用資訊檢索的技術,將

(17)

所需要的財經類別新聞擷取出來,並透過字詞的比對,建立一矩陣表格,存放著 每一則新聞中出現了哪些公司名稱。也就是說,我們可以知道某一篇的新聞中,

主要是在討論哪些公司的消息,不論其討論的內容、目的為何。再藉由關聯分析,

從這些資料中去找出其隱含的關聯規則,分析哪些公司會常常被新聞媒體同時提 出來討論,並解讀其隱含的意義,是否可據此建立產業的結構。

2. 技術面關聯分析(參考圖 1-2)

技術面的分析主要是利用台灣股市的股價漲跌做為資料的來源,藉著建立一 台灣股市上市公司每日股價的漲跌表格,我們可以得知在某一天中,有哪些公司 是屬於明顯上漲的,哪些公司是明顯下跌的,還有一部份的公司股價變動不大 的。而漲跌的幅度就要取一適當的比例,使得每日明顯上漲與明顯下跌的公司比 例不至於太高或太低。再藉由關聯分析,從這些股價漲跌資料中去找出其隱含的 關聯規則;亦即哪些公司常常有一起上漲或是一起下跌的關聯規則,甚至是找出 某些公司上漲,而另外一家公司發生下跌的關聯規則。這些關聯規則可以告訴投 資者哪些公司的股價漲跌存在著特定的關聯。

因為本研究的新聞資料來源為台灣的財經新聞,而股票漲跌資料也是取材台 灣股票上市公司,且取材的時間也鎖定在同一年度,因此可將兩者不同資料來源 所建立的關聯規則進行比較,觀察兩者產生的關聯規則之異同。

1-4 研究內容

以下簡介各章的內容:

第一章為導論,主要是介紹本研究的研究動機、目的等研究背景資料,並以 流程圖來介紹兩種研究的過程。

第二章為文獻回顧,首先介紹股市分析投資的派別與其相關的文獻。接著介 紹關聯分析的定義、原理、方法、術語等相關文獻。最後介紹關聯分析在股市投 資分析應用的相關文獻。

(18)

第三章為關聯分析在台灣股市『消息面』分析之應用。本章主要是將所收集 的新聞資料進行資料處理後,再進行關聯分析,藉此獲得關聯規則,並繪出關聯 圖,來解釋其關聯規則與關聯圖的意義。

第四章為關聯分析在台灣股市『技術面』分析之應用。本章主要是將台灣股 市上市公司的每日漲跌作為資料來源,進行關聯分析,以獲得關聯規則,並繪出 關聯圖,來解釋這些關聯規則與關聯圖的意義。再與第三章的結果做一比較,觀 察在兩種不同資料來源所形成的關聯規則與關聯圖是否有差異存在。

第五章為結論與建議,在此對前面的研究作一總結的敘述,與提供後續研究 的相關建議。

(19)

第二章 文獻回顧

2-1 股市的投資分析

股市的分析派別一般來說分為三種,分別是技術面分析、基本面分析與消息 面分析,以下將分別介紹此三派別。

2-1-1 技術面分析

技術面分析主要是因為投資人在分析股市的表現時,發現到股價的變動可能 具有某些規律的表現,因而可以利用特定的交易規則來進行投資。此種分析方法 是建立在股價是由市場供需法則來決定的前提下,也就是股價的變動不受到基本 面與消息面的影響,僅單純的反應市場供需的交易結果。

技術分析的研究重點是選擇買進或賣出股票最適當的時機,而其中所隱含的 變動原理與因素並不是其所關注的重點。學者Jones(1988)歸納出技術分析的重 點如下:

1. 分析對象為市場的交易資訊,包含了交易市場整體資訊與個股股票資訊,內 容包含了價格、成交量、移動平均線、乖離率等各種技術分析指標。

2. 分析目的為選擇買賣股票的最適當時機,因此將焦點放在股價的變動,而非 股價的水準上。

3. 技術分析著重研究整體市場與個股內部計量的變動,而非市場外部環境的變 動。

4. 分析的時程著重在偵測短期的股價變動,而非長期的股價變動。

技術分析主張只要分析市場的交易資訊就足以增加獲利,在學術界的一些研 究也證實僅靠一些技術分析的方法做為買賣決策的依據確實能增加獲利(Levy 1967, Brock 1992, Sweeney 1986, 蔡斌仕 1995, 施惠萍 1999)。但也有一些研究 證實光靠技術指標並不能增加獲利(Fama & Blume 1966, James 1968, Corrado &

Lee 1992, Van & Parker 1967, 賴宏祺 1987, 陳建全 1988, 洪志豪 1988)。

(20)

2-1-2 基本面分析

基本分析假設公司股票本身具有其應有的價格水準,此即內涵價值(Intrinsic Value)的存在。因此利用統計的基礎,依據公司的查核報告、損益表、資產負債 表、股利發放記錄以及其他相關資訊,來評估管理人員的能力、未來銷售數量、

產能狀況及競爭情形。不僅如此,基本分析並根據利率和就業水準等總體經濟指 標,以及生產指數、產品價格等產業因素,仔細追蹤訪查企業管理當局,對公司 股價進行評估。若股票目前的價格明顯低於估計之內涵價值即視為買進訊號,若 股票目前的價格明顯高於估計之內涵價值即視為賣出訊號。

基本分析是從政治、經濟、金融、企管等方向去蒐集資料,加以綜合研判,

不但分析整個經濟情勢,景氣變動,產業結構變化,更進一步研究個別企業的業 績,獲利能力,管理效率,財務結構變化,股利政策,從而決定股票價值。

基本分析法與技術分析法最大的差異點在於,基本分析選擇買賣投資的『標 的股』, 技術分析則選擇最適當的買賣『時間點』。

2-1-3 消息面分析

消息面分析可算是一種輔助進行基本面分析與技術面分析的方法。前一小節 有提到,基本分析主要做為『擇股』的方法,技術分析主要做為『擇時』的方法。

而消息面分析是以市場上可獲得的所有消息、新聞等做為分析資料的來源,可供 投資者做為投資決策的參考,因此不但可以做為選擇股票的資訊來源,亦可做為 買賣時點的決策。但因消息面的資料來源大多是依靠新聞媒體與投資分析師的分 析報告,往往加入許多個人主觀的因素。且資料量過於龐大,其中包含的資訊又 是有時效性的,往往只有數天的影響力。造成投資者難以僅根據消息面的資料就 來進行投資決策,故僅能做為輔助投資決策的方法之一。

消息與消息之間有時會隱含著某種特殊的關聯,且這些消息間的關聯並不容

(21)

易由內文中看出,需要由相關產業的專業人士分析解讀。消息面的資訊具有太多 的不確定性,也是使得相關的研究不是那麼受到大家的重視。

2-2 關聯分析

關聯分析是在一堆看似無關聯的資料中去找到一些關聯性,可用來做貨品上 架的分析。最有名的例子莫過於尿布與啤酒的案例。全球最大的零售商沃爾瑪

(Walmart)透過對顧客購物的數據分析後發現,很多週末購買尿布的顧客也同 時購買啤酒。經過深入研究後發現,美國家庭買尿布的多是爸爸。爸爸們下班後 要到超市買尿布,同時也順便帶走啤酒,好在週末看棒球賽的同時暢飲啤酒,後 來沃爾瑪就把尿布和啤酒擺放得很近,從而雙雙促進了尿布和啤酒的銷售量。從 這個案例中,可以看到在資料中隱藏著很多用人腦無法找到的關聯。

關聯分析又稱為購物籃分析。行銷人員最困擾的一件事,常常是不知如何選 擇商品搭配組合來進行交叉銷售(Cross Sell)。在缺乏資料可供判斷狀況下,行 銷人員往往採用最原始的促銷方式─減價及折扣來吸引消費者。事實上,藉由 Data Mining 技術中之關聯規則(Association Rules)分析來分析顧客的交易明 細,便可得知顧客可能會同時購買哪些商品。利用這些暢銷商品組合規則,行銷 人員或公司之決策者便可制定更具吸引力之行銷企劃或企業經營規則,主動推薦 符合顧客興趣的產品,而不用落入削價的流血競爭中,更不會造成傳統行銷中盲 目推銷而導致顧客反感的問題。前述的尿布及啤酒搭配銷售這樣的協銷分析訊息 即是利用 Data Mining 的橫向關聯技術探勘而得。而尿布、啤酒、爸爸、週末下 班後、看棒球,這些人、事、時、地、物個別因子共同組成的一個過程被探勘出 來便是關聯規則發現。(葉怡成 2006)

關聯探勘可定義為:「給予一組記錄,每筆記錄登記了一些項目。找出一個 能夠以某些項目出現與否來預測其它項目出現與否的關聯規則。」

在零售業中,每次交易即是一筆記錄,每種購買的貨品便是一個項目。由於 在零售業條碼已被普遍使用,因此收集交易資料非常容易。例如

(22)

• 買了鐵錘、拔釘器的交易事件中,有 80%買了鐵釘,便是一條關聯規則:

{鐵錘,拔釘器}Î{鐵釘} 信賴度=0.80

• 修車廠需要零件 A、B 與 C 的修車事件中,有 60%也需零件 D 與 E,得關聯 規則:

{A,B,C}Î{D,E} 信賴度=0.60

這些項目不一定全是交易項目,也可以是交易的情境(時間、地點)。當買主 是持會員卡或信用卡時,項目也可以是顧客資料(年齡、性別、所得)。例如

• 一家發行會員卡的量販店從消費者過去的消費行為資料庫中發覺,在週五來 買啤酒的年輕男性顧客通常(65%)也會買一包嬰兒尿布。便是一條關聯規則:

{週五,年輕,男性,啤酒}Î{嬰兒尿布} 信賴度=0.65

因此,這家量販店在賣啤酒貨架旁放置了嬰兒尿布,這使得啤酒與嬰兒尿布 的銷售量都增加了。

• 信用卡公司可將一定期限內(如一個月內)發生的消費視為同一筆交易,發現 購買臥室傢俱的未婚且年齡介於25~35 歲的男性,有 45%也購買到觀光勝地 機票,得關聯規則:

{年輕,未婚,男性,臥室傢俱}Î{觀光勝地機票} 信賴度=0.45 因為這位男士可能剛結婚,此時正準備去蜜月旅行。

• 保險公司發現,年齡 55 歲以上,產業分類是 A,工作性質是 B,有 5%申請 了醫療理賠,得關聯規則:

{老年,產業 A,工作 B}Î{申請醫療理賠} 信賴度=0.05

因為產業A,工作 B 可能接觸有害物質,長期接觸使得被保險人健康受損。

為了方便舉例介紹關聯探勘的術語,假設五金行的資料庫中有如下交易:

(23)

表2-1 項目表 Item 名稱

1 鐵錘 2 鋸子 3 鐵釘 4 美工刀 5 拔釘器 6 強力膠 7 老虎鉗

表2-2 交易表 交易 Items 1 2 5 7 2 1 3 4 6 3 2 6 7 4 2 4 5 5 3 6 6 2 4 6 7 1 4 5 8 1 3 5 9 2 3 5 10 1 3 5 11 1 3 5 6 12 2 3 5 13 2 4 5 6 14 1 2 3 5 15 2 3

表2-3 交易二元表現矩陣

Items

交易 1 2 3 4 5 6 7 1 J J J 2 J J J J

3 J J J

4 J J J

5 J J

6 J J J 7 J J J 8 J J J 9 J J J 10 J J J 11 J J J J 12 J J J 13 J J J J 14 J J J J 15 J J

定義一:Support(支持率)

項目集出現的比率稱為Support。例如上述五金行資料庫中 Support(1)=6/15=0.40

Support(1,2)=1/15=0.07 Support(1,3,5)=4/15=0.27 Support(1,3,4,6)=1/15=0.07

定義二:Surprise(驚訝度)

項目集出現的比率除以各項目的比率稱為Surprise,大於 1.0 表示出現的次 頻率大於預期的頻率;反之,表示小於預期的頻率。公式如下:

( ) ( )

( )

/ ) (

( )

/ ) (

/

N B Support N

A Support

N B A Support B

A Surprise

= ∪

∪ (公式 2-1)

(24)

例如上述五金行資料庫中,因 Support(1,3,5)=4/15=0.27

Support(1)=6/15=0.40 Support(3)=9/15=0.60 Support(5)=9/15=0.60 故

Surprise(1,3,5)= 1.875

) 60 . 0 )(

60 . 0 )(

40 . 0 (

27 . 0 )

5 ( )

3 ( )

1 (

) 5 , 3 , 1

( = =

Support Support Support

Support

定義三:關聯規則

設Z 為一個集合,滿足 X∪Y=Z 且 X∩Y=φ之{X,Y}組合形成 XÎY 之關聯 規則。例如集合{1,3,5}可得下列六條關聯規則:

關聯規則1. {1}Î{3,5}

關聯規則2. {3}Î{1,5}

關聯規則3. {5}Î{1,3}

關聯規則4. {1,3}Î5 關聯規則5. {1,5}Î3 關聯規則6. {3,5}Î1

定義四:Confidence(信賴度)

在某些項目集出現下,其它某些項目集出現的比率稱為Confidence。即關聯 規則XÎY 的 Confidence(Y|X)公式如下:

( ) ( ( ) )

X Support

Y X Support X

Y

Confidence

= (公式 2-2)

例如上述五金行資料庫中集合{1,3,5}可得下列關聯規則:

規則{1}Î{3,5}的 Confidence(3,5|1)=Support(1,3,5)/Support(1)=(4/15)/(6/15)=4/6=0.67 規則{3}Î{1,5}的 Confidence(1,5|3)=Support(1,3,5)/Support(3)=(4/15)/(9/15)=4/9=0.44 規則{5}Î{1,3}的 Confidence(1,3|5)=Support(1,3,5)/Support(5)=(4/15)/(10/15)=4/10=0.40 規則{1,3}Î{5}的 Confidence(5|1,3)=Support(1,3,5)/Support(1,3)=(4/15)/(4/15)=4/4=1.00

(25)

規則{1,5}Î{3}的 Confidence(3|1,5)=Support(1,3,5)/Support(1,5)=(4/15)/(4/15)=4/4=1.00 規則{3,5}Î{1}的 Confidence(1|3,5)=Support(1,3,5)/Support(3,5)=(4/15)/(6/15)=4/6=0.67 又例如集合{2,3}可得下列關聯規則:

規則{2}Î{3}的 Confidence(3|2)=Support(2,3)/Support(2)=(4/15)/(9/15)=4/9=0.44 規則{3}Î{2}的 Confidence(2|3)=Support(2,3)/Support(3)=(4/15)/(9/15)=4/9=0.44

定義五:Lift(提升值)

一條好的關聯規則除了Confidence 要高外,也要考慮被關聯的集合之原來的 Support 的大小,即

( ) ( ( ) )

Y Support

X Y Confidence X

Y

Lift

|

= (公式 2-3)

Lift(Y|X)≥1.0 代表此聯想規則是有價值的聯想規則;反之,Lift(Y|X)≤ 1.0 代 表此是無價值的聯想規則。例如上述五金行資料庫中集合{1,3,5}可得下列關聯規 則:

規則{1}Î{3,5}的 Lift(3,5|1)=Confidence(3,5|1)/Support(3,5)=(4/6)/(6/15)=1.67 規則{3}Î{1,5}的 Lift(1,5|3)=Confidence(1,5|3)/Support(1,5)=(4/9)/(4/15)=1.67 規則{5}Î{1,3}的 Lift(1,3|5)=Confidence(1,3|5)/Support(1,3)=(4/10)/(4/15)=1.50 規則{1,3}Î{5}的 Lift(5|1,3)=Confidence(5|1,3)/Support(5)=(4/4)/(10/15)=1.50 規則{1,5}Î{3}的 Lift(3|1,5)=Confidence(3|1,5)/Support(3)=(4/4)/(9/15)=1.67 規則{3,5}Î{1}的 Lift(1|3,5)=Confidence(1|3,5)/Support(1)=(4/6)/(6/15)=1.67 又例如集合{2,3}可得下列關聯規則:

規則{2}Î{3}的 Lift({3}|{2})=Confidence({3}|{2})/Support({3})=(4/9)/(9/15)=0.74 規則{3}Î{2}的 Lift({2}|{3})=Confidence({2}|{3})/Support({2})=(4/9)/(9/15)=0.74

定義六:關聯分析 關聯分析是指

(1) 找出資料庫中所有大項目集(large itemset)。

(2) 找出大項目集(large itemset)的所有可信的關聯規則(association rule)。

大項目集(large itemset)是指 Support≥min_support 的項目集。可信的關聯規則是指

(26)

Confidence≥ min_confidence 的關聯規則。因此上述關聯分析的定義以數學式表達 為:「找出資料庫中所有Support≥min_support,且 Confidence≥ min_confidence 的 關聯規則。」

2-3 關聯分析與股市的投資分析

關聯探勘可找出從一些看似不相關,但卻存在某種特殊關聯的規則。因此有 學者將此方法應用在找出股價表現關聯上,例如:Yung 等人提出一有別於傳統 的關聯探勘演算法,用以探勘具有時間序列關係的交易資料,例如股市上市公司 收盤價資料隨著時間變化會有不同。利用修改過的FITI(First Intra Then Inter)

演算法,探勘出股市交易市場中如A 公司和 B 公司同一天上漲,則 C 公司有 X%

的機率在同一天上漲之關聯規則(Anthony K. H. Yung et al., 1999)。

股市的交易收盤價是屬於連續值資料,進行漲跌分析後,可獲得上漲與下跌 的百分比資料,若以此進行關聯探勘,必將耗費大量資源與時間去進行規則的挖 掘,勢必得將資料進行離散化,將漲跌百分比區分為數個區塊,因此Miller&

Yang(1997)提出了將分析的資料進行離散化後,再去進行關聯探勘,研究結果證 實此方法可以快速且有效的去挖掘出關聯規則。

Hongjun(1998)等人亦發現現行傳統的關聯探勘演算法無法挖掘出類似A公 司和B公司同一天上漲後,C公司會在之後某一天有X%的機會上漲。因此修改了 Apriori演算法,使之可以處理跨天數項目集的關聯規則問題,並將此演算法稱為 EH-Apriori。之後利用1996年新加坡股市每日收盤價的資料進行關聯探勘,並定 義當漲跌幅度超過3%才被分類為上漲或下跌,若不滿足3%的門檻值,則不進行 任何分類,亦即不考慮持平的問題,接著將上漲與下跌的資料分開進行關聯探 勘。結果顯示此方法確實可以從下跌類別與上漲類別中,分別找出有效的關聯規 則。因為上述EH-Apriori方法不將上漲與下跌的資料放在一起,因此並無法找出 如果同一天A公司上漲與B公司上漲,隔一天C公司會下跌這類型的關聯規則。

(27)

蕭正南(民 87)利用由 Han(1992)等人所提出的 AOI (Attribute-Oriented Induction)資料探勘的方法,先對所收集到的股票相關資料進行概念階層化,將 資料轉換成一株株的分類樹。接著再透過關聯規則搜尋方法把與股價漲跌有關的 規則找出來。再利用所蒐集到的資料和產生出來的規則配合,將未來可能的股價 的上下限找出,供投資人參考。並以電子類股中的光寶電子、聯華電子、宏碁電 腦、大眾電腦及台積電等五家作為實驗樣本,以此研究所提出的方法進行股價的 分析與預測,證實所找出的關聯規則能有效提升投資效益。

Wong(1999)等人提出將關聯規則視覺化的方法,包含了三維模式與線條模 式。三維模式中,將前項的項目與後項的項目分別置於X 軸與 Y 軸,Z 軸則放 置信賴度等資料,使用者可以很清楚明瞭的觀察每一條規則(圖 2-1,圖 2-2)。線 條模式中,以前項的項目建立一單向箭頭對應到後項的項目,例如圖2-3。若前 項或後項的項目超過一個以上,則如圖2-4 所示,共用同一條線條對應到後項。

圖2-1 三維模式:BÎC

(資料來源:Wong(1999))

圖2-2 三維模式:A+BÎC

(資料來源:Wong(1999))

圖2-3 線條模式:AÎC

(資料來源:Wong(1999))

C A

B

圖2-4 線條模式:A+BÎC

(資料來源:Wong(1999))

(28)

第三章 關聯分析在台灣股市消息面分析之應用

3-1 導論

競爭力策略大師麥可‧波特所提出的價值鏈模式及五力分析模式指出,從產 業整體來看,每一家上市公司都有其上游與下游公司,此外還有競爭公司與同盟 公司存在,這些公司的營運狀況都會影響到上市公司的營運。因此投資人在分析 一家公司與同盟公司的消息面資訊時,也必須分析相關公司的消息面資訊,才能 獲得全面與具有預測能力的資訊。

本研究將每一篇財經新聞定義為一筆『紀錄』,每筆紀錄中包含的上市公司 名稱為『項目』,有了這些資料後,關聯探勘可以找出隱含在這些資料中的關聯 規則。利用關聯規則可以幫助投資人建立產業關聯架構,以檢索相關新聞。例如 一位投資人手中擁有A 股票,如果關聯規則中存在 AÆB 或 BÆA,則 B 股票的 新聞也應該加以檢出供投資人分析。

本研究的目的是藉助資訊檢索技術來擷取財經新聞中的關鍵字(上市公司名 稱),透過關聯探勘找出上市公司間的關聯規則,利用關聯規則輔助投資者尋找 與其投資標的相關的財經新聞。

3-2 方法

本研究的進行步驟如下:

1. 建立新聞資料:自行開發專門搜尋網頁新聞資料庫中屬於財經類別的新聞之 系統,並將新聞資料存成文字檔。建立一完整的關鍵字集合,再透過資訊檢 索的技術,從收集到的財經新聞文字檔中的關鍵字抽取出來,讓每一則財經 新聞變成每一筆「交易」,且讓新聞中的關鍵字變成關聯探勘中的「項目」

集合,最後再將這些資料存放成資料探勘軟體可以處理的格式。

2. 建立關聯規則:根據收集的資料量大小,設定適當的關聯探勘參數,包括支 持度、信賴度。透過關聯探勘產生隱含在財經新聞中的關聯規則。

(29)

3. 分析關聯規則:分析這些關聯規則所隱含的上下游、競爭、同盟等產業關聯。

3-3 結果

本節根據前一節所提出的研究方法進行實驗,在收集完整資料後,以關聯探 勘找出財經新聞資料中的關聯規則。

3-3-1 建立新聞資料

網路電子新聞網站百家爭鳴,但多家新聞中心極有可能同時描述同一則財經 新聞,也許描述的語法不盡相同,但是描述的事件是相同的。若我們同時去收集 各家電子新聞來做資料分析的話,容易造成同一筆「交易」資料被重複描述多次,

造成資料分析結果出現錯誤。因此本研究採用同一家電子新聞做為收集的標的。

本研究將台灣證券交易所內所有『上市』公司名稱全部設定為擷取的關鍵 字。根據台灣證劵交易所提供的資料一共有715 家公司,亦即任何一筆『交易』

都是此715 個關鍵字的子集合。例如圖 3-1 的新聞產生一筆「交易」:「友達、奇 美、彩晶、華映、廣輝」。此新聞旨在分析面板產業的產業趨勢,因此新聞中出 現「面板五虎」是合理的。

圖3-1 財經新聞紀錄範例

(30)

本研究將財經新聞資料來源鎖定在中時理財網的財經類別即時新聞。資料收 集期間從2005/8/14 到 2005/9/13,共有 8394 篇新聞,其中有 4445 篇新聞包含此 文所定義的上市公司名關鍵字,且每則新聞平均包含3.08 個關鍵字。換言之,

本研究資料集一共包含4445 筆「交易」,平均每筆交易內包含了3.08 個「項目」。

以下表3-1 列出部分比對結果與存放格式。

表3-1 關鍵字比對新聞資料後之結果(部分) 交易編號 項目

200508140156 2605 新興 200508140234 2432 倚天 200508140245 2009 第一銅 200508140245 2526 大陸 200508150445 2002 中鋼 200508150445 2856 元富證 200508150448 2107 厚生 200508150460 9937 全國 200508150462 1315 達新 200508150464 1303 南亞 200508150464 2303 聯電 200508150464 2330 台積電 200508150464 2342 茂矽 200508150464 2494 突破

(31)

3-3-2 建立關聯規則

根據第3-2 節描述的關聯探勘參數,在此進行參數調整,以找出較適合的參 數。因此我們將信賴度固定為60%,接著調整支持度與頻集的最大項目數,得到 圖3-2 之結果。發現產生的頻集的項目數最多為 4 個。因此,此項參數宜設定為 4,以減少不必要的運算時間。

圖3-2 最大項目數與支持度變化產生關聯規則數量表

其次將「最大項目集內項目數」固定為四項,接著調整支持度與信賴度得圖 3-3 之結果,並比對測試最大項目數與支持度變化產生關聯規則數量之結果,確 定實驗數據並無發生錯誤。

頻集的最大項目數

0 50 100 150 200 250

25 26 27 28 29 30 31 32 Support 值

規則數

3 項 4 項 5 項 6 項 7 項

(註:4、5、6、7 項線條重複)

(32)

信賴度

0 50 100 150 200 250 300 350 400

25 26 27 28 29 30 31 32

Support值

規則數

30%

40%

50%

60%

70%

80%

90%

圖3-3 信賴度與支持度變化產生關聯規則數量表

由圖3-2 與圖 3-3 可知,為了得到適當數目的關聯規則,本研究決定採用下 列參數:信賴度=60%,最大項目集內項目數=4 項,支持度=27。根據以上參 數設定,進行關聯探勘得到147 條關聯規則(見附錄 A)。

3-3-3 分析關聯規則

以表3-2 之『友達、廣輝、華映』三個項目組成的頻集(Large Itemset)為例,

其支持度為37,驚訝度為 223.85,一共產生兩組關聯規則:

z 『2409 友達,2475 華映Î3012 廣輝』,信賴度為 0.607,表示新聞資料中,

友達與華映一起出現討論時,也同時提到廣輝的比例有60.7%。

z 『廣輝,華映Î友達』,信賴度為0.698,表示新聞資料中,廣輝與華映一起 出現討論時,也同時提到友達的比例有69.8%。

而此兩條規則所提到的三家公司,皆為市場上著名的液晶面板生產大廠,其 在財經新聞上被提出來討論的資訊,很可能是關係著彼此之間競爭的消息,或是 此一產業最近的發展狀況,因此會被常常拿出來進行比較是很合理的。

(33)

表3-2 友達、廣輝和華映之關聯規則

Associations Support Confidence Surprise 2409 友達; 3012 廣輝; 2475 華映 37 223.85

99 2409 友達; 2475 華映 Î 3012 廣輝 0.607 100 3012 廣輝; 2475 華映 Î 2409 友達 0.698

以表3-3 之『豐興、東鋼』的頻集為例,其支持度為 43,驚訝度為 55.9,產 生的關聯規則有兩條:

z 『東鋼Î豐興』,信賴度為0.717,表示在新聞資料中,當提到東鋼時,也會 一起提到豐興的新聞比例有71.7%。

z 『豐興Î東鋼』,信賴度為0.754,表示當新聞內容提到豐興時,也一併提到 東鋼的新聞消息有75.4%。

而此兩家公司皆為上市的鋼鐵公司,其所生產的產品皆為鋼筋、型鋼和圓鋼 等產品,在市場上屬於競爭對立的公司。因此觀察彼此的新聞消息,可幫助投資 者更加了解此產業的近況和比較此兩家公司的營運狀況。

表3-3 豐興和東鋼之關聯規則

Associations Support Confidence Surprise 2015 豐興; 2006 東鋼 43 55.9

21 2006 東鋼 Î 2015 豐興 0.717 22 2015 豐興 Î 2006 東鋼 0.754

以表3-4 之『鴻準、鴻海、廣宇』的頻集為例,其支持度為 34,驚訝度為 1061,所產生的關聯規則有四條:

z 『鴻海、廣宇Î鴻準』:信賴度為 1,表示所有新聞中只要提到鴻海與廣宇 的,必然也會同時提到鴻準,其機率為百分之百。

(34)

z 『鴻準、廣宇Î鴻海』:信賴度為 1,表示當新聞資料中只要同時提到鴻準 與廣宇的消息,也一定會同時一併提到鴻海。

z 『鴻準、鴻海Î廣宇』:信賴度為0.618,表示當新聞中出現鴻準與鴻海的字 眼時,有61.8%的機率會同時提到廣宇。

z 『廣宇Î鴻準、鴻海』:其信賴度為0.994,表示新聞資料中出現廣宇的新聞,

有99.4%的機會會同時出現鴻準與鴻海的消息。

此組頻集產生的關聯規則之信賴度都蠻高的,而去查詢其公司基本資料時,

可以發現『鴻海』為『鴻準』、『廣宇』這兩家公司的母公司。因為存在著此一子 公司與母公司的關係,因此在財經新聞中才會發現這三家公司同時出現的次數如 此高。

表3-4 鴻準、鴻海和廣宇之關聯規則

Associations Support Confidence Surprise 2354 鴻準; 2317 鴻海; 2328 廣宇 34 1061

92 2317 鴻海; 2328 廣宇 Î 2354 鴻準 1 93 2354 鴻準; 2328 廣宇 Î 2317 鴻海 1 94 2354 鴻準; 2317 鴻海 Î 2328 廣宇 0.618 95 2328 廣宇 Î 2354 鴻準; 2317 鴻海 0.944

表3-5 的七組頻集內所包含的公司正好都是台灣液晶面板產業中所謂的『面 板五虎』,即前五大生產公司。此結果可以輔證以關聯探勘分析財經新聞資料可 以有效建立產業關聯架構,幫助投資者更加了解整個產業的關聯,不至於忽略掉 重要的相關財經新聞。

(35)

表3-5 液晶面板業之關聯規則

Associations Support Confidence Surprise

2409 友達; 3009 奇美電 75 15.35

19 3009 奇美電 Î 2409 友達 0.773

6116 彩晶; 2475 華映 39 27.87

20 6116 彩晶 Î 2475 華映 0.639

2409 友達; 3009 奇美電; 3012 廣輝 39 248.11 96 3009 奇美電; 3012 廣輝 Î 2409 友達 0.886

2409 友達; 3009 奇美電; 2475 華映 38 338.92 97 3009 奇美電; 2475 華映 Î 2409 友達 0.864

98 2409 友達; 2475 華映 Î 3009 奇美電 0.623

2409 友達; 3012 廣輝; 2475 華映 37 223.85

99 2409 友達; 2475 華映 Î 3012 廣輝 0.607

100 3012 廣輝; 2475 華映 Î 2409 友達 0.698

6116 彩晶; 3012 廣輝; 2475 華映 29 644.27

101 6116 彩晶; 2475 華映 Î 3012 廣輝 0.744

102 6116 彩晶; 3012 廣輝 Î 2475 華映 0.806

3009 奇美電; 3012 廣輝; 2475 華映 27 377.22 103 3009 奇美電; 3012 廣輝 Î 2475 華映 0.614 104 3009 奇美電; 2475 華映 Î 3012 廣輝 0.614

表3-6 的二組頻集內所包含的公司正好都屬於光學鏡頭產業,一共包含了三 家公司『亞光、大立光、今國光』。這些公司都是生產數位相機、手機照相機等 光學鏡頭的領導廠商,彼此之間互為競爭對手。且根據國際數據資訊公司(IDC) 的資料顯示(表 3-7),自 2004 年以來,每年的手機出貨量持續上升,照相手機的 比例也逐年上升。如此熱門的產業必然受到財經新聞撰稿人的注目,因此非常容 易的就能產生關聯規則。

(36)

表3-6 光學鏡頭業之關聯規則

Associations Support Confidence Surprise 3019 亞光; 3008 大立光 30 20.34

12 3019 亞光 Î 3008 大立光 0.682 3008 大立光; 6209 今國光 28 27.85 27 6209 今國光 Î 3008 大立光 0.933

表3-7 手機出貨預估圖

單位:百萬支 2004 2005 2006 2007 2008 2009

手機出貨量 707 800 860 900 950 1000 照相手機出貨量 225 365 475 600 780 910

照相手機比例 31.81% 45.53% 55.37% 66.67% 82.28% 91.16%

資料來源:國際數據資料公司(IDC)Dec. 2005

受惠於2005 年房地產業景氣看好,營建商紛紛推案搶攻房市市場,因此市 場普遍看好營建商在股價上的表現。表3-8 中所列的四家『宏盛、華固、興富發、

皇翔』營建公司的主要的建案都分布在北台灣。因此在房地產景氣好轉時,這些 營建公司自然受到股市分析師與媒體的注目,進而形成這些關聯規則。

表3-8 營建業之關聯規則

Associations Support Confidence Surprise 2534 宏盛; 2548 華固 0.0058 50.39

18 2534 宏盛 Î 2548 華固 0.839 2548 華固; 2542 興富發 0.0058 47.34 20 2542 興富發 Î 2548 華固 0.788

2548 華固; 2545 皇翔 0.0061 50.69 21 2545 皇翔 Î 2548 華固 0.844

(37)

3-4 關聯規則與產業結構之關係—關聯圖之應用

為了幫助投資者了解產業中各公司的上下游關係,與公司間的同盟、競爭關 係,以對投資標的之產業關聯有整體的了解,本研究提出根據關聯規則建立產業 關聯圖的方法:

(1) 位於關聯規則同一側的項目(公司)以虛線連接。

(2) 存在於規則兩側的項目(公司),則以帶有方向的箭線表示關聯性存在。

圖3-4 為由關聯規則產生的關聯圖,圖中的『長榮航、華航』兩家公司為台 灣的前兩大航空公司,不論是在航線、營運路線等皆有相似的情形,因此屬於市 場上的競爭者關係。因此得知此兩家公司的營業狀況,可以使投資者更容易進行 投資決策。

圖3-4 長榮航、華航之關聯圖

英業達與仁寶是筆記型電腦代工業相當著名的兩家公司,常常可從新聞上觀 察到互相爭取國外大廠釋放出來的代工訂單,並藉此代工訂單來獲得大量的利 潤,吸引投資者的資金以拉高股價,提升公司的能量。而我們可以從圖3-5 的關 聯圖發現,當新聞中提到英業達時,常常也會同時提到仁寶,可見此關聯圖與產 業的結構有很高的相似度。

(38)

圖3-5 英業達、仁寶之關聯圖

從產生出來的關聯圖中,可以發現圖3-6 的內容剛好皆為金融公司,包含玉 山金、台企銀、彰銀、中信金和農銀等五家金融公司。以產業結構的觀點來看,

藉由關聯規則所產生的關聯圖確實可以對照到部份產業結構,使對於產業結構不 甚了解的投資者可以有參考的依據。而若從投資角度來看,若投資者的投資標的 屬於關聯圖中的某一項,則其他與其產生關聯的項目應該都是具有參考價值的資 訊。投資者可以從中去找尋相關的財經新聞,了解與自身投資標的有關聯的財經 新聞,以便做出最完善的投資決策。

圖3-6 金融機構之關聯圖

(39)

圖3-7 為液晶面板業所形成的關聯圖,包含有『奇美電、華映、廣輝、友達 與彩晶』。從圖形內容來看,這五家公司不僅僅是市場上強力的競爭對手,更是 股市分析師與媒體特別喜歡拿來比較的話題,才會形成彼此互連的情況,更讓市 場人士將此五家公司稱為台灣的『面板五虎』。而在觀察到如此強烈的關聯圖,

投資者更應該去仔細的解讀其是否隱含了什麼訊息,包含其產業的競爭與整體產 業的發展,是否會影響到這些公司的獲利與股價的表現。

圖3-7 液晶面板業之關聯圖

前一節提到了2005 年的房地市場景氣復甦,因此我們將此部份的關聯圖給 繪製出來,一共包含了『興富發、華固、宏盛與皇翔』等四家公司。而華固在此 關聯圖的角色剛好都是被指向的,也就是說,華固在關聯規則中都出現在右側。

觀察其股市表現,發現華固公司在股價上屬於營建類股的高價股,價格均高於其 它三家公司。因此媒體再進行投資分析比較時,常把華固拿來做比較,故其出現 的方式往往是伴隨出現,而非主要的討論角色。

(40)

圖3-8 營建業之關聯圖

主要生產數位相機與照相手機的光學鏡頭廠商,也在關聯圖中自成一格,一 共出現了三家廠商『亞光、大立光與今國光』。這三家廠商也是此行業的領導廠 商,因此在媒體進行投資分析比較時,常常會拿出來一起進行比較,也因為如此,

才會產生出關聯規則來。

圖3-9 光學鏡頭產業之關聯圖

下圖3-10 為依據關聯規則繪出的局部關聯圖,經由關聯規則前項與後項的 聯接,可將不同產業的公司以關聯圖呈現出來。圖中就可發現有包括呈現競爭關 係的IC 晶片設計業中的矽統、威盛和聯發科等三家公司。還有子母公司關係的 鴻海、廣宇和鴻準等三家公司;尚有其他因討論股價或其他資訊等間接關係而形 成的關聯也一併被繪製出來。

(41)

圖3-10 局部關聯圖

以下圖3-11 與圖 3-12 為本研究中所繪製而成的關聯圖,包含了 147 條關聯 規則所形成的所有關聯圖。繪製軟體相關資訊如下:

1. 使用軟體:微軟 SQL Server 2005 之關聯分析相依圖檢示功能。

2. 設定參數:支持度為 27,信賴度為 50%。

3. 繪圖原則:因 SQL Server2005 無法產生後項超過一項以上的規則,因此整 體圖與前文所提的關聯圖稍有差異。圖中箭頭左側為關聯規則前項項目,箭 頭右側為關聯規則後項項目。

晶片設計

晶片設計

晶片設計

鋁鎂合金 外殼

手機製造 連接線材

連接器

連接器 連接器

3C 代工 晶片設計

3C 代工

(42)

圖3-11 整體關聯圖(1/2)

(註:因手機製造業、3C 代工業與電腦系統業繪圖時相距過遠,且線條複雜,故不將此三產業圈出來)

光學鏡頭與像機業 IC晶片設計 鎂鋁合金外殼

手機製造 IC晶片設計

驅動IC

營建業 連接器業

連接線材

3C代工 3C代工

電腦系統 電腦系統手機製造

(43)

圖3-12 整體關聯圖(2/2)

金融業 NB代工 汽車零件

液晶面板鋼鐵業 航空運輸橡膠輪胎 自行車業

百貨業

IC通路磊晶業 LED

MLCC

(44)

3-5 結論

關聯探勘為近年來開始盛行的一種資料探勘工具,其主要的目的是希望從龐 大的資料庫當中,搜尋出使人感興趣的規則或是某種相互的關係。最常應用在分 析顧客歷史交易資料,找出顧客消費的習慣,使廠商能利用這些消費規則增加銷 售量。本研究則是將每一篇財經新聞視為一筆交易紀錄,每一家上市公司名則為 交易紀錄中的項目。經過關聯探勘找出符合我們參數設定的關聯規則,一共產生 147 條關聯規則。經由分析比對後發現規則中陳述的關係主要分為兩大類:

1. 產業關係:此一關係又區分為競爭關係與同盟關係。關聯規則中的公司存在 著競爭關係,例如上一節所列的『液晶面板』類股所形成的關聯規則,彼此 營運的項目相似,因此常常被財經記者與分析師同時提出,故形成競爭性的 關聯規則。同盟關係為規則中的公司為子母公司,例如表3-4 中『鴻海、鴻 準、廣宇』三家公司所產生的關聯規則,鴻準與廣宇皆為鴻海因產業分工所 轉投資成立之子公司,故形成同盟性的關聯規則。

2. 巧合關係:此部分的關聯規則多是因財經分析師在分析股價時,常把如高股 價個股、近期熱門股票等一並陳述所形成的,因此會發現規則中的公司營運 項目差異頗高。例如生產PDA 手機的『宏達電』與經營 IC 晶片設計的『聯 發科』會產生關聯,是因此兩家上市公司股票皆為市場上的高價股,且表現 良好,因此不論外資或本土投資公司都常常將其並列討論。且因屬於高價股 的關係,因此『股王』的問題也就常常的被拿出來討論,所以常可在同一篇 新聞中見到此兩家公司同時被提到,故形成巧合性的關聯規則。

(45)

第四章 關聯分析在台灣股市技術面分析之應用

4-1 導論

技術面分析的意義在於提供量化的指標,提供投資者投資趨勢的參考。本研 究以關聯分析應用在台灣股市技術面分析上,試圖從股價漲跌上去找出台灣上市 公司的產業關聯性,並可提供投資者投資的趨勢,來幫助投資者從這些關聯規則 中去輔助進行投資的決策。

4-2 方法

本研究的進行步驟如下:

1. 建立漲跌資料:以台灣證劵交易所公佈的上市公司股價之每日收盤價作為分 析資料,並將此資料存成一矩陣表格。以適當的漲跌幅度作為參數,將所收 集的資料進行轉換,以建立一包含每日哪些漲或跌之個股資料表,並整理成 適當之格式。

2. 建立關聯規則:根據所收集的資料量大小,設定適當的關聯探勘參數,包含 支持度、信賴度。透過關聯探勘產生隱含在漲跌資料中的關聯規則。

3. 分析關聯規則:分析所產生的關聯規則中所隱含的上下游、競爭、同盟等產 業關聯。

4-3 結果

本節根據前一節所提出的研究方法進行實驗,在收集完整資料後,以關聯探 勘找出股價資料中所隱含的關聯規則。

4-3-1 建立漲跌資料

技術面分析中所使用的資料大多與股價相關,而觀察一家公司營運的趨勢,

(46)

最容易使用的資料即為其每日收盤價之漲跌。因此我們在此收集台灣證卷交易所 內所有上市公司的原始股價資料,收集的時間範圍為2005 年全年度每日收盤 價,並將其存成如表4-1 所示之表格。而由所收集的資料顯示,2005 年一共有 246 個交易日。

表4-1 原始股價資料表(部分示意圖)

代號 名稱 2005/1/3 2005/1/4 2005/1/5 2005/1/6 2005/1/7 2005/1/10 2005/1/11

1101 台泥 21.4 21.1 21 20.8 20 20.7 20.8

1102 亞泥 22.7 22.2 21.9 21.8 21.4 21.6 22

1103 嘉泥 15.7 15.5 15.4 15.3 14.75 15 14.9

1104 環泥 13.2 12.8 12.7 12.85 12.9 12.8 12.95

1108 幸福 9.75 9.65 9.4 9.35 9.3 9.55 9.5

1109 信大 10.9 10.75 10.55 10.9 11 11 10.8

1110 東泥 9.2 9.05 8.85 8.8 8.7 8.8 8.85

1201 味全 12.75 12.4 12.1 12.05 11.9 11.9 12

1203 味王 12.5 12.4 11.8 11.9 11.75 11.7 11.65

1204 津津 4.26 4.28 4.2 4.25 4.08 4.02 4.15

1207 嘉食化 4.7 4.95 4.64 4.68 4.5 4.43 4.45

1210 大成 8.65 8.45 8.35 8.35 8.2 8.2 8.25

在獲得原始股價資料後,接著決定每日之漲跌門檻,做為當日屬於漲或跌的 依據。原則上希望能達到每家公司平均一年出現25%左右屬於上漲及下跌。實驗 過後所得數據如表4-2,由此可知,漲跌門檻以 1%較為適宜,此門檻可使每家 公司平均一年出現上漲的次數為56.6 次(23%),下跌的次數為 64.1 次(26%),持 平的次數為120.3 次(51%)。

(47)

表4-2 漲跌幅與項目數比較

漲跌幅(%) ±0 ±0.5 ±1 ±1.5 ±2

平均上漲數目 99.7 78.7 56.6 41.9 31.5 平均下跌數目 111.6 89.5 64.1 45.1 32

持平數目 29.9 72.9 120.3 154.0 177.5 上漲出現比例 41% 32% 23% 17% 13%

下跌出現比例 45% 36% 26% 18% 13%

當一天之中有超過50%的上市公司皆超過我們所設定的漲跌幅時,很可能是 由其它外在的重大利空、利多衝擊造成的。為了降低此因素影響關聯規則的正確 性,我們將當日上漲與下跌的股票總和超過所有股票總數一半的資料刪除,資料 的筆數因此由246 筆減少為 218 筆。

4-3-2 建立關聯規則

根據第4-2 節描述的關聯探勘參數,進行初步的實驗來找出最適當的參數。

首先我們先將信賴度固定為60%,接著調整支持度與頻集內的最大項目數,藉此 來找出參數最適宜的設定值。所得的結果如圖4-1 與表 4-3 之結果,並從中發現,

當頻集內最大項目個數設定超過4 以上,所得到的結果均與設定為 4 相符合。也 就是說,產生的頻集的項目數最多為4 個。因此,將頻集內最大項目個數設定為 4,接著進行下一個實驗。

(48)

圖4-1 最大項目數與支持度變化產生關聯規則數量圖

表4-3 最大項目數與支持度變化產生關聯規則數量表 項目數

支持度

3 項 4 項 5 項 6 項 7 項

18 149 168 168 168 168 19 99 109 109 109 109 20 67 67 67 67 67 21 47 47 47 47 47 22 32 32 32 32 32 23 26 26 26 26 26

在此設定項目集內最大項目數為4,去調整支持度與信賴度,以期獲得適當 數量的關聯規則供使用者進行分析。由圖4-2 與表 4-4 可知,當支持度設定為 18,

信賴度設定為60%時,可以獲得 168 條關聯規則。此數量是洽當的,且信賴度也 相當高,因此後續將以此參數設定進行關聯探勘。根據上述參數設定,進行關聯 探勘得到168 條關聯規則(見附錄 B)。

頻集的最大項目數

0 50 100 150 200

18 19 20 21 22 23 Support 值

規則數

3 項 4 項 5 項 6 項 7 項

(註:4、5、6、7 項線條重複)

(49)

信賴度

0 100 200 300 400 500 600

18 19 20 21 22 23

Support值

規則數

50%

60%

70%

80%

90%

圖4-2 信賴度與支持度變化產生關聯規則數量圖

表4-4 信賴度與支持度變化產生關聯規則數量表 信賴度

支持度

50% 60% 70% 80% 90%

18 537 168 82 40 18

19 388 109 54 25 11

20 278 67 26 12 3 21 212 47 18 6 2 22 155 32 13 3 1 23 127 26 10 3 1

4-3-3 分析關聯規則

表4-5 為頻集『國碩跌、利碟跌、精碟跌』所產生的關聯規則。此頻集的支 持度為20,驚訝度為 11.3,一共產生三組關聯規則。分別為

z 『利碟跌,精碟跌Î國碩跌』,信賴度為 0.87,表示當股票市場發生利碟和 精碟同時下跌,則有87%國碩也會一併下跌。

(50)

z 『國碩跌,精碟跌Î利碟跌』,信賴度為0.769,表示當國碩與精碟同時下跌 時,利碟有76.9%的機率會一起下跌。

z 『國碩跌,利碟跌Î精碟跌』,信賴度為0.833,表當國碩和利碟同一天下跌 時,精碟也會在同一天下跌的機率有83.3%。

此頻集中三家上市公司皆為光碟片生產廠商,其所產生的關聯皆為發生同時 下跌。在同業的競爭下,可能發生的情況有四種:

第一種情況:甲廠商有獲得大筆訂單的利多消息,股價上漲;其他廠商則因 沒搶到訂單,造成市場看空,股價下跌。

第二種情況:整體產業前景看好,投資者看好此一產業,造成此產業的股票 同時上漲。

第三種情況:整體產業景氣低迷,投資者不看好此一產業,造成此產業的股 價同時下跌。

第四種情況:彼此雖然為競爭同業,但是彼此客戶群穩定,生產能力也不足 以吃下整個市場,此時彼此的股價並沒有明顯的互相影響。

因為在資料期間,光碟片生產的利潤過低,擁有智財的公司索取過高的權利 金,導致光碟片產業股價下滑,因此產生此組頻集甚為合理。

表4-5 國碩跌、利碟跌和精碟跌之關聯規則

Associations Support Confidence Surprise

2406 國碩 DOWN; 2443 利碟 DOWN; 2396 精碟 DOWN 20 11.3 104 2443 利碟 DOWN; 2396 精碟 DOWN Î 2406 國碩 DOWN 0.87 105 2406 國碩 DOWN; 2396 精碟 DOWN Î 2443 利碟 DOWN 0.769 106 2406 國碩 DOWN; 2443 利碟 DOWN Î 2396 精碟 DOWN 0.833

表4-6 為頻集『威致漲、志聯漲、燁興漲』所產生的關聯規則。一共有下列 四組關聯規則產生:

(51)

z 『威致漲,燁興漲Î志聯漲』,信賴度為 1,亦即當威致與燁興同時漲幅超 過1%時,志聯也會同時漲超過 1%的機率是 100%。

z 『威致漲,志聯漲Î燁興漲』,信賴度是0.864,表示當威致與燁興同一天上 漲,則有86.4%的機率燁興會同時上漲。

z 『志聯漲,燁興漲Î威致漲』,信賴度是 0.792,則當志聯與燁興同時上漲,

威致有79.2%的機率會同時上漲。

z 『威致漲Î志聯漲,燁興漲』,信賴度是0.633,表示當威致上漲時,志聯與 燁興有63.3%的機會也會同時一起上漲。

此組頻集內的公司都是屬於鋼鐵業。在2005 年,鋼價大漲,此一產業股票 紛紛上漲,因此產生這組關聯規則。因為如能根據關聯規則顯示的資訊來得知某 些產業的趨勢,對投資的決策有相當大的幫助,因此這類的關聯規則對於投資者 也是相當重要的。

表4-6 威致漲、志聯漲和燁興漲之關聯規則

Associations Support Confidence Surprise 2028 威致 UP; 2024 志聯 UP; 2007 燁興 UP 19 26.8

132 2028 威致 UP; 2007 燁興 UP Î 2024 志聯 UP 1 133 2028 威致 UP; 2024 志聯 UP Î 2007 燁興 UP 0.864 134 2024 志聯 UP; 2007 燁興 UP Î 2028 威致 UP 0.792 135 2028 威致 UP Î 2024 志聯 UP; 2007 燁興 UP 0.633

所產生的關聯規則中,也有一些比較特殊的例子。例如表4-7,其頻集為『清 三漲、欣錩跌』,支持度為27,驚訝度為 2.22,產生的關聯規則為『欣錩跌Î清 三漲』,信賴度為0.6。也就是說,當清三的股價上漲時,有 60%的機會欣錩會下 跌。而欣錩所經營的是傢俱類的傳統產業,清三則為經營印刷電路板的電子業,

卻產生了一漲一跌的關聯規則。雖然信賴度恰為60%符合門檻值,但去搜尋與此

(52)

兩家公司相關的資訊時發現,欣錩在2005 年因為擴張過快,導致虧損連連,接 連跳票導致股價狂跌;而電子業的清三在同時期的表現不錯,剛好持續上漲了一 段期間,因此產生此一關聯規則。但這與產業結構並無太大的關係,僅是恰好發 生而已。

表4-7 清三漲和欣錩跌之關聯規則

Associations Support Confidence Surprise 2335 清三 UP; 9936 欣錩 DOWN 27 2.22

11 9936 欣錩 DOWN Î 2335 清三 UP 0.6

表4-8 是將頻集屬於『液晶面板業』的挑出,一共有三組頻集,其中僅缺少

『彩晶』這家公司,就剛好是『面板五虎』了。而這三組頻集所產生的五條關聯 規則前項與後項皆為上漲的狀態,可以得知在面板產業上,這四家公司在股價上 漲方面是相當一致的。投資者在進行投資行為時,就可以參考此一關聯規則來進 行決策。

表4-8 面板產業之關聯規則

Associations Support Confidence Surprise 3009 奇美電 UP; 3012 廣輝 UP 20 4.13

12 3012 廣輝 UP Î 3009 奇美電 UP 0.625 13 3009 奇美電 UP Î 3012 廣輝 UP 0.606

3009 奇美電 UP; 2409 友達 UP 19 4.48 14 2409 友達 UP Î 3009 奇美電 UP 0.679

3012 廣輝 UP; 2475 華映 UP 20 4.7 17 2475 華映 UP Î 3012 廣輝 UP 0.69 18 3012 廣輝 UP Î 2475 華映 UP 0.625

(53)

此部份的關聯規則與表3-5 皆為液晶面板產業所形成的關聯規則。以新聞資 料建立的關聯規則一共有7 組頻集,11 條關聯規則;而以股市漲跌資料建立的 關聯規則一共有3 組頻集,5 條關聯規則。這 10 組頻集中,唯一的差異是彩晶 公司並沒有出現在以股市漲跌資料建立的關聯規則中。原因可能是彩晶公司的股 價原本就較另外面板四虎來得低,雖然被一起統稱為台灣面板五虎,但是實際上 在競爭能力確實稍微落後其它四家公司。因此在以股市漲跌資料作為關聯分析來 源時,就不容易出現與其它四家公司有相同的上漲表現。

表4-9 為光學鏡頭業所產生之關聯規則。此兩組頻集中包含了『大立光、亞 光、今國光』等三家公司,此三家公司皆為此產業的領導廠商。且因2005 年的 數位相機與照相手機使用的光學鏡頭需求大增,因此相關的產業皆呈現蓬勃發展 的趨勢,股價的表現也相當的理想。因此產生同漲的關聯規則。

表4-9 光學鏡頭業之關聯規則

Associations Support Confidence Surprise 3008 大立光 UP; 3019 亞光 UP 22 2.77

15 3019 亞光 UP Î 3008 大立光 UP 0.647 3019 亞光 UP; 6209 今國光 UP 21 3.64 19 3019 亞光 UP Î 6209 今國光 UP 0.618

表4-9 與第三章使用財經新聞建立的關聯規則表 3-6 極為相似,所包含的項 目皆為大立光、亞光與今國光。而這三家公司為光學鏡頭產業的領導廠商,不僅 僅在新聞媒體上常被同時提到,更可以在股價的表現上看出產業類股同漲的趨 勢,也符合股市分析師以產業類股來預測其中個股未來股價的趨勢的作法。而此 部分的結果並沒有顯示出同跌的情況,可能是因為此一產業當時前景看好,故同 時上漲的情形容易發生,而同時下跌的情形則不容易發生。

為了與前面的章節做一比較,故將包含營造業的頻集找出來。一共有如表

(54)

4-10 所示的四組頻集,包含了達欣工、春池、冠德、國揚、華固、宏盛、皇翔等 七家公司。這些頻集產生了兩組同跌的與兩組同漲的關聯規則。在同一個產業中 包含了不同的公司所產生的漲跌關聯規則,表示在此產業中或許隱含了某些不為 人知的關聯,例如集團子母公司、強烈對立的競爭對手等關係。

在第三章中,以新聞資料建立的關聯規則可以找到的營建業公司共有『宏 盛、華固、興富發、皇翔』等四家;而本節所找到的規則中則出現了『達欣工、

春池、冠德、國揚、華固、宏盛、皇翔』等七家公司。也就是說,採用股市漲跌 資料做為關聯分析的資料來源時,更加容易找到所謂的產業關係。同一個產業的 股市表現,往往會跟同業公司表現類似。當整個產業表現不理想時,往往會同時 一起下跌;而若整個產業景氣好轉時,則常常會同時上漲。而在使用財經新聞時,

有時會受到股市分析師或媒體個人主觀的意見影響,使得某些較小型或不出名的 公司無法受到媒體的青睞,因此不容易出現在頻集中,自然也不會出現在關聯規 則中。

表4-10 營造業之關聯規則

Associations Support Confidence Surprise 2535 達欣工 DOWN; 2537 春池 DOWN 20 1.98 1 2535 達欣工 DOWN Î 2537 春池 DOWN 0.645

2520 冠德 DOWN; 2505 國揚 DOWN 18 2.85 6 2520 冠德 DOWN Î 2505 國揚 DOWN 0.667

2548 華固 UP; 2534 宏盛 UP 18 3.87 21 2548 華固 UP Î 2534 宏盛 UP 0.621

2545 皇翔 UP; 2534 宏盛 UP 18 4.31 31 2545 皇翔 UP Î 2534 宏盛 UP 0.692

4-4 關聯規則與產業結構之關係-關聯圖之應用

為了讓投資者能較清楚的瞭解關聯規則中產業的關聯性,此節以前面3-4 節 提出的繪製關聯圖方法來繪製本章所產生的168 條關聯規則。

參考文獻

相關文件

One, the response speed of stock return for the companies with high revenue growth rate is leading to the response speed of stock return the companies with

The above information is for discussion and reference only and should not be treated as investment

 Warrants are an instrument which gives investors the right – but not the obligation – to buy or sell the underlying assets at a pre- set price on or before a specified date.

• When a call is exercised, the holder pays the strike price in exchange for the stock.. • When a put is exercised, the holder receives from the writer the strike price in exchange

• When a call is exercised, the holder pays the strike price in exchange for the stock.. • When a put is exercised, the holder receives from the writer the strike price in exchange

This thesis applied Q-learning algorithm of reinforcement learning to improve a simple intra-day trading system of Taiwan stock index future. We simulate the performance

The one we saw earlier (p. 305) models the stock price minus the present value of the anticipated dividends as following geometric Brownian motion.. One can also model the stock

• Delta hedge is based on the first-order approximation to changes in the derivative price, ∆f , due to changes in the stock price, ∆S.. • When ∆S is not small, the