研究設計理念 - G[ h EQG ~ C M09002041 ciq t OGTu{thZ mWG An Incremental Data Mining Algorithm Based O

本研究以 STD 為基礎，配合漸進式的資料探勘原理，建構一個運用在門診資料上的漸進式資料探勘之系統架構。以減少當有資料新增時，因為重新進行探勘所花費之時間。而另一方面在本研究所提出的架構中，當支持度不符合目前使用者的需求，而重新進行設定時，不須將資料重新進行分析，只需針對部分的資料進行分析便可以獲得符合新支持度的關聯式法則。

由於 STD 是依據 item_set 的大小，將資料庫中所紀錄的資料依序進行拆解，

而在拆解過程中分別以 item_set 為單位進行次數的加總，當次數符合或是超過使用者所設定的支持度時，便將之儲存紀錄於高頻區，不符合的資料則繼續進行拆解比對分析，當每次進行完 STD 的分析時，其所儲存紀錄的資料只有符合支持度的 item_set 集合，而拆解過程中所產生不同 item_set 的相關資料則隨著資料探勘動作的結束而清除，當有新資料加入分析時，便需要將新資料與舊資料再度進行次數上的加總，之後重新進行 STD 的資料探勘，在這個過程中可以發現到舊資料在前一次的資料探勘中已經過分析，在第二次的分析中卻仍須進行重複的動作，無形中便產生了時間上的浪費，隨著資料量的增加，其分析所需的時間將越來越多，提供給使用者的關聯式法則便無法反映目前資料庫中最真實的情況。有鑑於此，本研究針對當資料大量且快速累積時，提出一個能夠減少重複分析所需時間的方法。

而當探勘所得之關聯式法則不盡理想而需重新設定支持度時，STD 便需要針對所有的資料重新進行資料探勘，當資料量累積的越多，所需的時間便也跟著增加，而在 I-STD 中，當使用者需要重新設定支持度的時候，只須針對部分的資料重新進行資料探勘，如此一來可以減少重新探勘所需的時間，使用者在設定支持度時也能擁有較大的彈性，所探勘出來的關聯式法則也能隨著使用者的調整而更具可用性。

另一方面隨著資料的累積，產生資料錯誤的可能性也就隨之增加，影響所

及便是所探勘出的關聯式法則其可信度下降，若是要更正資料錯誤所產生的影響，便可能需要重新進行資料探勘，因此在 I-STD 中希望能夠避免在上述發生的情況中重新進行資料探勘而造成時間上的浪費，本研究的架構可以分為三大模組：

圖 7：本研究之研究架構

l 漸進式資料探勘模組：以 STD 演算法為基礎進行改善，使其能夠符合漸進式的需求，減少當資料新增時進行探勘所需的時間。

l 關聯式法則修改模組：當使用者需要針對支持度進行修改時，透過關聯式法則修改模組便可以在不需要重新進行資料探勘的情況下，針對部分資料庫中的資料進行拆解、比對與計數的步驟，而獲得符合使用者所設定之支持度的關聯式法則，以減少時間上的浪費。

l 關聯式法則應用模組：此模組主要是負責進行處理由漸進式資料探勘模組、

關聯式法則修改模組兩大模組中所產生的關聯式法則其相關的應用。除此之外，使用者透過此模組了解目前所產生的關聯式法則是否符合其需求，並將修改所需的相關資料傳入關聯式法則修改模組以進行修改。

第一節漸進式資料探勘模組說明

此模組中利用將 STD 分析過程中經過拆解計數的資料依其交易紀錄中項目多寡的不同分別儲存於不同的表格之中，當有新資料加入需要進行分析時便不用對舊有資料進行分析，而可以直接與資料庫中所儲存的資料進行比對及次數上的加總。由文獻探討中可以知道，STD 進行資料探勘的方式是以：

讀入資料à拆解、合併計數à讀入資料à拆解、合併計數…

漸進式資料探勘模組

關聯式法則修改模組關聯式法則應用模組

由 item_set=k 開始依次遞減直到 item_set=1 為止的方式進行，因此當 item_set=k 的資料拆解成 item_set=k-1 並與資料庫中 item_set=k-1 的紀錄完成合併計數後，便可以得到資料庫中所有 item_set=k-1 的交易紀錄，將這些拆解過後的資料分別儲存至資料庫中，當有新資料加入資料探勘的分析時便不須再重新經過拆解及計數的過程，而能減少執行這部分所需的時間，而針對新進資料進行分析即可。流程概念表示如圖 8：

圖 8：STD 概念流程圖

經由上述的流程便可以獲得在原始資料庫中 item_set=k 至 item_set=1 之資料的次數，當有新進資料加入而需要進行分析時便可以利用這些經過拆解的資料進行資料探勘，而不須再重新進行拆解比對及計數的分析工作。

研究 STD 演算法可以發現，其執行所需時間主要是花費在比對及計數的部分，因此參考 FUP 中的概念，在 I-STD 中，利用資料次數的大小，在比對的過程中將其分為不同的處理方式，藉以降低比對及計數所需的時間。透過這兩個的概念，一方面可以避免重複拆解歷史資料的問題，另一方面也可以減少比對的次數，如此一來便可以降低當有新進資料時進行資料探勘所需的時間。

讀入資料並比對及加總

拆解後比對及加總儲存至資料庫

讀入資料並比對及加總

儲存至資料庫

第二節關聯式法則修改模組說明

由 I-STD 方法的步驟說明中，可以發現所有拆解的資料都儲存紀錄在資料庫中，利用這些經過整理計數的資料當使用者有需要針對原先的設定加以修改時，不須重新進行資料探勘便能找到符合使用者所設定支持度的關聯式法則，本模組可供使用者進行下列功能：

（1）重新設定支持度

當使用者不滿意原先設定之支持度時，可以利用目前已有的資料進行分析探勘找出符合新支持度的資料集合，其中 S 表示其支持度而 Si為原始的的支持度，Sj為重新設定的支持度，支持度的修改可以分為以下二種情況：

1、Si>Sj：當使用者降低支持度時，原符合支持度的紀錄其次數仍會大於使用者所設定的支持度，而在拆解區中的資料可能會因為支持度降低而由非高頻轉為高頻，因此需要將拆解區中的資料進行比對，將符合支持度的資料記錄至高頻。其步驟說明如下：

圖 9：關聯式法則修改模組流程(支持度由少至多修改流程)

2、Si<Sj：當使用者提高支持度時，原先符合支持度的紀錄，可能因此變成不符合支持度即由高頻紀錄轉變為非高頻紀錄，因此便需要進行拆解及計數的步驟。

當使用者將支持度的門檻值往上提高，便需要針對高頻區的資料進行拆解及計數的動作。

設定支持度

拆解資料庫篩選出符合支

持度的資料

存入高頻區高頻區

篩選 item_set-1 的拆解資料庫

（2）刪除不正確的資料

隨著資料的累積，進行資料探勘的次數也跟著增加，其中當資料新增時可能會因為人為的疏失，導致其中的資料有所謬誤，若不能將此錯誤更正，便可能影響資料探勘的結果，造成關聯式法則的錯誤，針對此部份，在本研究所提出的方法利用中將錯誤的資料，透過相同的拆解及計數的過程進而產生相同的 item_set 及次數，將錯誤的資料加以刪除，藉以修正錯誤資料對關聯式法則所造成的影響，進而維持關聯式法則的正確性。

設定支持度

高頻區以新支持度為

條件進行篩選

是否符合

依 item_set 數進行拆解及計數

圖 10 關聯式法則修改模組流程 (支持度由多至少修改流程) 符合

不符合

圖 11：修改交易紀錄資料

第三節關聯式法則應用模組

探勘出來關聯式法則必須要經由實際的應用，才能顯現出其價值是否符合使用者的期待及是否需要進行修改，隨著應用領域的不同，關聯式法則的表現方式也不盡相同，本模組主要是配合應用領域的特性來設計關聯式法則的相關應用，在本研究中是以門診資料作為資料探勘的探勘資料，而所探勘的關聯式法則便是醫師診斷間的關聯，此模組便是針對醫師對於病患所下診斷間的關聯式法則進行應用上的設計。

在本研究中依使用者的不同，此模組可以分為兩大部分

l 門診輔助系統：在健保制度的影響下門診成為醫院最主要的收入來源，由於醫院營運壓力的影響造成醫師每日進行的門診病患數量大幅攀昇，當病患增多但總看診時間卻仍固定的情況下，不可避免的造成了醫師在每位病患上所花的看診時間縮短，對於病患的診斷便有可能因此而產生疏失，此系統透過醫師對該病患診斷的資料，進行與關聯式法則的比對，若有符合條件的關聯式法則，便將相關的資料傳送給醫師，作為其在診斷上的輔助。若目前所探勘出的關聯式法則，無法提供醫師所需的相關資訊，亦可透過本系統將相關

需要更正的資料

拆解及計數的步驟

修正相關的資料

Item_set=k Item_set=k-1 Item_set=1

資訊傳送給關聯式法則修改模組，進行修改以更符合醫師臨床診斷上的需要。在一般性的門診治療中醫師是以診間為單位在固定的房間中進行門診治療，因此本系統可透過如 IE 等瀏覽器，提供探勘所得的關聯式法則給醫師於門診治療時參考。當醫師認為某筆關聯式法則不適當時亦可透過瀏覽器反映至系統，以避免誤用的情況產生。

l 醫療保健系統：透過資訊工具的協助（如瀏覽器，簡訊發送等），提供病患相關的訊息作為日常保健的參考，將探勘所得的關聯式法則利用 ASP 等網頁技術，提供給一般民眾進行查詢等服務，一方面可以提昇病患對於醫院的滿意度以提高回診率，另一方面也可以將醫院提供醫療服務的時間地點由醫院向外延伸，甚至將醫院由治傷療痛功能提升為醫療保健的層次，尤其是區域性的醫院可藉此提高與該地區人民間的互動，以降低因為門診量過大所造成病患滿意度下降的相關隱憂。

在文檔中 G[ h EQG ~ C M09002041 ciq t OGTu{thZ mWG An Incremental Data Mining Algorithm Based On Summary Top Down Technique DGiNbW-- HE h j (頁 35-42)