以布林運算為基礎探勘網路拍賣異常之競標者
全文
(2) 是否異常。. 標過的產品項目及購買過的產品項目,利用探 勘技術來發掘具有異常競標之行為特徵的競 標者。我們從競標者過去購買過的產品項目. Agrawal 等人[6]首先提出擷取關聯規則. 中 , 以 布 林 運 算 (Boolean computation) 為 基. 來顯示出項目之間的關聯性,關聯規則的定義. 礎,找出產品項目之間的關聯規則(association. 說明如下:假設 I 是所有項目的集合,T 是全. rules),根據關聯規則來計算競標者過去競標. 部交易資料的集合,一筆交易資料 Tj,Tj∈T,. 過的產品項目中,彼此之間的關聯性,若未能. 是由一些項目所形成的集合,稱之為項目組. 滿足所設定的最小相似度,即稱之為異常的競. (itemsets) ,若一個項目組包含有 k 個項目,. 標者。例如,假設找出的關聯規則有 A→B 及. 稱之為 k-項目組(k-itemsets),k ≥1,以 itemsetk. A→C,若一競標者過去競標過的產品項目有. 表示之。在項目組 X 與 Y 之間有一關聯規則被. ABCDE 等 5 項,因為競標過之產品包含有關. 表示成 X→Y,X、Y⊆I 且 X∩Y=∅,其中 X 稱. 聯規則的 AB 及 AC 產品項目,故其相似度. 之為前項目組,Y 稱之為後項目組。有兩個參. 為:ABC 的個數/ABCDE 的個數=3/5=60%,. 數 s 與 c 分別為支持度(support)與信賴度. 若未能達到所設定的最小相似支持度,即稱之. (confidence),用來決定關聯規則是否成立;支. 為異常的競標者。. 持度 s 的定義為:在所有的交易集合中,同時 包含有 X∪Y 的比率值,即 s=(同時包含有 X∪Y. 本篇論文的架構如下:下一節中,我們介. 的交易數量)/(總交易數量);信賴度 c 的定義. 紹資料探勘技術、及其在探勘異常交易的相關. 為:在包含有 X 的交易集合中,也同時包括有. 研究;在第三節中,我們以布林運算為基礎,. Y 的比率值,即 c=(同時包含有 X∪Y 的交易數. 利用關聯規則來發掘具有異常競標之行為特. 量)/(包含有 X 的交易數量)。擷取出來的關聯. 徵的競標者,並以一個實例來說明探勘的過. 規則,其支持度與信賴度必須大於或等於所指. 程;第四節中,我們說明探勘系統的實作應. 定的最小支持度與最小信賴度,這樣的關聯規. 用;最後,我們在第五節中做一結論。. 則才成立。. 二、相關研究. 關聯規則的探勘過程,主要分成以下兩個 階段:首先,找出滿足最小支持度的所有項目. 資料探勘是從大量資料中挖掘出潛在有. 組,這些滿足最小支持數量的項目組就稱之為. 用資訊與知識,發現專家尚且未知的新關係,. 高頻項目組(frequent itemsets),若某 k-項目組. 以提供給企業專業人員參考。資料探勘可完成. 滿足最小支持數量,即稱之為高頻 k-項目組. 以 下 任 務 或 是 更 多 : 關 聯 規 則 (association. (frequent k-itemsets),以 frequentk 表示之;然. rules)、分群(clustering)、分類(classification)、. 後,就根據前階段所找出的高頻項目組及以最. 次 序 相 關 分 析 (sequential pattern analysis) 等. 小信賴度為條件,計算出所有符合的關聯規. [5]。目前已有許多利用資料探勘技術分析交易. 則。例如 ABC 為高頻 3 項目組,假如關聯規. 異常的相關研究[1-3],其中[1]利用分群技術來. 則 AB→C 滿足最小信賴度,則此關聯規則成. 偵測信用卡的交易是否異常,[2]利用資料探勘. 立,擷取關聯規則的相關研究可參考[4, 7-11]。. 技術來分析個人消費行為,以預測信用卡之詐 欺事件,[3]利用複合項關聯規則(association. 在眾多擷取關聯規則的方法中,Apriori. rules with composite items),提出一個兩階段探. 演算法[7]是最具代表性的方法之一,以下我們. 勘的方法,來發掘一消費者目前之信用卡交易. 2.
(3) 的關聯性,以發掘具有異常競標之行為特徵的. 說明 Apriori 演算法擷取關聯規則的過程:. 競標者。此章節共分為兩小節如下:第一小節 中,我們從競標者購買過的產品項目中,找出. (1) 找出高頻(k-1)-項目組,k>1,若為∅,則. 項目之間的關聯規則,並發掘具有異常競標之. 停止執行。. 行為特徵的競標者;第二小節中,我們以一實. (2) 由(1)中找出任兩個有 k-2 項目相同的高頻. 例來說明探勘的過程。. (k-1)-項目組,組合成 k-項目組。 (3) 判斷由(2)所找出的 k-項目組,其所有包括. (一) 擷取購買產品項目之間的關聯規則. 的(k-1)-項目組之子集合是否都出現在(1) 中,假如成立就保留此 k-項目組,否則就. 以布林運算為基礎來擷取關聯規則,已經. 刪除。. 被證明可以有效地提升探勘關聯規則的執行. (4) 再檢查由(3)所擷取的 k-項目組是否滿足. 效率[4, 10]。在此一小節中,我們從競標者購. 最小支持度,假如符合就成為高頻 k-項目. 買過的產品項目中,首先利用[4]所提出的演算. 組,否則就刪除。. 法,擷取產品項目之間的關聯規則。我們說明. (5) 計算高頻 k-項目組所形成的關聯規則,若. 一些名詞定義如下:. 滿足最小信賴度,則關聯規則成立。 (6) 跳至(1)找高頻(k+1)-項目組,直到無法產. I={i1, i2, …, in},是全部項目(items)的集合,. 生高頻項目組為止。. 共有 n 項。 T={T1, T2, …, Tj, …, Tm},是全部交易資料的. 在本篇論文中,我們從競標者曾經購買過. 集合,共有 m 筆,其中 Tj 為第 j 筆交易資料,. 的產品項目中,擷取出項目之間的關聯規則,. 1≤j≤m。. 然後根據關聯規則的消費傾向,從競標者過去. TBj 為在 Tj 中購買過的產品項目,由 n 位元. 競標過的產品項目中,計算項目彼此之間的關. (bits)所組成,其格式表示成 TBj=[b1, b2, b3, …,. 聯性,以發掘具有異常競標之行為特徵的競標. bf, …, bn],bf∈{0, 1},1≤f≤n,若有出現第 f. 者。. 項的項目,則 bf=1,否則 bf=0。 TAj 為在 Tj 中競標過的產品項目,由 n 位元. 三、以布林運算為基礎探勘異常 之競標者. (bits)所組成,其格式如同 TBj。 itemsetk 表示包含有 k 個項目的項目組,其資. 在探勘關聯規則的方法中,[10]曾經提出. 料格式如同 TBj。. 一 個布 林演算 法, 並證明 其執 行效率 優 於. frequentk 表示包含有 k 個項目的高頻項目. Apriori 演算法,而[4]根據 Apriori 演算法的執. 組,其資料格式如同 TBj。. 行步驟,提出一個以布林運算為基礎的方法,. Aitemsetj 表示若關聯規則之項目組有出現在. 將可提升[10]所描述之演算法的執行效能。在. TAj 中,則這些關聯規則之項目組的聯集,其. 此章節中,我們以競標者之交易資料為探勘的. 資料格式如同 TBj。. 資料來源,其交易資料包含有競標過的產品項 目及購買過的產品項目。我們首先從購買過的. 我們分別使用 or(圖 1)、xor(圖 2)、及. 產品項目中,以布林運算為基礎,找出項目之. and(圖 3)布林運算(如圖 1),可以很有效率地. 間的關聯規則,然後再根據關聯規則的消費傾. 分別計算出兩項目組之間位元的聯集、相異的. 向,計算競標過的產品項目中,項目彼此之間. 位元、及值為“1”的相同位元。. 3.
(4) 掃瞄所有 TBj 之後,判斷出現的次數是否 or. 0. 1. xor. 0. 1. 滿足最小支持度,假如符合就成為. 0. 0. 1. 0. 0. 1. frequentk,否則就刪除。. 1. 1. 1. 1. 1. 0. 圖1. (5) 對 frequentk 計算可能形成的關聯規則,若 前項目組設定為 X,則後項目組 Y 可由以. 圖2. 下布林運算找出[10]: Y=frequentk xor X …………(a). and. 0. 1. 0. 0. 0. 若關聯規則 X→Y 滿足最小信賴度,則關. 1. 0. 1. 聯規則成立。 (6) 跳至(1)找 frequentk+1,直到無法產生高頻. 圖3. 項目組為止。 我們分別將交易資料中購買過的產品項 目及競標過的產品項目,轉換成位元的資料型. 根據關聯規則所顯示出的消費傾向,從競. 態,若項目有出現在購買過的產品項目中,或. 標者曾經競標過的產品項目中,計算項目彼此. 出現在競標過的產品項目中,則對應位元設定. 之間的關聯性。我們可執行以下公式,來計算. 為“1”,否則設定為“0”,在每一筆交易資料. 由 frequentk 所形成的關聯規則是否被包含於. 中,購買過的產品項目及競標過的產品項目,. TAj 中:. 都是各以 n 位元的格式表示之。我們從購買過 的產品項目中,以[4]所提出的演算法,來探勘. frequentk or TAj xor TAj. ………..(b). 項目之間的關聯規則,其過程說明如下: 若結果為 itemset0,則表示關聯規則的項目組 ⊆TAj 中。我們對每一關聯規則執行公式(b)的. (1) 找出 frequentk-1,k>1,若為∅,則停止執. 運算,並將包含於 TAj 中之關聯規則的項目組. 行。 (2) 任意兩個 frequentk-1 做 or 布林運算,假如. 執行 or 布林運算,即可計算出有出現在 TAj. 結果為 itemsetk,即有 k 個項目其值為“1”,. 中之關聯規則的項目組的位元聯集,以. 且非重複者,就保留此 itemsetk,否則就刪. Aitemsetj 表示之。例如,{A, B, C, D, E}為全部. 除[10]。. 項目所形成的集合,若關聯規則 A→B 及 A→. (3) 判斷由(2)所找出的 itemsetk ,其包含的. C 成立,某一競標者 Tj 曾經競標過的產品項目. itemsetk-1 之子集合,是否都出現在(1)中,. 為 ABCD , 因 為 AB=[11000]⊆[11110] ,. 可將 itemsetk 與(1)中所有各 frequentk-1 做. AC=[10100]⊆[11110],則 Aitemsetj=[11000] or. xor 布林運算,計數結果為 itemset1 的數目. [10100]=[11100],為 ABC。在此我們定義競標. 是否等於 k,假如成立就保留此 itemsetk,. 者 Tj 之相似度為:. 否則就刪除。 競標者 Tj 之相似度=(Aitemsetj and TAj)的. (4) 檢查由(3)所擷取出的 itemsetk,是否滿足. 項目個數/TAj 的項目個數。. 最小支持度,可將 itemsetk 與交易資料 Tj 中的 TBj 執行以下的運算:. 若競標者之相似度未能滿足所設定的最小相. itemsetk or TBj xor TBj,1≤j≤m, 若結果為 itemset0,則表示 itemsetk⊆TBj,. 似度,即稱之為異常的競標者。例如若關聯規. 4.
(5) 則 A→B 及 A→C 成立,則表示競標者購買 A. 者,其探勘的過程說明如下:. 項目,也會有購買 B 項目或是 C 項目的傾向, 若某一競標者曾經競標過的產品項目為. 表 1、交易資料庫 D. ABCDE , 根 據 以 上 相 似 度 的 定 義 , 因 為. 交易資料編號 購買過之項目 競標過之項目. AB⊆ABCED、且 AC⊆ABCDE,故其相似度 為:ABC 的個數/ABCDE 的個數=3/5=60%, 若未能滿足所設定的最小相似度,即稱之為異 常的競標者,否則為非異常的競標者。. T1. BC. ABCD. T2. BDE. ABDE. T3. A. ABC. T4. BCE. BCE. (二) 實例說明 首先將各競標者購買過的產品項目轉換. 我們以表 1 之交易資料庫 D 來進行分. 成位元格式為:TB1=[01100]、TB2=[01011]、. 析,I={A, B, C, D, E}為產品項目的集合,. TB3=[10000]、TB4=[01101]。我們從競標者購. T={T1, T2, T3, T4}為 4 筆競標者之交易資料的. 買過的產品項目中,利用[4]所描述之演算法擷. 集合,設定最小支持度為 40﹪(即最小支持數. 取高頻項目組的過程如下:. 量為 1.6),最小信賴度為 70%,最小相似度為 60﹪。探勘具有異常競標之行為特徵的競標. itemset1 TB1. TB2. TB3. TB4. A. B. C. D. E. A. 0. 0. 1. 0. 1. 0. 0. 0. 0. B. 1. 1. 0. 1. 0. 1. 0. 0. 0. C. 1. 0. 0. 1. 0. 0. 1. 0. 0. D. 0. 1. 0. 0. 0. 0. 0. 1. 0. E. 0. 1. 0. 1. 0. 0. 0. 0. 1. 1. 3. 2. 1. 2. 步驟(4). 出現次數. frequent1. ≥1.6. 出現次數. itemset2. frequent2. B. C. E. BC. BE. CE. BC. BE. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 1. 0. 1. 1. 0. 1. 0. 1. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 1. 0. 1. 3. 2. 2. 2. 2. 1. 2. 2. 步驟(2)、(4). 出現次數. 5. ≥1.6. 出現次數.
(6) 步驟(2). itemset3. itemset3. BCE. BCE. 0. 0. 1. 步驟(3). =3. 無. 1. 1. 1. 0. 0. 1. 1 出現次數. itemset3. 2. 無 3-項目組。 圖4為此一系統的內部資料,包含「會員 編號」 、 「身分證號碼」 、 「姓名」 、 「曾經購買產. 擷取出的高頻 2-項目組有 BC、BE,我們 利用公式(a),分別計算其所形成的關聯規則. 品」、「曾經競標產品」等欄位資料。. B→C、C→B、B→E 及 E→B 的信賴度,滿足 最小信賴度者有 C→B 及 E→B。將各競標者 曾經競標過的產品項目轉換成位元格式為: TA1=[11110] 、 TA2=[11011] 、 TA3=[11100] 、 TA4=[01101]。根據相似度的定義,計算各競標 者的相似度為:. T1 之相似度為:[01100] and [11110] = [01100],因此其相似度=2/4=50%。 T2 之相似度為:[01001] and [11011] =. 圖 4、競標者的交易資料. [01001],因此其相似度=2/4=50%。 T3 之相似度為:[01100] and [11100] =. 圖 5 表示探勘畫面,可輸入「最小支持 度」、「最小信賴度」、「最小相似度」等值。. [01100],因此其相似度=2/3=67%。 T4 之相似度為:[01101] and [01101] = [01101],因此其相似度=3/3=100%。. 經由以上相似度的計算,只有 T3 與 T4 滿足最 小相似度,因此,具有異常競標之行為特徵的 競標者有 T1、T2。. 四、探勘異常競標者之系統實作 我們將前一章節所描述的演算法,應用到. 圖 5、探勘的畫面. 探勘具有異常競標之行為特徵的競標者的系 統實作上,我們以C#為撰寫的程式語言,以下. 圖 6 表示探勘的結果,包含有找出的關聯. 為此一系統的探勘過程。 6.
(7) 所,碩士論文,2001。. 規則,經計算之後,發掘具有異常競標之行為. [3] 陳垂呈、邱崇兼、黃昱銘,“探勘消費者信. 特徵的競標者。. 用卡之異常交易”,第三屆離島資訊與應用 研討會,第 413-417 頁,2003。 [4] 陳垂呈,“以有效率的布林演算法來擷取關 聯規則”,2002 數位生活與網際網路科技. 研討會,台南,成功大學,六月,2002。 [5] M. S. Chen, J. Han and P. S. Yu, “Data Mining: an Overview from a Database Perspective,”. IEEE. Transactions. on. Knowledge and Data Engineering, Vol. 8, 圖 6、探勘結果的畫面. No. 6, pp. 866-883, 1996. [6] R. Agrawal, T. Imielinski, and A. Swami,. 五、結論. “Mining Association Rules between Sets of Items in Very Large Database,” Proceedings. 在電子商務中,網路拍賣是最受消費者歡. of the ACM SIGMOD Conference on. 迎的交易方式之一,隨著交易規模日益擴大與. Management of Data, pp. 207-216, 1993.. 熱絡,也衍生了許多的交易問題,其中最常見. [7] R. Agrawal and R. Srikant, “Fast Algorithms. 的有競標者的欺騙競標行為,競標者只是為了. for Mining Association Rules,” Proceedings. 哄抬拍賣品的價格,而不是實際真正的競標. of the 20th International Conference on Very. 者,因此如何偵測出異常的競標者,即成為網. Large. 路拍賣經營者必須解決的問題之一。在本篇論. Databases,. Santiago.. Chile,. September, pp. 487-499, 1994.. 文中,我們利用關聯規則來發掘具有異常競標. [8] J. S. Park, M. S. Chen, and P. S. Yu, “Using a. 之行為特徵的競標者:我們先從競標者過去購. Hash-Based. 買過的產品項目中,以布林運算為基礎,找出. Method. with. Transaction. Trimming for Mining Association Rules,”. 產品項目之間的關聯規則,然後從競標者過去. IEEE Transactions on Knowledge and Data. 競標過的產品項目中,根據關聯規則來計算競. Engineering, Vol. 9, No. 5, pp. 813-825,. 標者的相似度,若未能滿足所設定的最小相似. 1997.. 度,即稱之為異常的競標者。此探勘結果,對. [9] R. Srikant and R. Agrawal, “Mining. 無意購買拍賣品之競標者的喊價行為,將可提. Generalized. 供非常有用的預警資訊。. Proceedings. Association of. the. 21th. Rules,” International. Conference on Very Large Data Bases, pp.. 六、參考文獻. 407-419, 1995.. [1] 汪昭緯,應用分群技術偵測信用卡異常交. [10] S. Y. Wur and Y. Leu, “An Effective. 易之研究 ,國立中央大學資訊管理研究. Boolean Algorithm for Mining Association. 所,碩士論文,2002。. Rules in Large Databases,” DASFAA, 1999.. [2] 黃琮盛,以個人消費行為預測信用卡詐欺. [11] X. Ye and J. A. Keane, “Mining Association. 事件之研究,國立中央大學資訊管理研究. Rules with Composite Items,” Systems,. 7.
(8) Man,. and. Cybernetics Internaltional. Cybernetics, and. Computational. Simulation,. Conference,. (2). IEEE ,. pp.. 1367-1372, 1997.. 8.
(9)
相關文件
法國「坎城競標」拍賣公司於 27 日表示,現代奧運之父古柏坦設計的奧運 5 環標 誌手繪原稿,在拍賣會上以 18 萬 5000 歐元(約新台幣
Nasu, M., and Tamura, T., “Vibration Test of the Underground Pipe With a Comparatively Large Cross-section,” Proceedings of the Fifth World Conference on Earthquake Engineering,
Parallel dual coordinate descent method for large-scale linear classification in multi-core environments. In Proceedings of the 22nd ACM SIGKDD International Conference on
Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised
Lu, Linear-time compression of bounded-genus graphs into information-theoretically optimal number of bits, in Proceedings of the Thirteenth Annual ACM-SIAM Symposium on
A dual coordinate descent method for large-scale linear SVM. In Proceedings of the Twenty Fifth International Conference on Machine Learning
Hofmann, “Collaborative filtering via Gaussian probabilistic latent semantic analysis”, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and
We try to explore category and association rules of customer questions by applying customer analysis and the combination of data mining and rough set theory.. We use customer