在標注是否為高衝擊的步驟中,必須取得貼文中的成交數量欄位,這個欄位在訓 練之前會被移除。
本研究的目的是嘗試以自動化的方法,在新張貼的商品貼文,還完全未與任何使 用者互動的前提之下,預測其未來可能造成的關注度,進而轉成實際成交量,並造成 社會衝擊。因此,只要欄位與成交量有高度相關,都會在訓練以前排除。
例如︰成交數量 purchase、貼文點擊次數 views 等欄位,屬於此商品貼文與消費 者的互動資訊,所以必須移除。而賣家等級、賣家總成交數量等欄位,屬於賣家推銷 自己的參考資訊,不侷限於此商品貼文,因此予以保留。
6.9 XGBoost 訓練的完成
.
本研究使用的目標函數是 XGBoost 的 binary:logistic,在訓練的過程中,模型會 朝目標函數錯誤較低的方向前進,當模型不再改變或是達到最大 round 時,訓練就會 結束。
使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 的模型,紀錄其 precision、recall 與 F1 score。
實驗結果如表5,每一列代表同一個 DNM 的商品貼文資料之實驗結果,依序包含 暗網市場名稱、訓練資料筆數、測試資料筆數、資料維度、欄位數量、平均 F1 score 值、嘗試次數、總訓練時間、最佳 PRF 值、表現最佳的模型之 true positive 值、false positive 值、false negative 值、true negative 值。表6對表5的每個欄位詳細說明。
其中維度是經過 one-hot encoding 處理之後得到的向量⻑度,欄位數量是原始資 料的欄位個數,每個 DNM 對應的原始欄位全部列在表7中。
7.1 分析造成實驗結果差異的原因
1. 可以看到表5中 elite、cannaHome 以及 cannazon 最佳 F1 都可以到 100%,而資 料數量較多的 darkbay 與 empiremarket 最佳 F1 都在 35% 以下。本研究推測,
使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 7.1 分析造成實驗結果差異的原因
表5:五個DNM實驗的數據細項 DNM#(train)#(test)#(dim)#(col)avgF#(trial)trainTbestPbestRbestFTPFPFNTN elite6186913080.44762810511140065 cannaHome597676160.147179720711120065 cannazon1538171199200.952741111700154 darkbay278723097379100.2784113690.860.220.3568112462772 empiremarket3927743652177100.1235322930.770.230.3695283153927 表6:表5中各欄位的解釋 欄位名稱欄位說明與其意義 DNM暗網購物市場的名稱。 #(train)訓練資料數量(商品貼文數)。 #(test)測試資料數量(商品貼文數)。 #(dim)dimension,經過one-hotencoding之後,所有資料欄位的總⻑度。 例如︰elite原始資料有8個欄位,其中vendorName與shortcut經過one-hotencoding之後,分別變成⻑ 度為52與72,總⻑度為8+52+72-1-1=130。 #(col)column,原始資料的欄位個數。 avgFaverageofF1score,多次嘗試的F1平均值。 #(trial)隨機挑選訓練與測試資料的嘗試次數。 trainT總共耗費的時間,以秒計算。 bestP效果最優良模型的precision值。 bestR效果最優良模型的recall值。 bestF效果最優良模型的F1score值。 TPtruepositive,模型預測為高衝擊而且此資料的確也是高衝擊的商品貼文數量。 FPfalsepositive,模型預測為高衝擊但是此資料為非高衝擊的商品貼文數量。 FNfalsenegative,模型預測為非高衝擊但是此資料是高衝擊的商品貼文數量。 TNtruenegative,模型預測為非高衝擊而且此資料的確也是非高衝擊的商品貼文數量。
7.1 分析造成實驗結果差異的原因 使用梯度提昇機辨認暗網市場之毒品高衝擊賣家
表7:各個DNM中有參與訓練的欄位 DNM原始資料中的所有欄位名稱 eliteprice,desWordCount,desEmphasizeProportion,titleWordCount,titleEmphasizeProportion,vendorName, shortcut,startOfferUntilCrawl. cannaHomeprice,desWordCount,desEmphasizeProportion,titleWordCount,titleEmphasizeProportion,vendorName. cannazonprice,desWordCount,desEmphasizeProportion,titleWordCount,titleEmphasizeProportion,vendorName, vendorRuleWordCount,vendorRuleEmphasizeProportion,vendorDesWordCount,vendorDesEmphasizePropor- tion,availability,paymentMethod,dreamRating,dreamOrders,empireRating,empireOrders,wsRating, wsOrders,berlusconiRating,berlusconiOrders. darkbayprice,desWordCount,desEmphasizeProportion,titleWordCount,titleEmphasizeProportion,vendorName, shortcut,payWith,qualityRating,vendorFeedbackRating. empiremarkethighImpact,price,desWordCount,desEmphasizeProportion,titleWordCount,titleEmphasizeProportion, vendorName,shortcut,vendorLevel,trustLevel,payment.
使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 7.1 分析造成實驗結果差異的原因
true negative 數字大,限制了 false positive 對 precision 的影響,因此 bestP 不 至於下降太多。從公式 (20a) 可以解釋此一現象。
3. 同 理, 因 為 true positive 的 數 量 本 來 就 少, 容 易 因 為 個 別 例 外 產 生 的 false negative,嚴重影響到 recall 的數值。公式 (20b) 可以解釋。因為 precision 與 recall 的不平衡,最後連帶讓 F1 score 也無法提昇。
4. 產生 precision 與 recall 不平衡除了標注資料自帶的限制以外,還受到 XGBoost 這個軟體的目標函數影響。XGBoost 可以提供研究者選擇不同的目標函數,或 簡略視為損失函數,在訓練過程中,軟體自動讓模型往目標函數表現較好的 方向進化。本研究使用的是 XGBoost 中的 binary:logistic 目標函數,可以視為 accuracy,訓練過程中不計算 false negative 與 false positive 的影響,因此當研究 者以 precision、recall、F1 值評價模型時,效果可能會很差。
precision = true positive
true positive + false positive (20a) recall = true positive
true positive + false negative (20b) F1 score = 1
1
precision+recall1 2
= 2
1
precision+ recall1 = 2PR
P+R (20c)
7.1 分析造成實驗結果差異的原因 使用梯度提昇機辨認暗網市場之毒品高衝擊賣家
數量等心理因素,因為這直接影響到買家對賣家的信賴程度,這在暗網尤其重 要。因此,若是 DNM 本身自帶紀錄賣家評價或是其他可以參考信賴程度的數 據,就能有效提昇模型的準確度。
例如︰ cannazon DNM 有一個欄位,專門提供賣家登錄過去在其他已關閉的大 型 DNM 之經營評價與數量,在訓練的時候,平均 F1 score 就高達 95%。
若是 DNM 沒有這類欄位,平均 F1 值大致都在 40% 以下,顯示了 XGBoost 在 本例子中,極度依賴訓練資料與測試資料的選擇。
使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 7.1 分析造成實驗結果差異的原因
.
使用梯度提昇機辨認暗網市場之毒品高衝擊賣家
使用梯度提昇機辨認暗網市場之毒品高衝擊賣家
.
References 使用梯度提昇機辨認暗網市場之毒品高衝擊賣家
References
[1] Clearnet (networking). Wikipedia. [Online]. Available: https://en.wikipedia.org/
wiki/Clearnet_(networking). [Accessed Aug. 5, 2020].
[2] What actually is the Darknet. GDATA. [Online]. Available: https://www.
gdatasoftware.com/guidebook/what-is-the-darknet-exactly. [Accessed Aug 5, 2020].
[3] Overview. Tor Project. [Online]. Available: https://2019.www.torproject.org/
about/overview.html.en. [Accessed Jan. 12, 2020].
[4] Onion Service Protocol. Tor Project. [Online]. Available: https://2019.www.
torproject.org/docs/onion-services.html.en. [Accessed Jan. 12, 2020].
[5] Janis, D., Campbell, W., & Mark, C. (2018). Criminal motivation on the dark web:
A categorisation model for law enforcement. Digital Investigation, vol. 24, pp.62-71.
https://doi.org/10.1016/j.diin.2017.12.003
[6] Heather, L., Andrew, H., Robert, T., & Cliff, Z. (2017). D-miner: A Framework for Mining, Searching, Visualizing, and Alerting on Darknet Events. 2017 IEEE Conference on Communications and Network Security(CNS). DOI: 10.1109/CNS.
2017.8228628
[7] Best CAPTCHA Solver Bypass Service. DEATH BY CAPTCHA. [Online]. Available:
https://www.deathbycaptcha.com/user/login. [Accessed Aug. 10, 2020].
使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 References
[8] KIBANA Your window into the Elastic Stack. elastic. [Online]. Available: https:
//www.elastic.co/kibana. [Accessed Aug. 10, 2020].
[9] Selenium has many projects that combine to form a versatile testing system. Se-lenium Projects. [Online]. Available: https://www.seSe-lenium.dev/projects/. [Ac-cessed Aug. 10, 2020].
[10] Po-Yi Du, Mohammadreza, E., Ning, Z., Hsinchun, C., & Randall, A. B. (2019).
Identifying High-Impact Opioid Products and Key Sellers in Dark Net Market-places: An Interpretable Text Analytics Approach. 2019 IEEE International Con-ference on Intelligence and Security Informatics(ISI), pp. 110-115. DOI: 10.1109/ISI.
2019.8823196
[11] Tianqi. C., & Carlos. G. (2016). XGBoost: A Scalable Tree Boosting System. KDD
’16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 785-794. https://doi.org/10.1145/2939672.
2939785
[12] ONION.live. [Online]. https://onion.live/. Available: [Accessed Aug. 5, 2020].
[13] Billy. B., (2019) Serious Dark Web Warning Issued After Tor Browser Users Have Bitcoin Stolen. Forbes. [Online]. Available: https://www.forbes.com/sites/
billybambrough/2019/10/18/serious-dark-web-warning-issued-after-tor-browser-users-have-bitcoin-stolen/#2de79ab41b60. [Accessed Jan. 21, 2020].
[14] DeepDotWeb. Wikipedia. [Online]. Available: https://en.wikipedia.org/wiki/
DeepDotWeb. [Accessed Jan. 17, 2020].
References 使用梯度提昇機辨認暗網市場之毒品高衝擊賣家
[15] Kelly. Phillips. E., IRS Followed Bitcoin Transcations, Resulting In Takedown Of The Largest Child Exploitation Site On The Web. Forbes. October 16, 2019. [Online].
Available: https://www.forbes.com/sites/kellyphillipserb/2019/10/16/irs- followed-bitcoin-transactions-resulting-in-takedown-of-the-largest-child-exploitation-site-on-the-web/#437b1601ed0d. [Accessed Feb. 1, 2020].
[16] Nth room case. Wikipedia. [Online]. Available: https://en.wikipedia.org/wiki/
Nth_room_case. [Accessed Aug. 5, 2020].
[17] Installing Elasticsearch. elastic. [Online]. Available: https://www.elastic.co/
guide/en/elasticsearch/reference/current/install-elasticsearch.html.
[Accessed Aug. 5, 2020].
[18] Download and install jsoup. jsoup. [Online]. Available: https://jsoup.org/
download. [Accessed Aug. 5, 2020].
[19] Java Platform, Enterprise Edition 8 SDK - Installation Instructions. Oracle.
[Online]. Available: https://www.oracle.com/java/technologies/ee8-install-guide.html. [Accessed Aug. 6, 2020].
[20] Installation Guide. XGBoost. [Online]. Available: https://xgboost.readthedocs.
io/en/latest/build.html. [Accessed Aug. 6, 2020].
[21] Jason, B., (2016) Data Preparation for Gradient Boosting with XGBoost in Python.
[Online]. Machine Learning Mastery. Available: https://machinelearningmastery.
com/data-preparation-gradient-boosting-xgboost-python/. [Accessed Aug. 5, 2020].
使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 References
[22] Tianqi, C., Introduction to Boosted Trees. University Of Washington. [Online]. Avail-able: https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf. [Ac-cessed May 26, 2020].