• 沒有找到結果。

在標注是否為高衝擊的步驟中,必須取得貼文中的成交數量欄位,這個欄位在訓 練之前會被移除。

本研究的目的是嘗試以自動化的方法,在新張貼的商品貼文,還完全未與任何使 用者互動的前提之下,預測其未來可能造成的關注度,進而轉成實際成交量,並造成 社會衝擊。因此,只要欄位與成交量有高度相關,都會在訓練以前排除。

例如︰成交數量 purchase、貼文點擊次數 views 等欄位,屬於此商品貼文與消費 者的互動資訊,所以必須移除。而賣家等級、賣家總成交數量等欄位,屬於賣家推銷 自己的參考資訊,不侷限於此商品貼文,因此予以保留。

6.9 XGBoost 訓練的完成

.

本研究使用的目標函數是 XGBoost 的 binary:logistic,在訓練的過程中,模型會 朝目標函數錯誤較低的方向前進,當模型不再改變或是達到最大 round 時,訓練就會 結束。

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 的模型,紀錄其 precision、recall 與 F1 score。

實驗結果如表5,每一列代表同一個 DNM 的商品貼文資料之實驗結果,依序包含 暗網市場名稱、訓練資料筆數、測試資料筆數、資料維度、欄位數量、平均 F1 score 值、嘗試次數、總訓練時間、最佳 PRF 值、表現最佳的模型之 true positive 值、false positive 值、false negative 值、true negative 值。表6對表5的每個欄位詳細說明。

其中維度是經過 one-hot encoding 處理之後得到的向量⻑度,欄位數量是原始資 料的欄位個數,每個 DNM 對應的原始欄位全部列在表7中。

7.1 分析造成實驗結果差異的原因

1. 可以看到表5中 elite、cannaHome 以及 cannazon 最佳 F1 都可以到 100%,而資 料數量較多的 darkbay 與 empiremarket 最佳 F1 都在 35% 以下。本研究推測,

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 7.1 分析造成實驗結果差異的原因

表5:五個DNM實驗的數據細項 DNM#(train)#(test)#(dim)#(col)avgF#(trial)trainTbestPbestRbestFTPFPFNTN elite6186913080.44762810511140065 cannaHome597676160.147179720711120065 cannazon1538171199200.952741111700154 darkbay278723097379100.2784113690.860.220.3568112462772 empiremarket3927743652177100.1235322930.770.230.3695283153927 表6:表5中各欄位的解釋 欄位名稱欄位說明與其意義 DNM暗網購物市場的名稱。 #(train)訓練資料數量(商品貼文數)。 #(test)測試資料數量(商品貼文數)。 #(dim)dimension,經過one-hotencoding之後,所有資料欄位的總⻑度。 例如︰elite原始資料有8個欄位,其中vendorName與shortcut經過one-hotencoding之後,分別變成⻑ 度為52與72,總⻑度為8+52+72-1-1=130。 #(col)column,原始資料的欄位個數。 avgFaverageofF1score,多次嘗試的F1平均值。 #(trial)隨機挑選訓練與測試資料的嘗試次數。 trainT總共耗費的時間,以秒計算。 bestP效果最優良模型的precision值。 bestR效果最優良模型的recall值。 bestF效果最優良模型的F1score值。 TPtruepositive,模型預測為高衝擊而且此資料的確也是高衝擊的商品貼文數量。 FPfalsepositive,模型預測為高衝擊但是此資料為非高衝擊的商品貼文數量。 FNfalsenegative,模型預測為非高衝擊但是此資料是高衝擊的商品貼文數量。 TNtruenegative,模型預測為非高衝擊而且此資料的確也是非高衝擊的商品貼文數量。

7.1 分析造成實驗結果差異的原因 使用梯度提昇機辨認暗網市場之毒品高衝擊賣家

表7:各個DNM中有參與訓練的欄位 DNM原始資料中的所有欄位名稱 eliteprice,desWordCount,desEmphasizeProportion,titleWordCount,titleEmphasizeProportion,vendorName, shortcut,startOfferUntilCrawl. cannaHomeprice,desWordCount,desEmphasizeProportion,titleWordCount,titleEmphasizeProportion,vendorName. cannazonprice,desWordCount,desEmphasizeProportion,titleWordCount,titleEmphasizeProportion,vendorName, vendorRuleWordCount,vendorRuleEmphasizeProportion,vendorDesWordCount,vendorDesEmphasizePropor- tion,availability,paymentMethod,dreamRating,dreamOrders,empireRating,empireOrders,wsRating, wsOrders,berlusconiRating,berlusconiOrders. darkbayprice,desWordCount,desEmphasizeProportion,titleWordCount,titleEmphasizeProportion,vendorName, shortcut,payWith,qualityRating,vendorFeedbackRating. empiremarkethighImpact,price,desWordCount,desEmphasizeProportion,titleWordCount,titleEmphasizeProportion, vendorName,shortcut,vendorLevel,trustLevel,payment.

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 7.1 分析造成實驗結果差異的原因

true negative 數字大,限制了 false positive 對 precision 的影響,因此 bestP 不 至於下降太多。從公式 (20a) 可以解釋此一現象。

3. 同 理, 因 為 true positive 的 數 量 本 來 就 少, 容 易 因 為 個 別 例 外 產 生 的 false negative,嚴重影響到 recall 的數值。公式 (20b) 可以解釋。因為 precision 與 recall 的不平衡,最後連帶讓 F1 score 也無法提昇。

4. 產生 precision 與 recall 不平衡除了標注資料自帶的限制以外,還受到 XGBoost 這個軟體的目標函數影響。XGBoost 可以提供研究者選擇不同的目標函數,或 簡略視為損失函數,在訓練過程中,軟體自動讓模型往目標函數表現較好的 方向進化。本研究使用的是 XGBoost 中的 binary:logistic 目標函數,可以視為 accuracy,訓練過程中不計算 false negative 與 false positive 的影響,因此當研究 者以 precision、recall、F1 值評價模型時,效果可能會很差。

precision = true positive

true positive + false positive (20a) recall = true positive

true positive + false negative (20b) F1 score = 1

1

precision+recall1 2

= 2

1

precision+ recall1 = 2PR

P+R (20c)

7.1 分析造成實驗結果差異的原因 使用梯度提昇機辨認暗網市場之毒品高衝擊賣家

數量等心理因素,因為這直接影響到買家對賣家的信賴程度,這在暗網尤其重 要。因此,若是 DNM 本身自帶紀錄賣家評價或是其他可以參考信賴程度的數 據,就能有效提昇模型的準確度。

例如︰ cannazon DNM 有一個欄位,專門提供賣家登錄過去在其他已關閉的大 型 DNM 之經營評價與數量,在訓練的時候,平均 F1 score 就高達 95%。

若是 DNM 沒有這類欄位,平均 F1 值大致都在 40% 以下,顯示了 XGBoost 在 本例子中,極度依賴訓練資料與測試資料的選擇。

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 7.1 分析造成實驗結果差異的原因

.

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家

.

References 使用梯度提昇機辨認暗網市場之毒品高衝擊賣家

References

[1] Clearnet (networking). Wikipedia. [Online]. Available: https://en.wikipedia.org/

wiki/Clearnet_(networking). [Accessed Aug. 5, 2020].

[2] What actually is the Darknet. GDATA. [Online]. Available: https://www.

gdatasoftware.com/guidebook/what-is-the-darknet-exactly. [Accessed Aug 5, 2020].

[3] Overview. Tor Project. [Online]. Available: https://2019.www.torproject.org/

about/overview.html.en. [Accessed Jan. 12, 2020].

[4] Onion Service Protocol. Tor Project. [Online]. Available: https://2019.www.

torproject.org/docs/onion-services.html.en. [Accessed Jan. 12, 2020].

[5] Janis, D., Campbell, W., & Mark, C. (2018). Criminal motivation on the dark web:

A categorisation model for law enforcement. Digital Investigation, vol. 24, pp.62-71.

https://doi.org/10.1016/j.diin.2017.12.003

[6] Heather, L., Andrew, H., Robert, T., & Cliff, Z. (2017). D-miner: A Framework for Mining, Searching, Visualizing, and Alerting on Darknet Events. 2017 IEEE Conference on Communications and Network Security(CNS). DOI: 10.1109/CNS.

2017.8228628

[7] Best CAPTCHA Solver Bypass Service. DEATH BY CAPTCHA. [Online]. Available:

https://www.deathbycaptcha.com/user/login. [Accessed Aug. 10, 2020].

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 References

[8] KIBANA Your window into the Elastic Stack. elastic. [Online]. Available: https:

//www.elastic.co/kibana. [Accessed Aug. 10, 2020].

[9] Selenium has many projects that combine to form a versatile testing system. Se-lenium Projects. [Online]. Available: https://www.seSe-lenium.dev/projects/. [Ac-cessed Aug. 10, 2020].

[10] Po-Yi Du, Mohammadreza, E., Ning, Z., Hsinchun, C., & Randall, A. B. (2019).

Identifying High-Impact Opioid Products and Key Sellers in Dark Net Market-places: An Interpretable Text Analytics Approach. 2019 IEEE International Con-ference on Intelligence and Security Informatics(ISI), pp. 110-115. DOI: 10.1109/ISI.

2019.8823196

[11] Tianqi. C., & Carlos. G. (2016). XGBoost: A Scalable Tree Boosting System. KDD

’16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 785-794. https://doi.org/10.1145/2939672.

2939785

[12] ONION.live. [Online]. https://onion.live/. Available: [Accessed Aug. 5, 2020].

[13] Billy. B., (2019) Serious Dark Web Warning Issued After Tor Browser Users Have Bitcoin Stolen. Forbes. [Online]. Available: https://www.forbes.com/sites/

billybambrough/2019/10/18/serious-dark-web-warning-issued-after-tor-browser-users-have-bitcoin-stolen/#2de79ab41b60. [Accessed Jan. 21, 2020].

[14] DeepDotWeb. Wikipedia. [Online]. Available: https://en.wikipedia.org/wiki/

DeepDotWeb. [Accessed Jan. 17, 2020].

References 使用梯度提昇機辨認暗網市場之毒品高衝擊賣家

[15] Kelly. Phillips. E., IRS Followed Bitcoin Transcations, Resulting In Takedown Of The Largest Child Exploitation Site On The Web. Forbes. October 16, 2019. [Online].

Available: https://www.forbes.com/sites/kellyphillipserb/2019/10/16/irs- followed-bitcoin-transactions-resulting-in-takedown-of-the-largest-child-exploitation-site-on-the-web/#437b1601ed0d. [Accessed Feb. 1, 2020].

[16] Nth room case. Wikipedia. [Online]. Available: https://en.wikipedia.org/wiki/

Nth_room_case. [Accessed Aug. 5, 2020].

[17] Installing Elasticsearch. elastic. [Online]. Available: https://www.elastic.co/

guide/en/elasticsearch/reference/current/install-elasticsearch.html.

[Accessed Aug. 5, 2020].

[18] Download and install jsoup. jsoup. [Online]. Available: https://jsoup.org/

download. [Accessed Aug. 5, 2020].

[19] Java Platform, Enterprise Edition 8 SDK - Installation Instructions. Oracle.

[Online]. Available: https://www.oracle.com/java/technologies/ee8-install-guide.html. [Accessed Aug. 6, 2020].

[20] Installation Guide. XGBoost. [Online]. Available: https://xgboost.readthedocs.

io/en/latest/build.html. [Accessed Aug. 6, 2020].

[21] Jason, B., (2016) Data Preparation for Gradient Boosting with XGBoost in Python.

[Online]. Machine Learning Mastery. Available: https://machinelearningmastery.

com/data-preparation-gradient-boosting-xgboost-python/. [Accessed Aug. 5, 2020].

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 References

[22] Tianqi, C., Introduction to Boosted Trees. University Of Washington. [Online]. Avail-able: https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf. [Ac-cessed May 26, 2020].

相關文件