• 沒有找到結果。

2.6 IRS-CI

.

美 國 國 稅 局 刑 事 調 查 處 (Internal Revenue Service Criminal Investigation, IRS-CI) 透 過 分 析 全 世 界 區 塊 鏈 以 及 比 特 幣 交 易 去 匿 名 化 (de-anonymizing bitcoin transaction) 來找到散佈在世界各地的犯罪者。2018 年 3 月 5 日 Welcome To Video

被 IRS-CI 與多個跨國調查單位聯合起訴,因為 Welcome To Video 不只在暗網經營購 物網站販賣未成年孩童的色情影片,同時,在逮捕過程中於嫌犯住所發現合計 23 名 正遭受監禁的孩童。嫌犯分散於美國的 23 個州、華府、英國、南韓、德國等超過 10 個國家,一共起訴 337 名嫌犯,主嫌為南韓國⺠,現正關押於南韓本土。全案破獲 約 7.5TB 未成年孩童的影片,其中含有超過 25 萬部影片 (已去除重複的影片),經 過美國國家兒童失蹤與受虐兒童援助中心 (National Center for Missing and Exploited Children, NCMEC) 分析,有 45% 的畫面過去不曾存在過,換句話說,這些影片是由 本案的嫌犯所獨佔 [15]。

暗網的犯罪不僅侷限於藥物濫用,還有更多實體的危害。例如︰性侵害並透過暗 網讓高級用戶下達虐待指令 [16]、販賣人口、木馬程式、勒索軟體、被破解的信用卡 等,不只金額巨大,更嚴重危害社會秩序以及人身安全。部份國家限制人⺠使用暗網,

並將此軟體列為違法軟體,凡使用者,一律視為罪犯。然此舉在人⺠擁有匿名舉報、

集會隱私、拒絕政府監控等人權意識的保護傘之下,無疑是助⻑潛在犯罪的茁壯。

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 2.6 IRS-CI

.

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家

3 資料集

.

本研究使用的作業系統是 Debian GNU/Linux 9 (stretch) 64 bits。

torbrowser 會定期更新所使用的 Circuit,瀏覽時不會出現問題。但是為了建構 onion services 的爬蟲,必須從 HTTP 協定的普通函式庫發出請求。先利用代理伺 服器 Privoxy 把一般的 HTTP 請求轉給http://localhost:9150處理才能真正用到 torbrowser 所建立的 Circuit,否則封包無法傳給 onion service。在爬蟲中呼叫 HTTP 函式的時候,需要設定使用 privoxy 的 Proxy 伺服器http://localhost:8118。

現有許多爬蟲程式支援爬取 onion service,大部份是一般用途的全文檢索爬蟲,

用在建立暗網的搜尋引擎。本研究的研究目標是毒品相關商品,在購物網站內部已經 完成分類,因此網頁分佈明確,類別架構完整。可以利用 Tor Browser 內建的 Firefox Developer Tools (F12) 查詢,直接對 HTTP 回傳的 response 內容進行標籤搜尋即可取 回對應的商品連結、需要的資料欄位,透過程式將抽取出的商品資訊一筆一筆轉成 Elasticsearch 支援的 JSON 格式。

ES 支援 REST 語法,可以透過 HTTP 網址串接 Index 頁的名稱、想要查詢的字 串以及其他 ES 控制命令,在程式中以 JSON 格式取回所儲存的資料,ES 也支援資料

的 aggregation 功能。Gradient Boosting Machine 是 Decision Tree 機器學習的一種變 形,XGBoost 實作了 GBM 以及 [11] 所描述的許多功能,在許多不同領域的研究中得 到相當優異的成績。

本研究資料來源包含下列五個網站 Darkbay、Empire market、Elite、Cannazon market、Canna Home 等五個 DNM,透過自製的爬蟲程式抓取資料。這五個 DNM 分 別有不同規模、防堵機制、經營策略,有部份是一般性購物網站,另一部份是專門領 域購物網站,是現存用戶較多的幾個網站,嘗試找出對現有 DNM 通用爬取架構。

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 3.1 IPv6 disable

表 3: 各 DNM 所蒐集到的商品項目數量與蒐集日期

DNM 商品項目數量 蒐集期間

Darkbay 35082 2020-04-06~2020-05-26 Empire market 41457 2020-04-18~2020-05-26 Elite 752 2020-05-22~2020-05-22 Cannazon 912 2020-05-22~2020-05-22 Canna Home 748 2020-05-22~2020-05-22

有鑑於 DNM 的先天特性,其服務並不穩定,時常關閉、更改網址、修改站名、

甚至強制被 FBI 等執法單位勒令停站,因此,爬取方法無法比照 clearnet。爬取資料 是分析 DNM 的第一步,過去研究者們累積的研究資料,因為停站的原因,現已無法 考證,而且因為年代久遠,資料代表性較弱,因此本研究主張收集最新的 DNM 資料。

選擇蒐集屬性不相同的 onion service 購物網站經營模式,是為了找尋爬蟲遷移典範的 高彈性架構,期望未來建構毒品實時分析系統,同時監控多個購物網站。

本研究嘗試過 D-miner[6] 提供的架構,奈何並沒有全部成功,且筆者更願意嘗試 適合 JAVA 語言的替代方案,因此在 D-miner 的基礎上進行部份修改。

表3是蒐集到的資料數目,每個 DNM 分開訓練模型,各自以 90% 訓練、10% 測試 的比例訓練 XGBoosting Machine。蒐集資料的範圍是 DNM 中的 “Drugs/Chemicals”

分類的全部貼文。這個分類底下有眾多子分類,大部分的 DNM 都會有這個分類,貼 文數也幾乎都是最多的。以下各節詳細說明重要設定與程式功能。

3.1 IPv6 disable

.

後續將重複嘗試存取 Google Search Engine,必定觸發 CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) 驗證,經過本研 究測試,如果放任 IPv6 開啟,可能讀取不到驗證所需要的圖片,導致無法通過驗證。

一勞永逸的方法就是關閉 IPv6 的通道,以 sudo 身份修改設定檔/etc/sysctl.conf,在

相關文件