• 沒有找到結果。

DNM 防堵爬蟲要素及其對應的對策

其中 elite 是索引頁 (_index) 的名稱,可以由使用者自行決定。bulk 的規定很嚴 格,每一筆資料必須恰好兩行。第一行,指令的種類與索引頁或資料辨認符等資訊,

上述範例指定了 index (新增或更新) 的索引頁是 elite,其資料辨認符是字串 961。第 二行,完整的 Json 資料格式,必須全部放在一行裡頭。每次 bulk,最多可以匯入 10000 筆資料,或者修改 _index 的 settings,如3.4.5之設定。

4.4 DNM 防堵爬蟲要素及其對應的對策

.

在爬取並剖析資料欄位的過程中,通常會遇到一些困難,詳述如下︰

4.4.1 資料頁面遺失 .

部份 DNM 新增的貼文數量龐大,DNM 伺服器端為了維護效能,時常會將重複、

惡意張貼、過期、違反規範的貼文刪除。所以在爬取的過程可能會取得空 HTML 或連 線失敗的例外情況。需要在 JAVA 程式中訂定 exception,適時停下爬蟲,回報錯誤訊 息,並將已丟失的商品貼文刪除。此步驟依照各個 DNM 的狀況不同,可以使用手動 或是另外寫程式自動判斷。例如︰ empire market DNM 頁面遺失的狀況特別嚴重,可

圖 2: 使用 torbrowser 瀏覽 elite DNM 實際取得的 fields

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家 4.4 DNM 防堵爬蟲要素及其對應的對策

能過兩天就有好幾百個商品貼文失靈,必須讓程式自動判斷。

4.4.2 帳號密碼登入與圖形驗證碼 (CAPTCHA) .

在爬 蟲 開始 運 行以前,必須在 torbrowser 手動登入網頁,並提取請求標頭的 cookie 字串,手動更新到 config<DNM> 檔案中,交由 JAJVA 剖析其 cookie key value pairs。例如︰ empire market 手動登入帳密並通過驗證碼測試以後,必須把 cookie 字 串複製並貼到 configEmpire 檔案中。

本防堵機制只在第一次啟動爬蟲時需要通過,持續時間⻑達一天,影響較小。若 是以 torbrowser 的圖形化界面訪問 DNM 的 “首頁” 都會被要求通過驗證,但若直接訪 問 “商品頁面”,部份 DNM 甚至會直接省略驗證,例如︰ Darkbay。

實 做 這 個 防 堵 爬 蟲 的 機 制 的 DNM 有 Darkbay, Empire market, Canna Home, Cannazon market。

4.4.3 定期 DDOS CAPTCHA 檢測 .

Empire market DNM 因遭受⻑期 DDOS 攻擊,時常隨機進行 CAPTCHA 檢測。

本防堵機制會強迫爬蟲停下來,必須撰寫 exception 處理,待研究者手動通過帳密登入 並更新 config<DNM> 檔案以後,重新啟動爬蟲。爬蟲遇到 CAPTCHA 會停下,如圖 3所示。

使用梯度提昇機辨認暗網市場之毒品高衝擊賣家

5 生物半衰期與商品衝擊

.

透過 JAVA 程式,自動拜訪 Google Search Engine,取得特定欄位,判斷各藥物之 生物半衰期,作為訂定高衝擊與否之標準。在 [10] 研究中所訂定的量化衝擊,是各麻 醉類藥物相對於嗎啡之等效劑量 (potency) 作為其效性的數值,有相關研究可以佐證。

本研究希望將範圍擴大到 DNM 常見的藥物,除了麻醉類藥物以外,還包含了大麻類 (Tetrahydrocannabinol)、卡西酮類 (Cathinone)、迷幻類 (Psychedelics)、中樞神經刺 激劑類 (central nervous system stimulant) 以及新興影響精神物質 (狡猾家藥物,New Psychocactive Substances,以下簡稱 NPS)。因此嘗試選擇一適用於此範疇的標準,即 生物半衰期。

5.1 生物半衰期 (Biological half-life)

.

任何化學物質在生物體內代謝為當前質量的一半所需消耗的時間。因為藥物在體

圖 3: 爬蟲遭遇 DDOS 檢測導致停下來的實際截圖

相關文件