序列分析顧名思義,是針對資料庫中,資料的順序關係進行分析。例如對於 時間軸上進行的時間序列分析(Time Series Analysis)。有許多資料產生的過程具 有時間順序的特徵,例如交易資訊、訊息傳遞記錄、天氣資料等等。在這些資料
中,時間序列代表一個重要的特徵,因此序列分析方式能夠用來分辨這些資料,
以擷取出有用的資訊。
(三)、利用資料倉儲進行文本採礦(Text Mining)
日常生活中,人們經常會丟棄的的資料裡,文本(Text)佔據了一個很重要 的部分。諸如記載資料的文件、個人文件、個人與其他單位的往來聯絡信件,例 如銀行帳單、某單位的會員通知等等,幾乎每天都會有新的文件傳遞到一個人的 手裡。這些文件往往在閱讀過後,在未經處理的狀態下,攜帶著個人資料(例如 信件就攜帶著住址、寄送日期、以及個人身份等資料)的文件,就可能會被丟棄。
在資料採礦中,對於文字資料所構成的資料庫或者資料倉儲,有一個特別的 分析方式,即稱為文本採礦(Text Mining)。與資料採礦的特性稍微不同,文本 採礦主要運用的技術,與特定字詞在文本中出現的頻率、數量、與時間有較高的 相關性。其主要運用在大量的文件累積出來的資料庫上,供作犯罪分析、案例追 蹤、知識萃取、知識管理、資訊搜尋、訊息過濾、事件關聯、 趨勢預測、決策 輔助等之用。
一般而言,文本採礦類似於一種文本的分析,希望能夠從大量的文字資料庫 中,粹取出高品質資訊。典型的高品質資訊例如一種模式辨識,藉由將文字分類 而後通過預測來產生。在處理輸入文本的時候,會將一些語言的特徵加入處理程 序,並將輸入文本中的雜訊濾除掉,而後文本採礦希望達到的效果,就是由這些 文本資料中,產生具有結構化的數據,如此才能接受評價。因此,高品質的文本 採礦,即是指能夠找到文字資料庫中,不同分群文字彼此間的相關性、新穎性以 及特殊性。
過往的文本採礦是由純粹的文字比對技術開始發展。但現今,藉由科技力量 的進步,文本採礦已經能轉變為包含訊息檢索、數據挖掘、統計等等複雜的分析 方式來進行。由於許多信息都至少具有文本的形式來保存,有些攜帶有文字影像
的圖像,也可以藉由文字辨識而同步儲存文本形式之料,因此文本採礦的技術即 逐漸受到重視。例如,在 2007 年,歐洲警察局(Europol)的重大犯罪部門(Serious
Crime division)發展出一套文本採礦分析系統,用以針對跨國組織犯罪進行資料
分析。此一綜合分析系統整合了目前最先端的文本分析以及文本採礦技術,並協 助歐洲警察局在執法時能夠提升到國際犯罪的層級42。在文本採礦應用到犯罪偵查範疇中,最明顯的一個功能,就是用來監測多重 線上以及無線通訊通道的特定關鍵字元,例如特定字詞、人名、或者個人的多重 化名或者特定的嫌犯。文本採礦具有特定的特徵,可以被組織用在分析文件當 中,但同樣的技術當然也可以用在組織犯罪案件的應用領域當中。因為政府組織 熟悉某些犯罪活動的型態以及組織,因此可以將這些知識化為文本採礦的工具條 件。目前在一些國家,例如英國,已經應用類似的資訊技術於犯罪偵防上。
更重要的一點,犯罪偵查者,例如檢察官或者警察,可以利用他們熟知的分 析方式,透過資訊工具的協助,處理非常大量的資料,而且機器運行分析的時候,
他們可以同時去處理其他的事務。文本採礦特別適用於沒有結構化的片段文字,
可以從數以千萬計的資料中,將具有同類片段文字的資料擷取出來,也可以安排 特定的文字群組,例如單字與單字之間的間隔位於多少字元之內,或者適用布林 運算,將文字群組進行「及」以及「或」的交集聯集安排,以過濾出所需要的資 料。又或是可以比較不同次的分析結果,以進一步限縮或者包含某些可能在單次 搜尋中,因為組合邏輯不同而漏掉的資料。當然這些文字群組的設定邏輯,還是 與犯罪偵防人員的經驗有著密不可分的關係,必需要藉由犯罪偵防的經驗,來定 義出有效率且明確的文字群組設定,方能在眾多資料倉儲中,撈取出所需要的資 料。
文本採礦與資料採礦最主要的分別,在於文本採礦的核心是語意處理分析運
42 關於歐洲警察局之資料庫介紹,請參見 http://en.wikipedia.org/wiki/Europol,最後瀏覽日期:
2009/12/2
算,單詞的意義以及片語的意義是分析工具的核心,在這個領域中,也會引入「自 然語言處理」(Natural Language Process)這種運算核心,使得使用者可以如同講 話般,將心中所想的思考邏輯直接鍵入成為搜尋條件,NLP 會分析使用語言(例 如中文)的語意邏輯,將使用者的語言邏輯,轉化為資料庫可以瞭解的邏輯組合。
簡單地說,NLP 即是讓電腦「理解」人類的語言,然後 NLP 模組會將人類的語 言轉化為電腦能夠處理的形式。舉例而言,犯罪調查人員可以直接輸入「在過去 三年間,與某甲通訊次數超過 100 次的人或單位」,系統接收到此條件後,會將 其拆解成為時間條件「從現在起算過去三年之間」以及搜尋條件「與某甲發生通 訊行為(例如郵件、電話等等)」以及「前述行為總次數大於 100」,然後開始搜 索資料庫,以便找出符合前述條件的資料。由於理解(understanding)自然語言,
需要關於實際世界的廣泛知識、語言以及運用操作這些知識、語言的能力,因此 理解的定義成為一個主要的問題。比如前述例子中,我們需要系統能夠「三年」
是一個時間條件,且起算點為「現在」,且某甲係一人名;而不能將「三年」判 斷為一個人名。
利用文本採礦之技術,便可能協助犯罪偵查進行。由於目前檢警單位之資 料,大多為以文字方式儲存,或者附有文字說明,因此文本採礦之技術,相當適 合用來對各式資料庫進行分析,而且個人所丟棄的物件中,包含有文字資料的更 是不虞匱乏,同時文件也具有易於蒐集與分配之特性,減少了資料蒐集的困難度。
為了要讓文本採礦更有效率,在製作資料庫所需要的資料時,對資料的內容 以及重點進行確實的理解是一個重點。舉例而言,如果我們隨機蒐集許多文件,
辨識其內容後儲存為不具任何分類的資料集合,那麼針對這一個雜散的資料集 合,應用文本採礦以期能夠獲得有效分析結果就會比較沒有效率,使用者會無法 立即理解所產生的分析結果究竟與什麼行為有關,同時使用者能夠使用的限制條 件也會隨之減少,導致無法準確且有效率的收斂到所需要的資料。如同在資料採 礦中所題的,收集資料時,將資料進行確切的分類是重要的。
一般而言,犯罪者的手法常可能具有某些可以被歸納的方法論,因此將此類 方法論套用在文本採礦中,便可以協助收斂搜尋的範圍(需要再次的強調,偵查 的經驗是能夠發現此類方法論的核心)。而由於現今資訊處理硬體的進步,因此 若分析結果產生後,發現分析結果偏差或者有誤的時候,可以迅速地進行修正,
重新進行分析或者就分析結果進行進一步修正,以期能夠在短時間之內獲得符合 預期的分析結果。
有幾個因素讓文本採礦或資料採礦能夠成為犯罪偵查的利器43。其中之一自 然就是當面臨日漸龐大的資料庫時,必須要藉助資料工具才能順利從中找尋資 料,尤其在防患未然方面,可以藉由平日的模擬與演練,事先過濾出一些「觀察 名單」,以減少或消弭可能發生的犯罪。其二是現在許多商業體也針對消費者進 行許多資料採礦的分析工作,例如 7-11 便會依照顧客的分類,在不同的地區鋪 設不同的商品以及擺設方式,而且商業體的分析工作往往作得比行政機關來得更 好,而有借鏡之處。第三就是使用硬體進行資料處理,能夠簡省人力。
文本採礦/資料採礦的分析工作,能夠發現一些資料彼此之間的差異之處,
這些差異有時是誤植,有時是真正的差異,透過連續不斷地進行分析,能夠更進 一步的整合這些資料,以利於往後的分析工作。
刑事偵查員即依據刑事訴訟法、調度司法警察條例、警察法等相關法律及警 察法施行細則等授權命命發動犯罪偵查工作。一般而言,當刑事警察得知犯罪發 生時,刑事警察即依上述原則開始進行犯罪偵查工作,包括蒐集犯罪情報,蒐集 犯罪事證、追查贓證物、逮捕犯罪嫌疑人、並協助檢查官起訴犯罪嫌疑人,使其 接受應有的法律審判及制裁。然在犯罪偵查中偵查勤務極為繁雜多樣,有學者將 偵查勤務依其內容概分為受理報案、情報諮詢、查贓、盤詰檢查、現場處理、查 察探訪、背景調查、跟蹤監視、搜索扣押、拘提逮捕、詢問、移送遞解、查證追
43 See Daniel J. Steinbock, DATA MATCHING, DATA MINING, AND DUE PROCESS, 40 Ga. L.
Rev. 1
贓及擴大偵破等十四項44。
文本採礦/資料採礦固然可以發揮犯罪事前預防犯罪發生的效用;在犯罪偵 查時,亦能協助前述偵查勤務的執行。例如在情報諮詢階段,現今的作法為對犯 罪現場周遭人物或與犯罪事件相關的人物進行諮詢,以期在諮詢的內容中,過濾 出可能可以進一步採用的情報,以利後續的情報諮詢或者其他偵查活動進行。而 文本採礦/資料採礦的分析結果,可以產出與該次案件較為相關之資料分類結果
文本採礦/資料採礦固然可以發揮犯罪事前預防犯罪發生的效用;在犯罪偵 查時,亦能協助前述偵查勤務的執行。例如在情報諮詢階段,現今的作法為對犯 罪現場周遭人物或與犯罪事件相關的人物進行諮詢,以期在諮詢的內容中,過濾 出可能可以進一步採用的情報,以利後續的情報諮詢或者其他偵查活動進行。而 文本採礦/資料採礦的分析結果,可以產出與該次案件較為相關之資料分類結果