• 沒有找到結果。

TANet 不當資訊搜尋與分析

N/A
N/A
Protected

Academic year: 2021

Share "TANet 不當資訊搜尋與分析"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

TANet 不當資訊搜尋與分析

邱志傑

王明習* 賴溪松

國立成功大學 計算機與網路中心

*國立成功大學 工程科學系

701 台南市大學路一號

電話

(06)2757575 轉 61000 傳真(06)2368855

聯絡人:

chiucj@mail.ncku.edu.tw

摘要

本文針對台灣學術網路上之不當資訊做 相關分析,除了可以主動搜尋各單位統計資料 外,更有主動搜尋不當資訊網站的功能,並提 供多視窗評分網站系統以方便快速評審相關 網頁,再針對相關鏈結及分析報表做初步探 討。 關鍵詞:不當資訊、網站搜尋、多視窗分析。

1.前言

由於網際網路技術的進步以及網路使用 人口持續的成長,全球資訊網(World Wide Web)已經成為目前大家最常使用的網路服務 之一。 隨著台灣學術網路頻寬和設備的增加, 國人對於網際網路之使用日益蓬勃發展,相當 多國中小學學童都有使用Internet 的習慣,並 且也都有個人的電子信箱。使用台灣學術網路 年齡層逐年下降和台灣學術網路使用的方便 性,對於許多心智尚未成熟的青少年學童來 說,若在網路上瀏覽到一些諸如色情、暴力、 賭博等不當資訊相關畫面,將造成學童成長過 程中很大的傷害。 基於台灣學術網路(TANet)是屬於以學 術教育為主之網路使用環境,要如何防制這些 不當資訊在台灣學術網路中出現,以避免台灣 學術網路成為不當資訊傳播之媒介,而產生不 良之教育示範及影響,將是不可忽視的重要問 題。

2.不當資訊之影響

2.1 不當資訊對身心發展有負面效應

許多網站為了本身的商業形象,大多不 願意提供放置任何和不當資訊相關的鏈結及 其相關資訊,以避免瀏覽者會對該瀏覽網站造 成不正確的誤解,因此不當資訊網站的互連性 遠高於一般網站的互連性,其關聯圖如圖一所 示。 圖一:網站關聯圖 要防制網路上的不當資訊,除了消極的 於使用者端架設防止瀏覽不當資訊網站的軟 體或程式[1]外;更應該積極的從各區網中心及 縣市網著手,提供防制瀏覽不當資訊網站的設 備,以防止在TANet 上之主要使用對象-學 生,有機會無意間瀏覽到對身心發展有不良影 響之不當資訊網站。並且在各ISP 機房及網管 中心應加強管理並分析不正常使用的流量,監 控並分析其使用行為,並適時給予警告,以徹 底阻絕不當資訊的入侵。

(2)

2.2 對網路設備的影響

網際網路在正常的使用情形下,上網及 查詢資料,一般所需要使用之頻寬並不會很 大,即使是因正常學術研究而需要較高的頻 寬,其使用時間並不會太長,因此整體來說, 在正當使用網際網路時,並不會有相當大的使 用流量。然而不當資訊之內容大部分是圖文並 茂,故存取之資料量相當多,需花費相當多的 網路頻寬,故常會拖慢一般正常使用網路連線 速度,影響真正需要上網查詢資料使用者的連 線速度及品質。但這些不當資訊的使用者雖花 相當多的時間與精神來下載及觀看不當資 訊,對他們而言,卻是百害而無一益的事情 [2]。

3.不當資訊防制系統建置

3.1 系統簡介

本系統主要是在台灣學術網路上建立一 個不當資訊防制系統之雛形,並對相關不當資 訊做相關分析及探討[3]。本系統在搜尋不當資 訊網站及過濾技術方面都已有初步的成效。 系統資料來源除了自動抓取各區網及縣 市網中心的相關統計資料外,更主動針對現有 部分商用搜尋引擎及不當資訊黑名單之網站 鏈結做處理,若使用者有網站需要申訴時,系 統也提供平台申訴機制及網站投票評選機 制,系統整體之架構如圖二所示。在圖二中除 了主動針對各縣市區網中心抓取其統計資料 外,本身更針對部分商用搜尋引擎及網站鏈結 做處理,也可以提供熱心民眾檢舉。 教育部 BackBone 使用者 TANet BackBone 區網中心 PROXY 伺服器 使用者 使用者 使用者 使用者 PROXY 伺服器 PROXY 伺服器 使用者 縣市網中心 PROXY 伺服器 使用者 使用者 使用者 使用者 PROXY 伺服器 PROXY 伺服器 TANet110防制中心 各單位PROXY 統計資料庫 ROBOT 抓取各單位 LOG資訊 民眾檢舉 搜尋引擎 網站相連 過濾系統 比對 機制 訓練 機制 評分機制 圖二: 系統架構流程圖 本不當資訊防制系統就功能面而言,它 可分成七大項目,分別為:不當資訊系統平 台、PROXY 統計資料、META-SEARCH、多 視窗評分網站系統、黑名單鏈結分析系統、 PROXY LOG 分析系統及新名單搜尋系統等 七大項,整個系統主要是針對不當資訊的蒐集 及過濾分析等作探討,如圖三所示為整體系統 方塊圖。 新名單 白名單 黑名單 空名單 爭議名單 投票名單 管理者 管理者介面 評審委員 評審介面 一般民眾 一般介面 1.不當資訊系統平台 4.多視窗評分網站系統 評審委員 一般民眾 尚未評分 之新名單 管理者管理 爭議名單 投票名單 2.PROXY統計資料 管理者 ROBOT抓取 各單位LOG資訊 各區網 資料庫 管理者 評審委員 一般民眾 NTU、NCTU、 NSYSU、NTHU等 LOG資訊... 白名單 黑名單 空名單 統計 資料 查詢 查詢 新增 比對 輸出 新名單 新增 3.META-SEARCH 5.黑名單鏈結分析系統 防制 小組 評分 加權 不當關鍵字詞 (800個以上) ROBOT抓取 搜尋引擎之URL 重大事項 網站加權 比對 機制 過濾系統 CONTENT FILTER IMAGE RETRIVAL 投票名單 Gais、Yahoo、Yam等 新名單 訓練 機制 評分 機制評分權重 比對 機制 過濾系統 CONTENT FILTER IMAGE RETRIVAL 投票名單 新名單 評分機制 評分權重 黑名單 網站鏈結 分析系統 6.PROXY LOG 分析系統 相關網站 、瀏覽IP、統計排名等 PROXY LOG 分析系統 PROXY 原始 資料 黑名單 相關網站 黑名單 瀏覽IP 黑名單 統計排名 7.新名單搜尋系統 PROXY 原始 資料 每月更新, 免費下載! 比對 機制 網站聚類 使用行為分析 多視窗評分介面 圖三: 系統方塊圖 而平台登入身分主要分成系統管理者、 評審委員及一般民眾等三種身分。 一般民眾可以免費登入,並且使用討論 區發表文章、查詢相關統計資料或最新動態、 相關報告及程式下載等。 評審委員可以擁有本身之資料庫,並且 可以針對爭議網站投票評分,而最大的好處是 可以下載最熱門之不當資訊黑名單,提供各單 位防制使用。 管理者主要負責平台資料庫管理、使用 者權限管理、更新統計資料、下載最新統計資 料等相關事務。使用者之功能及權限如圖四所 示。 管理介面 新增資料 管理者 評審委員 新增各區網月資料 更新統計資料 下載黑、白、空、建議名單 下載名單 黑、白、空名單查詢 依學校月份日期黑、白、空名單、次數、下載量 新名單查詢 更新所有、黑、白、空、 新名單統計資料 依學校月份日期黑、白、 空名單、次數、下載量 身分確認 新名單及評審名單管理 新名單管理 網站評分 新名單網站評選 一般民眾 網站統計 依學校月份日期黑、白、空名單統計及十大排名 網站評分 新名單網站評選 圖四: 平台使用者管理流程圖

(3)

3.2 區網統計資料之蒐集

在台灣學術網路(TANet)使用人數較多 的網路單位(如各區網中心及縣市網中心)均有 使用代理伺服器(Proxy Server),通常在代理伺 服器中可開啟統計每日資料之選項。本系統針 對每日統計資料主動搜尋及分析[4],而這些統 計資料內容包含網站名稱、點選次數及下載量 大小等相關統計排名,某單位當日統計畫面如 圖五所示。 圖五: 代理伺服器統計資料 本系統主動搜尋各網路中心統計資料[5] 並作相關彙整及統計,目前是抓取包含成大、 台大、交大、中興、中山等區網中心在內共計 15 台代理伺服器,目前已蒐集自民國九十二 年一月至九十二年七月等共九百多萬筆相關 資訊。相關資訊如圖六所示為各連線單位伺服 器之每月統計資料及不重複之統計資料,並且 提供詳細資訊鏈結。 圖六: 各連線單位統計資料

3.3 區網統計資料之查詢

系統將每日各連線單位之統計資料存於 資料庫中,系統可提供依主機名稱、月份、日 期、資料型態、排序方式、瀏覽次數、下載大 小、網址包含、不重複選取網址等做排名查詢 及新名單查詢等功能。由名單查詢可得知各單 位主機對不當資訊網站使用之排名及使用情 形。 如此可集合大家的力量,共同防制不當 資訊的傳播。如圖七所示為成功大學Proxy1 伺服器於民國九十二年七月十日之前二十名 黑名單依點選次數排序之不重複網站資料。 圖七:單日黑名單排名畫面

3.4

META-SEARCH

由於網路連線的快速及便利性,網際網 路的使用資源也隨著寬頻時代的來臨日益增 多。要將網站方便的讓任何使用者查詢,莫過 於使用網際網路的搜尋引擎了。透過搜尋引擎 的關鍵字查詢,可以快速的找到相關鏈結的網 站,可以說是相當快速方便。如圖八所示為商 用搜尋引擎[6]查詢畫面。 圖八: 商用搜尋引擎查詢畫面

(4)

當然,一般民眾搜尋不當資訊的方式莫 過於在搜尋引擎中輸入不當關鍵字詞,查詢相 關不當資訊網站。因此本系統也同時提供由借 助一般商用搜尋引擎找尋相關網站之方式,乃 利用META-SEARCH 的方式,分別向國內搜 尋引擎(包含 gais、yahoo、yam 及 google)輸入 約八百多個不當關鍵字詞,利用網路程式設計 的技巧,來取得相關網站資料,所搜尋回來的 URL 約略有四十六萬筆不當資訊相關網站, 並針對所取回之 URL 初步分析,並且紀錄該 網址(URL)及伺服器主機名稱(DNS) 於資料庫 中。如圖九所示為系統搜尋之結果。 圖九: 系統搜尋結果 而系統所收集之資料約有四十七萬筆相 關網站記錄,當中含有二十五萬筆不重複之網 址(URL)及四萬三千筆不重複之伺服器主機名 稱(DNS),相關資訊如表一所示。日後為了節 省資料庫之儲存量及減少重複性,將以伺服器 主機名稱(DNS)為資料庫儲存格式。 表一: 網站名稱分析一覽表 關鍵字 搜尋結果 不重複 URL 不重複 DNS AV 838 732 583 A 片 739 708 583 A 圖 1195 1180 910 所有 47 萬 25 萬 4 萬

3.5 多視窗評分網站系統

為了提供快速評審爭議性網站,本系統 提供多視窗評分網站系統,減少人工判別不當 資訊的時間,以增加工作效率。使用者更可以 依照本身系統畫面之解析度調整開啟網頁的 數目,更可以自行選擇不當資訊分類之等級及 分類標準,相關評審畫面如圖十所示。 圖十: 多視窗評分網站畫面 為了管理者及評審委員的需求,更開發 出單機版多視窗評分網站,但使用者電腦必須 安裝開放式的資料庫管理系統(ODBC),才可 和系統資料庫同步更新及下載網站資料,相關 畫面如圖十一所示。 圖十一: 多視窗評分網站畫面(單機版)

3.6 黑名單鏈結分析系統

根據相關研究指出,當使用者找尋到一 個不當資訊網站之後,大多會利用不當資訊網 站本身的網站鏈結方式[7],鏈結到相關的不當 資訊網站。相關網站鏈結如圖十二及圖十三所 示。 圖十二: 不當資訊網站鏈結範例(一) 圖十三: 不當資訊網站鏈結範例(二)

(5)

本論文利用由人工確認為不當資訊的網 址向下搜尋其不當資訊鏈結,同時也可將網站 內的不當資訊URL 找出來[8],並依層次往下 逐一搜尋[9],並且利用本系統之白名單(正常 網站)重複比對,經過初步測試,大多確定都 為不當資訊內容,結果相當滿意。以圖十二之 網站為例,一共有47 個網站鏈結(Hyperlink)。 以圖十三之網站為例,一共有146 個網站鏈 結。

3.7

PROXY LOG 分析系統

PROXY LOG 分析系統[10]可以快速的 分析該單位伺服器之不當資訊網站被瀏覽之 排名及瀏覽不當資訊之使用者排名外,也可分 析每個不當資訊網站被哪些使用者瀏覽,及顯 示每個瀏覽過不當資訊網站的使用者瀏覽其 他相關不當資訊網站等相關功能。 如此一來,可以方便的協助網管人員了 解各單位不當資訊之使用狀態。如圖十四所示 為不當資訊網站排名;圖十五所示為單一不當 資訊網站之使用者分析。 圖十四: 不當資訊網站排名 圖十五: 單一不當資訊網站之使用者分析

4.TANet 上網站分析案例

本系統建立在國立成功大學計算機與中 心,其不當資訊防制系統網址為 http://tanet110.ncku.edu.tw,分析之資料係來自 包含台大、交大、中興、中山與成大本身等五 個區網中心之 14 台 Proxy 伺服器上之統計資 料,分析時間包含於民國九十二年一月至七月 份(投稿日為八月初,統計資料持續蒐集中), 在實驗中我們分別針對中文及非中文語系各 取出排名前五大之不當資訊網站,分析是否提 供線上刷卡付費、免費瀏覽色情貼圖、色情影 片及媒介性交易訊息等相關特質。 經分析統計後其結果分別如表二及表三 所示,符號 O 表示有提供該項內容、X 表示沒 有提供該項內容。 表二: 中文不當資訊分析 表三: 非中文不當資訊分析

(6)

4.1 分析結果討論

除了上述之分析結果外,我們也利用國 立成功大學計算機網路中心所提供的中文不 當資訊資料庫做比對,發現校園網路不當資訊 的使用並不是非常頻繁,但瀏覽不當資訊網站 的次數卻相當的多,根據網路使用紀錄分析結 果表示,大多為特定使用者觀看不當資訊貼圖 網站或是觀看不當資訊留言版,導致不當資訊 網站排名及瀏覽次數大為增加。 本論文針對使用者在瀏覽行為的分析 上,也發現瀏覽不當資訊網站的使用者,也都 有週期性的瀏覽動作,多則每天觀看最新不當 資訊網站,所以校園網路不當資訊的氾濫情形 也相當嚴重,也是值得深思的一個問題。

5.結論

本文描述在台南區網中心目前所開發之 不當資訊搜尋及分析系統雛形,本系統包含了 不當資訊系統平台、PROXY 統計資料、 META-SEARCH、多視窗評分網站系統、黑名 單鏈結分析系統、PROXY LOG 分析系統與新 名單搜尋系統等七大部分。系統之主要用途是 希望能協助在台灣學術網路上對防制不當資 訊工作的執行,一方面能提高台灣學術網路的 流量暢通,另一方面能防止使用學生之身心的 不正常發展。本系統目前已有初步成效,並開 始協助相關單位防制台灣學術網路之不當資 訊。

6.誌謝

感謝教育部補助本研究之經費。

7.參考資料

[1] http://taiwan.cnet.com/computers/features/ story/0,2000054219,20000201,00.htm [2] http://www.web547.org.tw

[3] S. Brin, “Extracting Patterns and Relations

from the World Wide Web,”Proceedings of WebDB at International Conference on Extending Database Technology, 1998.

[4] B. Yuwono and D. L. Lee,”Search and

Ranking Algorithms for Locating Resources on the World Wide Web,”Proceeding of IEEE Conference on Data Engineering, pp.164-171, 1996.

[5] E. Selberg and O. Etzioni ,“The

MetaCrawler Architecture for Resource Aggregation on the Web”, IEEE Expert, January/February 1997.

[6] http://gais.cs.ccu.edu.tw

[7] T. W. Yan, M.Jacobsen, H. Garcia-Molina,

and U. Dayal, “From User Access Patterns to Dynamic Hypertext Linking,”Processings of International WWW Conference,May 1996.

[8] T. W. Yan, and H. Garcia-Molina“Index

Structures for Information Filtering under the Vector Space Model,”Processings of International WWW Conference, pp.337-374, 1994.

[9] D. Frei, H. P. and Stieger. “Making use of

hypertext links when retrieving information”. In D. Lucarella, editor, Proceedings of the ACM Conference on Hypertext, Milano, Italy, Nov. 30 -- Dec. 4,1992, pp.102-111, 1992.

[10] S. Acharya, H. F. Kroth, and V. Poosala,

“Systematic Multiresolution and its Application to the World Wide Web”, Proceedings of IEEE Conference on Data Engineering, pp.40-49, 1999.

參考文獻

相關文件

 區域網路 (Local Area Network, LAN) 為規模最小 的網路, 範圍通常在 2 公里內, 例如:同一層樓的 辦公室, 或是同一棟建築物內的網路。...

了解電腦網路的原理,學習使用 個人網誌及簡易的網頁設計,具 備電子商務的觀念、網路安全以 及網路犯罪與相關法規.

分區技能競賽 資訊與網路技術. 正式賽

以前參加科展時,在網路上看過水果發電的研究,覺得很好奇,便到網路上查相關的資

4.11 More on Deriving a Thévenin Equivalent 4.12 Maximum Power Transfer..

由於較大型網路的 規劃必須考慮到資料傳 輸效率的問題,所以在 規劃時必須將網路切割 成多個子網路,稱為網 際網路。橋接器是最早

熟悉 MS-OFFICE

熟悉 MS-OFFICE