劉瑞瓏 劉瑞瓏 劉瑞瓏 Rey-Long Liu
慈濟大學醫學資訊學系(所) information source for general users and healthcare professionals. Information referencability is particularly essential in healthcare. It considers integrity, reliability, skill levels, languages, and domains of healthcare information. Therefore, we propose a technology MyRR, which intelligently re-ranks healthcare web pages based on their referencability, which is adaptively estimated based on a set of web pages that deserves reference by individual users. Users may thus read good information to fit their needs. Experimental results show that MyRR can significantly improve the performance of referencability estimation. Moreover, MyRR achieves the estimation without conducting a time-consuming crawl on the entire WWW.
Keywords: Healthcare information, Information referencability, Adaptive referencability estimation.
1、、、、前言前言前言前言
有用的資訊,更有可能誤導使用者。在相關研究方面,
多僅以網頁間互相鏈結之情形為依據,其中較常見之 作法為 PageRank[6]及 HITS[4]。
然而,PageRank 依網頁間鏈結情形來計算各網頁被使 多網頁推薦瀏覽。PageRank 及 HITS 兩者均僅以一般 網頁間之鏈結為考量,網頁重要性乃依全球資訊網中
1 Google 網址http://www.google.com.tw/。
2 排序第八名為聯合新聞網之一日「發燒」新聞、國內要聞專欄 是以深度優先(Depth first)的方式,自給定的 Anchor
(Step 1)開始抓取網頁(Step 2.1)。針對每一個網頁,
MyRR 記錄三項訊息:(1)該網頁之網址(p),(2)
為非正被展開中且其可參考度經傳遞折扣(β,Step 2.2.2)大於等於一門檻值(Step 2.2.3)時,爬取該網 頁之向外鏈結。如果此向外鏈結之網頁非正處理中之 網頁始能列入考慮(Step 2.2.3.1.1)。此作法是為避免 網頁間互相迴圈式鏈結,而影響可參考度之正確評 估。最後,更新並在資料庫中記錄每個網頁之可參考 度(Step 2.2.3.1.1.1 及 2.2.3.1.1.2)。
網頁可參考度是以傳遞的方式來衡量:當一個網頁 p
後,傳遞 0.5(=1.0*0.5)給 q(RankInc),以增加其 可參考度值。q 再傳遞 0.25(=0.5*0.5)給 g,但不傳
Table 1 MyRR algorithm
Algorithm MyRR (anchor, R)
Input: (1) anchor is the URL of a starting web page trusted and designated by the user, and (2) R is a set {(q, rankq)}, where q is a web page, rankq is the AdaptiveRank value of q;
Effect: Starting from anchor, (1) add (n, rankn) into R for each new web page n found, and (2) update (q, rankq) for each existing web page q;
Begin
(1) PushStack(S, (anchor, 1.0, False));
(2) While S is not empty do
1, if expert ranks the
k
thsite after thei
thsite0, otherwise
療健康領域之查詢語句(Step 3)。至搜尋引擎 Google 檢索「所有網頁」6(Step 4),並記錄每個查詢語句
3 行政院衛生署優良健康網站 http://awards.doh.gov.tw/。
4 行政院衛生署國民健康局之熱門查詢詞 排序之錯置情形(Inversion)來衡量優劣(Figure 3 之 Step 6)。Inversion 之定義如下:
∑
34125(R),此排序所產生之 Inversion 分別為 0、0、2、2、及 0,故 Inversion 之總和為 4(IR=0+0+2+2+0)。
Inversion 之值越大表示與正確排序順位差距越大,較 不能提供合宜之資訊排名;反之,Inversion 之值越小 則越接近正確排序之順位,更能將適當之資訊優先列 予使用者,有助獲得具參考價值之資訊。故實驗結果 研究以 Inversion 為主要之驗證準則。分別比較 MyRR
Figure 4 網頁可參考度之問卷內容
系統排序結果: 3 4 1 2 5
專家排序結果: 1 2 3 4 5
Figure 5 Inversion 之計算範例
排序、Google 排序何者最接近專家之排序、所提供之 網頁排序最能反映真實之資訊可參考度。
3.3、、、結果分析與討論、結果分析與討論結果分析與討論 結果分析與討論
MyRR 和 Google 在 30 組查詢語句資料集中之表現如 Figure 6 所示。橫軸為各組查詢語句8,縱軸表在同一 查詢語句下,MyRR 和專家排序間之 Inversion 及 Google 和專家排序間之 Inversion。
整體來說,30 組查詢語句中,MyRR 有 18 組表現優於 Google,2 組持平,10 組略差於 Google。
此外,由於對使用者而言,檢索系統回傳之結果前幾
MyRR 為 64.57(1937/30),Google 為 71.30(2139/30), MyRR 改進 Google 約 9%之效能。前 5 名資料之平均 Inversion,MyRR 為 4.07(122/30),Google 為 4.97
(149/30),MyRR 改進 Google 之幅度達 18%。由於 被專家評判為前 5 名之網頁通常是較明確具高參考度 之網站,故此前 5 名資料群之大幅改進,意味著使用 者更不需將 20 筆資料完全瀏覽,即可於前 5 筆中發現 參考價值高且合其偏好之資訊,縮短尋找可用資訊之 時間,此貢獻深具實務應用之意義。
我們進一步以查詢語句 BMI(Body Mass Index,身體 質量指數)為例,比較 Google、MyRR、專家(Experts)
之排序情形(Figure 8)。橫軸為 20 筆回傳網頁,縱 軸 為 各排 序法 之順 位。 此例 中, MyRR 與 專 家 之 Inversion 為 64,Google 與專家之 Inversion 為 103。
如 Figure 8 所示,MyRR 之排序曲線較 Google 貼近專
平均數 Inversion 64.57 71.30
平均數 Inversion 4.07
Figure 7 Top5 資料集 MyRR 與 Google 之 Inversion
0
Query:BMI 之 URL
Rank
高且符合使用者閱讀特性之健康資訊。
3.4、、、未來展望、未來展望未來展望 未來展望
目前網頁之爬取數量未完全涵蓋整個全球資訊網,僅 以給定之高參考度網頁集、參數設定等,作為網頁進 行爬取與可參考度評估之依據。由於網頁集和參數之 設定會影響網頁爬取之數量,故部份網頁之可參考度 尚無值,視為 0,而造成 MyRR 於部份查詢語句表現 欠佳。此外,因僅透過網頁鏈結分析網頁之可參考度,
難免會爬取到不該納入考量之網頁(如廣告),導致 某些網頁之可參考度高於部分真正較具參考價值之網 頁,產生非預期之效益,干擾可參考度之排序。未來 將針對以上兩大問題做進一步之改良。
較可行之改良方法包括:(1)增加具可參考度網頁集 之網頁數量,或調整參數之設定,以計算更深且廣之 網頁可參考度。(2)改良網址之模糊比對,以便至資 料庫取得相近網頁之可參考度,減少網頁無可參考度 之機率。(3)杜絕廣告鏈結之干擾方面,可從網頁黑 名單之設置、網頁 Html 標籤(tag)之識別、網頁內容 關鍵詞之比對等著手。
4、、、結論、結論結論 結論
網際網路健康資訊直接影響使用者對於醫療的認知及 決策,其可讀性、品質、及完整性均相當重要。為避 免不甚可參考之資訊夾雜其中誤導使用者,本文提出 一個資訊技術 MyRR,透過健康資訊網頁間之交互鏈 結推薦關係,衡量網頁之可參考度。使用者可自行指 定符合自身需求之高參考度網頁集(合適之語言、領 域、品質完整、難易等),MyRR 即可以此為依據,
評估網頁之可參考度。
實驗證實,在給定之歷年得獎之優良健康網站作為高 參考度網頁集下,MyRR 可成功地進行健康資訊領域 可參考度之評估,並重新排序檢索系統之回傳結果。
MyRR 平均可改善 Google 9%~18%之效益,將可高參 考度之網頁優先排序於前,不僅讓使用者減少瀏覽過 濾所需資訊之時間,優先提供可參考度高之網頁,亦 可減少使用者瀏覽到不適切資訊造成誤導之機會。
MyRR 系統上線提供服務後,使用者即可輕易獲得參 考價值高且符合其閱讀習慣之網頁資訊,真正達到資
訊因人制宜之效益。
5、、、、誌謝誌謝誌謝誌謝
本 研 究 承 國 科 會 研 究 計劃 補 助 ( 計 劃 編號 : NSC 94-2218-E-320-006),謹此誌謝。
參考文獻 參考文獻參考文獻 參考文獻
[1] A. Risk and J. Dzenowagis, “Review of internet health information quality initiatives”, J Med Internet Res, October 2001.
[2] G. Jeh and J. Widom, “Scaling personalized web search”, In Proceedings of the 12th international World Wide Web conference, 271 – 279, 2003.
[3] H. A. Liszka, T. E. Steyer, W. J. Hueston, “Virtual Medical Care: How Are Our Patients Using Online Health Information?”, Journal of Community Health, Vol. 31, No. 5, 368-378,2006
[4] J. Kleinberg, “Authoritative sources in a hyperlinked environment”, Journal of the ACM, Vol.
46, Issue 5, 604-632, September 1999.
[5] K. S. Shuyler and K. M. Knight, “What Are Patients Seeking When They Turn to the Internet?
Qualitative Content Analysis of Questions Asked by Visitors to an Orthopaedics Web Site”, Journal of Medical Internet Research, Vol. 5, No. 4, 2003 [6] L. Page, S. Brin, R. Motwani, and T. Winograd, “The
PageRank citation ranking: bringing order to the Web”, Technical report, Stanford University Database Group, 1998.
[7] T. H. Haveliwala, “Topic-sensitive PageRank: a context-sensitive ranking algorithm for Web search”, IEEE Transactions on Knowledge and Data Engineering,Vol. 15, No. 4, 784-796, 2003.
[8] P. Wilson, “How to find the good and avoid the bad or ugly: a short guide to tools for rating quality of health information on the internet”, British Medical Journal, Vol. 324, No.7337, 598-600, 2002