產品評論特徵自動擷取之研究
全文
(2) 摘 要 產品評論特徵自動擷取之研究 徐毓雯. 現今大多數意見探勘研究中,對於產品特徵字詞的挑選大多由人工給定或是 依據詞頻的高低來決定,對不同種類的產品則需要重新給定產品特徵字詞,因此 我們希望透過自動擷取產品特徵字詞,降低在產品特徵挑選所花費的人力成本。 本論文運用不同的字詞重要性評估方式,探討如何有效地自動從論壇文章中擷取 出產品特徵字詞。我們以名詞為候選特徵字詞,分別對論壇文件庫及相機介紹文 件庫,統計每個字詞在文件庫中各廠牌討論文的出現頻率,反應出一般常見特 徵;運用不同廠牌產品特徵字詞出現的機率差異程度,反應出廠牌特有特徵;並 運用廠牌與特徵字詞出現的相關程度,反應出廠牌關聯特徵。此外我們亦考慮跨 文件庫的字詞出現機率差異程度,反應出論壇及相機文中常用的產品特徵字詞, 再透過常見字詞列表進行一般口語字詞的過濾篩選。我們提出產品特徵字詞重要 性評估函式,結合各種分析方法所得的重要性評估值作為產品特徵字詞擷取的依 據。實驗結果顯示以所提出的字詞重要性評估函式篩選字詞,可有效地自動擷取 出產品特徵字詞。.
(3) Abstract Automatic Feature Terms Extraction for Product Opinions by. Hsu, Yu Wen In the recent researches on opinion mining, the feature terms of products are usually manual assigned or determined according to the term frequencies. Consequently, it would take lots of costs when we choose different products. For this reason, the goal of this thesis is to study how to extract feature terms of products from documents in a forum automatically and effectively. We select forum and expert commentaries as the corpora. Within a corpus, the nouns appearing in the documents are selected as the candidate feature terms. The term frequency is counted for each candidate term for the documents discussing a certain brand, which shows the popularity of a feature term. The divergence of probability between different brands is calculated for each candidate term, which shows the particular feature term of a brand. The correlation of a feature term with a brand is also calculated to show the related terms of a brand. Furthermore, the divergence of probability between the two different corpora is calculated for a candidate term to show the special terms of different corpora. Finally, we propose an importance measure function of terms to evaluate the importance of terms, which combine the scores of the above various evaluation methods. The experimental results show that the rank list of feature terms obtained by using the importance measure function could extract product feature terms automatically and effectively..
(4) 誌 謝 本論文得以順利完成,最要感謝我的指導教授─柯佳伶老師。從一開始決定 題目到後來不斷地實驗改進,老師總是在我徬徨困惑時給我很大的鼓勵,遇到研 究瓶頸時耐心提供許多寶貴的意見,除了要督促完成進度之外,還要不斷地激勵 我對於自己研究的自信。在論文撰寫時間,不但逐字批改也教導我論文撰寫技 巧,在此由衷地感謝這段時間老師的指導! 在此也感謝口詴委員徐嘉連教授與沈錳坤教授百忙之中閱讀本論文,並提出 許多珍貴的意見與指導,使論文未詳盡部份臻以完善,在論文口詴時也给予很大 的勉勵,謹在此至上深深的謝意! 在我的研究生活,我要感謝我的同學衣菱、喬彬、翼麟、晉緯,不管是在課 業或研究上都給我很多意見與幫助,感謝建良、順宏學長給我提點研究的方向。 感謝我的大學同學兼實驗室學長姐佩君、蕙君、益郎、哲瑋,因為有你們讓我很 快地適應研究生活。感謝聿承學弟,總是耐心聆聽我的研究問題一起思考解決的 方法,並協助我處理許多瑣事,感謝學妹倚禛、馨蘭、熊薇、學弟光庭、昇宏、 柏先,在最艱辛的時候有你們給我打氣鼓勵,讓我在和樂的環境中完成本論文。 感謝我的大學同學以及朋友們,你們在我情緒低落時總是給我最溫暖的擁抱與安 慰。還有所有不管何時何地曾給我許多幫助的貴人,謝謝你們! 最後,我要感謝我的家人,爸爸、媽媽你們一直是我強力的後盾,讓我可以 專心於課業並修畢碩士學位,在此致上最深的謝意!謝謝大姐苦口婆心的砥礪, 謝謝二姐包容我的任性,還得當我情緒的出口,謝謝三姐幫我打點生活上的大小 瑣事,讓我可以毫無後顧地完成本論文,感謝你們給予我的關愛與付出!我愛你 們! 徐毓雯 謹識 於國立臺灣師範大學資訊工程研究所 2011 年 1 月.
(5) 目 錄 附表目錄...................................................................................................................... iii 附圖目錄....................................................................................................................... iv 第一章 緒論.................................................................................................................. 1 1-1 研究動機與目的 ............................................................................................ 1 1-2 論文方法 ........................................................................................................ 2 1-3 論文架構 ........................................................................................................ 3 第二章 文獻探討.......................................................................................................... 4 2-1 一般文件特徵表示方法 ................................................................................ 4 2-2 意見擷取方法 ................................................................................................ 5 2-3 特徵字詞擷取方法 ........................................................................................ 6 第三章 系統架構與資料前處理.................................................................................. 9 3-1 系統架構與流程 ............................................................................................ 9 3-2 資料蒐集與前處理 ....................................................................................... 10 3-2.1 文件庫建立與處理 ........................................................................... 11 3-2.1-1 論壇文件庫建立 ..................................................................... 11 3-2.1-2 相機介紹文件庫建立 ............................................................. 13 3-2.2 斷句處理與詞性標註(Part-of-Speech tagging)................................ 15 3-3 建立文件內容索引 ...................................................................................... 17 3-3.1 Lucene 概要介紹 ............................................................................... 17 3-3.2 建立文件索引 ................................................................................... 18 第四章 字詞統計分析方法........................................................................................ 21 4-1 文件庫的字詞類型 ....................................................................................... 21 4-2 文件庫內部的字詞分析 .............................................................................. 22 4-2.1 詞頻(Term Frequency) ...................................................................... 22 4-2.2 Kullback-Leibler Divergence ....................................................... 23 4-2.3 Mutual Information............................................................................. 24 4-3 跨文件庫的字詞分析 .................................................................................. 25 4-3.1 KLCF divergence ................................................................................. 25 4-3.2 Jensen-Shannon Divergence ............................................................... 26 第五章 字詞重要性評估............................................................................................ 28 i.
(6) 5-1 文件庫內部字詞重要性分析 ...................................................................... 28 5-1.1 詞頻分析 ............................................................................................ 28 5-1.2 Kullback-Leibler Divergence 分析 ................................................... 30 5-1.3 Mutual Information 分析................................................................... 32 5-2 跨文件庫字詞重要性分析 .......................................................................... 34 5-2.1 KLCF divergence 分析 ....................................................................... 34 5-2.2 Jensen-Shannon Divergence 分析 ..................................................... 34 5-2.3 Frequency Lists Filtering .................................................................... 36 5-3 字詞重要性評估函式 .................................................................................. 38 5-3.1 文件庫內部字詞重要性資訊 ........................................................... 38 5-3.2 組合跨文件庫字詞重要性資訊 ....................................................... 39 第六章 實驗結果與討論............................................................................................ 41 6-1 實驗來源 ...................................................................................................... 41 6-2 實驗評估 ...................................................................................................... 42 [實驗 1] 文件庫內部字詞為特徵字詞之比率評估 .................................. 42 [實驗 2] 論壇文件庫內部字詞資訊的準確度 .......................................... 43 [實驗 3] 相機介紹文件庫內部字詞資訊的準確度 .................................. 47 [實驗 4] 跨文件庫字詞資訊的準確度 ...................................................... 51 第七章 結論與未來研究方向.................................................................................... 56 參考文獻...................................................................................................................... 58. ii.
(7) 附表目錄 表 5.1 四大廠牌在論壇文件庫前 20 名的字詞........................................................ 29 表 5.2 四大廠牌在相機介紹文件庫前 20 名的字詞................................................ 29 表 5.3 四大廠牌 KL divergence 在論壇文件庫前 20 名的字詞 .............................. 31 表 5.4 四大廠牌 KL divergence 在相機介紹文件庫前 20 名的字詞 ...................... 31 表 5.5 四大廠牌 Mutual Information 在論壇文件庫前 20 名的字詞 ...................... 33 表 5.6 四大廠牌 Mutual Information 在相機介紹文件庫前 20 名字詞 .................. 33 表 5.7 四大廠牌 KLCF 在跨文件庫前 20 名的字詞 ................................................. 35 表 5.8 四大廠牌 DJS 在跨文件庫前 20 名的字詞 .................................................... 35 表 5.9 常見字詞的 FL(t)前 20 名的排名 .................................................................. 38 表 6.1 文件庫的句數與字詞數.................................................................................. 41 表 6.2 特徵字詞數...................................................................................................... 42 表 6.3 文件庫內部特徵字詞涵蓋比例...................................................................... 43 表 6.4 以 Sony 為例各評估函式找出的字詞集合的前 20 名 ................................. 55. iii.
(8) 附圖目錄 圖 3.1 系統流程圖........................................................................................................ 9 圖 3.2 相機論壇的品牌分頁...................................................................................... 12 圖 3.3 論壇中的討論文章格式.................................................................................. 12 圖 3.4 論壇網頁文章內容.......................................................................................... 13 圖 3.5 相機介紹網站.................................................................................................. 14 圖 3.6 相機介紹網頁的文字...................................................................................... 15 圖 3.7. 論壇文件斷句結果與詞性標註結果............................................................ 16. 圖 3.8 相機介紹文件斷句與詞性標註結果.............................................................. 16 圖 3.9 Document 物件結構 ........................................................................................ 18 圖 3.10 文件檢索流程圖............................................................................................ 19 圖 5.1 常見用詞列表.................................................................................................. 37 圖 6.1 論壇文件庫內部字詞資訊重要性各別分析的準確度.................................. 45 圖 6.2 論壇文件庫內部字詞重要性兩兩結合方法評估的準確度.......................... 46 圖 6.3 論壇文件庫內部字詞多個方法結合重要性評估的準確度.......................... 46 圖 6.4 論壇文件庫中相機特徵字詞的準確度比較.................................................. 47 圖 6.5 相機介紹文件庫內部字詞重要性各別方法的準確度.................................. 49 圖 6.6 相機介紹文件庫內部字詞重要性兩兩結合方法評估的準確度.................. 49 圖 6.7 相機介紹文件庫內部字詞多個方法結合重要性評估的準確度.................. 50 圖 6.8 相機介紹文件庫中相機特徵字詞的準確度比較.......................................... 50 圖 6.9 跨文件庫字詞重要性各別分析方法的準確度.............................................. 52 圖 6.10 跨文件庫字詞重要性結合兩個分析方法的準確度..................................... 52 圖 6.11 跨文件庫字詞重要性結合多個分析方法的準確度 ..................................... 53 圖 6.12 各個重要性評估函式的準確度..................................................................... 53 圖 6.13 相機特徵字詞在各個重要性評估函式的準確度......................................... 54. iv.
(9) 第一章 緒論 1-1 研究動機與目的 近代以來,網路快速蓬勃地發展,不只是在速度的提升,同時網路提供了許 多的便利與服務,例如網路使用者可以在搜尋引擎中搜尋想要查詢的資訊、透過 網路進行會議或社群活動,而網路購物平台的興起,讓所有網路使用者可以透過 虛擬網路選擇所需的服務,使得以往必頇透過面對面的各種社交活動都可以透過 網路來實現完成。 在這樣的消費型態底下,對於消費產品的認知來源,並不只是單一從網路購 物平台中得知產品訊息,很多產品評論網站提供網路使用者可以針對產品使用心 得發表自己的看法,例如 Mobile01 網站,提供最新的筆記型電腦、電腦周邊、 手機、相機等等產品資訊,除此之外,該網站亦提供使用者針對購買的產品提出 使用心得與產品評論。由於各式各樣的產品不計其數,對於產品的討論除了有專 業的產品評論家之外,大多數是一般使用者的產品消費心得,故其所涵蓋的觀點 與內容重點是非常多元的,甚至是包含了與產品不相關的文章內容。有時候使用 者可能對於某一廠牌的某一特定產品的內容想更進一步地了解,但是卻因為其評 論的文章內容過多,使用者得逐一點閱其產品評論的內容而花費許多時間;另一 方面,由於產品的多樣化,對於產品選擇上往往造成很大的困擾,不知道要以什 麼樣的特徵為選擇依據,故我們若能先列出討論文章中提到的產品特徵,則可有 效提供使用者可依產品時特徵瀏覽評論意見。. 1.
(10) 現今大多數對意見探勘的研究方法主要是探討如何從大量文章中區辨出是 否包含了個人意見,對於產品的評論是否包含情緒字詞,並將文章內容分類成產 品的正反面評價意見。 某一特定產品若經常被提出來討論,則該產品可能具備有一些特徵是使用者 可能感到興趣的,而過去對於意見探勘的研究在產品特徵擷取的部份,大多只重 視出現頻率較高的字詞,或是在初始時即給定一些特定的特徵字詞,但以人工給 定的方式,對不同的產品皆需重新給定而極耗費人力,因此如何自動找出產品評 論中的特徵字詞,是一個根本而重要的研究問題。 本論文探討如何用不同的字詞統計分佈資訊,結合各種不同字詞分析方式計 算字詞作為產品特徵的重要性,進行產品特徵字詞的擷取與篩選。. 1-2 論文方法 本論文選用相機產品評論的論壇,蒐集了論壇中的所有網頁內容,將網頁中 不相關的頁面內容,例如廣告、網頁標籤等等移除,取出使用者發表的文章與回 覆的內容。接著對論壇中所有的句子進行詞性標註,在此我們假定產品特徵字詞 皆為名詞,故我們取出詞性標註為名詞的字詞作為我們的候選字詞。 我們統計所有候選字詞在論壇文件庫出現的次數頻率,並統計字詞在各個不 同廠牌計算各別出現的次數。根據每個字詞在文件庫中各廠牌討論文的出現頻 率,反應出一般常見特徵。並透過計算不同廠牌間機率差異程度值,找出在特定. 2.
(11) 廠牌中特有的特徵字詞。除了考慮不同廠牌間的機率差異程度所挑選出來的特有 特徵字詞之外,我們亦計算字詞與廠牌之間的關聯程度,可了解在某一廠牌中會 與廠牌名稱經常共同出現的候選字詞。此外,我們亦選擇不同的相機介紹網站, 取出相機介紹網站的文章建立相機介紹字詞文件庫,採用和論壇文件庫相同的方 法取得字詞在文件庫內的各項評估值。我們並運用字詞在論壇文件庫與相機介紹 文件庫的出現機率差異程度值,篩選過濾一些論壇常見的一般口語字詞,同時也 找出在不同文件庫中特有的特徵字詞。針對一些經常出現而非相機相關的特徵字 詞,我們則運用常見字詞列表,將在一般文章中也很常出現的字詞進行過濾篩選 的動作。 最後我們綜合各種不同字詞分析方法評估字詞重要性的特性依據,結合各種 字詞分析評估值,設計出一個字詞重要性評估函式,依其評估值高低對候選字詞 進行排序,依序選出前幾名為產品特徵字詞。我們在實驗的部份針對各種字詞分 析方法及其不同組合,評估所擷取出產品特徵字詞的準確度。. 1-3 論文架構 本論文以下章節內容簡介如下:第二章說明相關文獻與探討;第三章說明本 論文的系統架構與運作流程。第四章介紹字詞統計分析方法,第五章進行字詞的 重要性評估,並提出字詞重要性評估函式,第六章進行字詞重要性評估的實驗與 結果,第七章則提出總結與未來研究的方向。. 3.
(12) 第二章 文獻探討 Web2.0 的興起,使得使用者不再只是扮演網路資源接收者的角色,亦可成 為網路資源提供者,這使得很多的網站紛紛開始重視到以個人為中心的網頁設 計。網路使用者可以透過部落格或者是論壇發表自己對於產品、時事新聞等意 見,同時也可以透過類似的平台讓網路使用者可以快速查詢到相關的產品資訊, 並提供作為消費者的參考依據。例如使用者可以透過網路搜尋到產品的詳細功能 以外,也可以在產品評論的網站上搜尋到消費者的使用心得,以這些資訊來決定 是否購買該項產品。在此研究中我們將重點放在如何透過自動化的方式在產品評 論文章中找出討論者主要描述之產品特徵,故如何從評論文章中擷取產品相關資 訊是我們主要探討的議題。. 2-1 一般文件特徵表示方法 從大量的文件中,要找出使用者最渴望得到的內容,不管是對文件中找出一 篇或多篇文件中最具有代表性的重要句子的摘要;對於大量文件中,較感興趣的 文件部分分類;亦或是對於整體文件相似概念的分群等,皆必頇要先瞭解文件之 間的相關性。經常被採用的文件資料模型是向量空間模型(Vector Space Model), 向量空間模型不需要事先訓練模型,在計算成本上較低,文件以所包含的字詞當 作特徵,建立對應的特徵向量,將資料集出現的字詞當作特徵向量的一個維度, 將每個文件包含的字詞算出對應到特徵的特徵值,建立其特徵向量。. 4.
(13) 特徵的特徵值取法,可以透過計算特徵字詞與其他字詞共同出現的機率,或 者是依據該字詞出現在文件中與否,但此種方法無法表達出文件內容在不同特徵 上的重要程度,故後續研究中多數採用字詞對於一個文件的 tf-idf 值為特徵值。 取用字詞的 tf-idf 值作為特徵值當作文件的相關度,會對文件中與關鍵字相 同的字詞計算相似度,但忽略了不同字詞間的相關程度。[16]作者提出加入考慮 關鍵字與文件中字詞的 Mutual Information 以及 Information gain 值作為字詞的權 重,可以計算出文件中與關鍵字不同的字詞之間的相關程度。. 2-2 意見擷取方法 以往的研究多數是針對意見擷取的部份進行情緒分析。[1]針對新聞或部落 格評論中,將意見擷取區分成多個不同的層級,字詞層級、文句層級、及文章段 落層級,每一個層級分法都有取其權重的方法。透過字詞的情感程度值來分析, 並進一步將其作視覺化的呈現。[2]提出在意見探勘與情緒分析時,除了以文字 的正反面情緒作區分外,也可針對其不同的特徵,了解使用者對於產品的滿意程 度。對於產品的部份特徵,如外觀或是功能上的不足存有哪些意見。進行意見分 析的同時,可以更深入去探討哪些使用者所寫的評論偏頗部份。使用者可能會有 偏好的產品品牌,進而編撰攻擊其他品牌之文章。針對這個部份作者提出一些可 能被視為是惡意評論的特徵,並做進一步的分析。 [3]透過建立一個情緒字典,計算每一個句子的情緒分數。除此之外,再計. 5.
(14) 算每一個句子與查詢詞與相關的程度值,合併情緒分數和相關程度計算出來的值 就可以找出與搜尋的主題相關且又含有個人情緒意見的句子;但是由於部落格的 文章發表時間點會影響一篇文件與搜尋詞語的相關度,故以文件發表的時間點為 基準可以搜尋出包含有關鍵字但相關的文件,若加入使用時間點這個特性可以提 高搜尋結果的精準度。此外,[4]是先決定文件與查詢詞是否有關,再建立一個 意見的SVM分類器,將所有和查詢相關的文件以句子為單位,其中每個句子都 被標記為主觀意見或是客觀意見,透過統計的方式判斷文件的意見程度。 [5]指出了以往的方法主要是針對單一的特徵找到其對應的意見字詞,在這 裡希望可以達成以特徵之間的相似度來分群,在特徵中找出其相似性較高的詞, 同時也在意見詞中找出較相像的詞,接著再透過特徵與意見之間的關聯進行分群 的動作。在做意見擷取的時候會取用一個邊界值,例如取「的」前後數個字,取 出之後將其非檢索用字去除,將其保留下來的部份做為其內部對應之用途,再從 這些字詞延伸。. 2-3 特徵字詞擷取方法 本論文的研究透過特徵字詞的擷取,對於論壇中各式各樣的內容取出論壇中 討論的特徵字詞,所以如何從文件中取出具有代表性的特徵字詞是我們主要討論 的重點。 [11]中提出將蒐集的文件集合,計算字詞的頻率,並對句子做詞性標註. 6.
(15) (Part-of-Speech tagging),透過關聯規則(association rule)的方式,擷取出頻率較高 的特徵,而頻率較低的特徵則透過已知的意見字詞列表,找出與意見字詞經常出 現的名詞,以及形容詞、名詞片語等當作特徵字詞。[12]同樣採用擷取文件集合 中,出現次數較高的名詞當作特徵字詞,並透過已知的意見字詞進行特徵與意見 字詞的配對,並使用語法圖(gramma graph)的方式找出可能的配對。只有出現頻 率高於某一程度的字詞才會放入特徵詞表裡,再進一步做意見分類與摘要。 [13]則是將焦點放在找出比較級或最高級的句子中所指代的名詞,透過預先 給定的 n 個種子識別實體(seed entity),透過樣式比對(pattern match)的方式,以種 子識別實體的前後 5 個字以內的樣式,做循序樣式探勘 (Sequential pattern mining),刪除不符合句子樣式的字詞,保留下來的詞則作為候選特徵字詞。 近年來,許多研究會使用外部知識來源補足其資訊的可靠度, WordNet (http://wordnet.princeton.edu/)以及維基百科(http://www.wikipedia.org/)則是最常被 使用的外部知識來源。WordNet 是一線上英文字典,每個字詞都有其語義信息, 故可從其語義信息得到其同義詞與反義詞等資訊,在進行詞意分析時多數會採用 這個字典來輔助。 [14]提出透過非監督式的學習,將特徵字詞與意見字詞作配對結合,而特徵 字詞擷取便是採用類似 WordNet 的字典與字詞轉換(token tranformation),對句子 進行標籤,取得與產品相關的資訊。決定特徵字詞表的方式,是透過已經標定好 的意見句子,利用句子中的詞性標註為名詞,從 WordNet 找出其相關的字詞或. 7.
(16) 同義反義字做為特徵字詞。[7]亦是提出一個非監督式的方法自動取出相關的面 向,先從文件集合中取出重要的字詞,再透過如 WordNet 和維基百科之外部資 源來擴充找出的面向相關字詞,以建立一個新的字詞庫作為依據。[15]提出利用 外部知識來源來計算字詞間的相關程度。作者使用便是維基百科的文章標題作為 文件中重要字詞擷取來源,即關鍵字詞若出現在維基百科的標題中,則視為重要 字詞,並當作特徵透過這樣的方式可以過濾無意義或不重要的字詞。. 8.
(17) 第三章 系統架構與資料前處理 3-1 系統架構與流程 Expert Commentaries of Camera. Forum Documents. Data Preprocessing. Data Preprocessing. Candidate Terms. Candidate Terms. Term Statistic. Term Statistic. Term Frequency List. Candidate Feature Evaluation. Feature Set. 圖 3.1 系統流程圖 本論文的系統架構可分成下列部分:資料前處理(Data Preprocessing)、字詞 分析(Term Statistic)、特徵字詞重要性評估(Candidate Feature Evaluation),如圖 3.1 所示。. 9.
(18) 系統流程簡要說明:從產品評論論壇中取回資料後,將網頁資訊及其他不相 關的頁面內容,例如超連結、網頁標籤以及沒有意義標點符號等濾除,只取出使 用者發表的文章與回覆的文字,接著使用詞性標註的方式對所有的句子進行詞性 標記。取出標記為名詞的字詞,並統計在各個不同廠牌出現次數、計算 TF、MI 等等字詞的特徵值,取出可能的候選特徵字詞。針對較不顯著的特徵字詞,我們 透過 KL-divergence 的計算,將其相較於其他廠牌產品屬於較特殊或有意義的特 徵字詞找出。候選字詞中可能包含過多無意義或不重要的字詞,在此我們加入相 機介紹網站,同樣進行各種字詞統計分析,我們並利用不同文件庫間字詞分析方 法,使用 KLCF、JSD 以及常見字詞列表方式將其做過濾擷取,形成一個候選特 徵字詞集合,透過結合各種分析方法所得的權重值排序即可得到一個產品特徵字 詞列表。. 3-2 資料蒐集與前處理 本論文針對產品評論進行分析,我們取用一個數位相機的論壇作為資料來 源,在論壇中,除了使用者會發表產品評論以外,其他使用者亦可針對該使用者 的評論提出回應,同時也有使用者對於該產品的使用心得,故我們將這些資料蒐 集存入資料庫中,以便之後進行查詢時使用。論壇文章中資料取回後,因包含網 頁資訊及其他不相關的頁面內容,例如超連結、網頁標籤等雜訊濾除,萃取出使 用者發表的文章與回覆的文字,接著透過自然語言處理的方式,將文章內容中的. 10.
(19) 句子進行語意詞性分析,取出可能的特徵字詞之後對其進行擷取與過濾,以下將 各別介紹前處理的細部流程與方法。. 3-2.1 文件庫建立與處理 3-2.1-1 論壇文件庫建立 本論文選取出相機論壇文章中常被使用者提及的特徵,故我們選擇相機愛好 者推薦的論壇 Imaging Resource (http://www.photo-forums.com/),網站上的資訊針 對各別品牌有不同的討論區塊,如圖 3.2 所示。各個品牌底下會有不同的討論議 題與相機內容,如圖 3.3 所示。針對大量網頁文章內容的蒐集,透過網頁的連結 與網頁標籤等內容分析,使用 Python 程式語言抓取文章中的段落文字。網頁擷 取分成下述兩個部份: 1. 對各別品牌內的網頁資訊,透過 Python 程式取出頁面中的包含完整的超 連結標籤(hyperlink)以及連結錨文字(Anchor text),以此論壇為例: <a href="/WebX?50@112.BWaFcCNtmQY.0@.ee92556/0"> Sony Cybershot DSC-P72 Discussion</a>。 2. 討論文章頁面中取出文章內容部份分成兩個部份,標題作者發表內容以 及其他使用者回應內容部份。擷取作者發表內容時網頁標籤必頇包含表 格資訊及“ Original Topic Message”,如下述: <td bgcolor="#2B5A78"><B>Original Topic Message</B></td></tr><tr> <td bgcolor="#F6F6FF">Per reader request,…</td></tr>. 11.
(20) 擷取其他使用者回應內容部份,則在表格內容中需要包含表格資訊之 外,尚需有段落標籤<p>,如下述: <td bgcolor="#F6F6FF"><p>Can some one PLEASE explain to me…<br><br>. 圖 3.2 相機論壇的品牌分頁. 圖 3.3 論壇中的討論文章格式. 12.
(21) 取出的文章格式如圖 3.4 所示。. 圖 3.4 論壇網頁文章內容 3-2.1-2 相機介紹文件庫建立 相機論壇中的文章,我們可以取得很多特徵字詞的資訊,但是因為論壇文章 中會出現的字詞很多時候包含了個人使用習慣、或者網路用語等等,使得在詞性 標註等等會出現誤差,此外亦會包含很多一般習慣口語的字詞,這些並非我們主 要想要獲得的特徵資訊,所以我們想要對這些字詞做進一步的擷取與過濾。 首先,為了讓我們擷取出來的特徵字詞,對於相機特徵的描述更具有代表性, 我們選擇取用了另一個相機網站(http://www.whatdigitalcamera.com/),這個網站主 要是介紹相機的選購與如何使用,如下頁圖 3.5 所示,這個部份有助於我們了解 購買產品時主要參考的特徵字詞。此外該網站也包含各個廠牌產品的評論,這些. 13.
(22) 評論都是由專業的評論家所撰寫,故我們選擇此網站購買指南與產品介紹評論兩 個部份,作為輔助我們找出重要特徵字詞的外部資源。針對網站的資料蒐集亦是 採用 Python 程式撰寫抓取網站中文字的部份,取出文字部分之後對其進行斷句 處理。如下圖 3.6 所示。取出文章內容之後,同論壇文章的處理方式,圖 4.3 顯 示我們對其句子進行詞性標註之後的結果。. 圖 3.5 相機介紹網站. 14.
(23) 圖 3.6 相機介紹網頁的文字 3-2.2 斷句處理與詞性標註(Part-of-Speech tagging) 文件庫建立之後,我們會以句子為單位對特徵字詞進行分析,所以必頇先對 文件庫的文件做斷句處理。論壇或討論區的文字,受到使用者的使用習慣,會 加入一些表情符號等特殊文字,故在斷句的時候,我們會將連續出現兩個以上 的標點符號進行取代的動作,例如: “ ^^ ”, “:( ” 等取代成“ .”。 我們在討論相機的外觀(design)、鏡頭(lens)、快門(shutter)、光圈(aperture) 等等時,而這些字詞往往皆為名詞,故我們假定文件庫中名詞為特徵字詞候選, 所以我們必頇先對句子進行詞性標註。詞性標註是對一個句子中的每個字詞,標 註其文法中對應的詞性,在此我們採用 Stanford Natural Language Processing Group. (http://nlp.stanford.edu/software/tagger.shtml) 所提供的 Stanford Log-linear. Part-Of-Speech Tagger API,該應用程式已廣泛運用在文件集合的詞性標註處理, 故我們使用這個應用來對文件庫中的句子進行詞性標註,並對其作簡單的原型處 15.
(24) 理(stemming),例如:s、es、ies 等名詞的原型處理。論壇與相機介紹文件庫詞 性標註的結果如下圖 3.7、圖 3.8 所示。. 圖 3.7 論壇文件斷句結果與詞性標註結果. 圖 3.8 相機介紹文件斷句與詞性標註結果. 16.
(25) 3-3 建立文件內容索引 各個廠牌會常出現的特徵字詞不同,針對不同的廠牌與特徵字詞之間的關 係,我們需要一個快速可以算出字詞在句子中出現的頻率與句子數的方法,透過 Apache Lucene (http://lucene.apache.org)我們可以快速地取得相關的資訊以加速 後續處理。. 3-3.1 Lucene 概要介紹 Lucene 是由 Apache 所提供的全文檢索引擎,以 Java 程式建立的一個完整 本機文件搜尋檢索,現今很多搜尋應用系統,皆是以 Lucene 來實現,如知名的 書籤網站(http://digg.com/)、台灣科技新聞網站(http://taiwan.cnet.com/),都是透過 這個程式庫來完成。 Lucene 的架構主要可以分成兩大部分,建立文件索引與索引檔檢索文件, 以下簡單敘述其主要功能與用途。 1. 建立文件索引: 在 Lucene 中建立索引的單位是 Document,每一個 Document 物件底下又可包含數個 Field,即為資料的屬性欄位,可以儲存 如文件來源路徑、文件編號、以及文件內容等分別存入各個對應的 Field 中,程式便可以透過 IndexWriter 寫入索引檔,IndexWriter 具有將新文件 寫入索引檔的功能。此外 Lucene 也提供 Analyzer,可以將 Field 中的句子 進行斷詞分析,供系統建立索引檔後針對各別字詞進行計算等其他用途。. 17.
(26) IndexReader 則可以讀取與刪除索引檔中的文件資訊。 2. 索引檔檢索文件:當我們建立好文件索引檔之後,我們即可對欲查詢的關 鍵字詞進行搜尋,Lucene 使用 QueryParser 是利用查詢式對使用者所下的 查詢進行分析,因使用者查詢並不一定只包含一個查詢詞,故可透過不同 的查詢式,如:布林查詢(Boolean Searches)、模糊查詢(Fuzzy Searches)、 範圍查詢(Range Searches)等,經過 QueryParser 得到不同的分析結果。程 式在經過分析之後,將結果傳給 IndexSearcher 對指定的索引檔進行搜尋。 搜尋得到結果可透過 Hits 來取得,Hits 包含搜尋到相關的 Document 數 量、Document 的內容等資訊,此即為一本機文件檢索結果。. 3-3.2 建立文件索引 本篇論文中主要是透過 Lucene 建立索引檔,可快速取得字詞頻率,並用來輔 助計算兩個字詞在同一句子同時出現的程度。以下為本篇論文的 Document 物件 內容,如下圖 3.9 所示,以及索引建立與搜尋的說明與流程圖,如圖 3.10 所示。. Document Filepath. Docnum. Context. 圖 3.9 Document 物件結構. 18. POStag.
(27) Document Query IndexWriter Analyzer. QueryParser IndexSearcher. Index. Hits. Relevant Documents. 圖 3.10 文件檢索流程圖 首先,文件庫經過前處理後以句子為單位,我們對這些句子進行詞性標註之 後,分別將文件的路徑、文件編號、文件的原始內容、以及詞性標註過後內容, 一一存入 Document 物件中,將這些 Document 物件逐一寫入索引檔中。因為文 件庫內容皆為英文,故我們選擇 StandardAnalyzer 來進行斷詞分析。 我們要知道哪些特徵對於各別廠牌會較有相關,所以當我們在查詢時,針對 廠牌與特徵之間出現的關係並進行運算,在第四章提到對於字詞的分析時我們會 去計算共同出現的情況,以及特徵各別出現的情況,在查詢式的部分我們採用了 布林查詢與範圍查詢的查詢式,透過布林查詢,我們找出包含廠牌和特徵共同出. 19.
(28) 現的句子(Brand AND Feature),與特徵或廠牌出現的句子(Brand – (Brand AND Feature) & Feature –(Brand AND Feature));透過範圍查詢,我們限定其兩個字詞 間出現的距離要在前後五個字詞內出現才具有一定程度的相關性。. 20.
(29) 第四章 字詞統計分析方法 從文件庫中取出的內容,包含了各式各樣的字詞,如何從這些句子找出重要 的特徵字詞,我們將文件庫分成四大廠牌,針對各個廠牌的字詞進行文件庫內部 分析,以及跨文件庫的字詞分析。. 4-1 文件庫的字詞類型 首先從文件庫中的字詞進行整理分析之後,我們發現字詞主要可分成四種 不同特性,以下簡要描述其特性。 1. 相機特徵字詞:主要是描述產品所具有的特徵,如:電池(battery)、鏡頭 (lens),等等這類字詞我們可以清楚地知道使用者在描述的是產品組成元 件或構造。 2. 一般特徵字詞:描述相機相關的訊息,但是卻不是我們所需要的特徵字 詞,如:相機(camera)、照片(picture)等等這類的字詞,雖然和相機有其 關聯,但是對於我們了解產品的主要特徵較不具重要性。 3. 廠牌特有特徵字詞:包含產品系列名稱、產品型號,某特定配件的特徵 字詞,如:Sony 的 Cybershot、H20、Fuji 的 Finepix、MemoryStick 等等 各別廠牌的特別字詞。 4. 口語與一般字詞:一般文章中亦會出現的字詞,以及論壇使用者習慣用 語,諸如:“problem”、 “review”、 “hi”,這些字詞對於我們找出特徵字. 21.
(30) 詞來說沒有幫助。 針對上述的字詞類型歸結,我們主要希望可以找出相機特徵字詞、廠牌特 有特徵字詞對於產品特徵擷取有幫助的字詞,接下來我們將對文件庫內部字詞 進行分析。. 4-2 文件庫內部的字詞分析 4-2.1 詞頻(Term Frequency) 在相機論壇中,我們會想要從論壇的討論得知哪個相機廠牌,經常會被提到 的特徵是什麼,不同的廠牌間關心的特徵焦點是否不同,我們可以知道使用者在 選擇相機的時候會針對那些特徵進行挑選。 在這裡我們分成四個廠牌進行不同廠牌的比較與討論,討論相機的外觀 (design)、鏡頭(lens)的好壞、快門(shutter)快慢、或光圈(aperture)的設定等等…, 都會使用專有的名詞來描述想了解的特徵,故我們在此只考慮採用詞性標註 (POS-tag)標註為名詞的字詞。我們認為在某廠牌當出現頻率有達到一定程度時, 則該特徵是為該廠牌主要討論的核心,我們為所有論壇字詞計算出現的頻率與在 整個資料集合中的機率分布 TF(t)。. 22.
(31) 4-2.2. Kullback-Leibler Divergence. 透過詞頻的分析,我們可以找出經常被討論的特徵字詞,而除了一般討論相 機會出現的特徵之外,各別廠牌也可能包含特有的特徵字詞,型號系列名稱 (Cybershot, Finepix, T100…)、特有配件名稱(MemoryStick)等等,這些字詞對於想 了解不同廠牌有哪些是產品特色也有很大的幫助,故針對不同廠牌有哪些特殊的 特徵,我們透過 Kullback-Leibler divergence(以下簡稱 KL divergence)的概念進行 字詞分析。 KL divergence 是用來衡量比較兩個機率分布差異程度,在資料檢索領域常用 來比較兩個文件集合中各個字詞出現機率分布的差異。當差異值越大,則代表兩 個文件集合的內容相去甚遠,反之則代表兩個文件集合的相關程度很高,在此我 們利用 KL divergence 的概念,運用在計算單一字詞在廠牌間的差異程度值,故 我們的 KL divergence 只考慮字詞在不同廠牌評論的差異程度,故在此評估. KL(P || P) 值為: KL(P || P) P(t)log. P(t) P(t). 其中, P(t) 為某 t 字詞在該廠牌文件庫中出現次數在整個文件庫所有字詞總次 數的機率值, P(t) 為非該廠牌文件庫中 t 的機率值,以本研究為例,P(t) 代表 Sony 的文件庫中 t 字詞出現次數相對於 Sony 文件庫所有字詞總次數的機率值,. P(t) 則是 t 字詞在 Nikon、Fuji、Olympus 合成之文件集合的字詞次數機率值。 我們認為當 KL divergence 的差異值大時,則代表此字詞可能在該廠牌是屬於較 23.
(32) 特殊的特徵,而且可能為該廠牌特有的特徵字詞。. 4-2.3 Mutual Information Mutual Information(以下簡稱 MI),通常被用來評估兩個事件集合的相關程 度,在資料探勘中常被用來評估字詞間的相關程度。我們要找出當該廠牌出現 時,同時會出現的特徵字詞有哪些,以 Sony 為例,當出現“Sony”時,同時會出 現外觀(“design”) 的程度是否高於其他廠牌,那麼對於該廠牌來說,則這樣的字 詞代表對於特定廠牌來說是重要且特殊的字詞。 我們要找出的是特徵字詞與與廠牌之間的相關程度,其 MI 值計算公式如下:. MI(x, y) P(x, y)log. P(x, y) , where y is Brand name P(x)P(y). P(x) 代表 x 字詞在該廠牌討論文章中出現的句子數相對於文章中所有句子數的 機率值, y 字詞在該廠牌討論文中廠牌名稱出現句子數對於文章中所有句子數 的機率值以 P(y)表示,則 x 字詞與廠牌名稱共同出現的句數對於整個文件庫的句 數所得的機率值為 P(x,y),當 x,y 之間的關聯程度高時,則 MI 值會較大,反之 若 MI 值低時,則表示 x 與之間的關聯程度不高。以 Sony 為例,我們可以知道 若我們討論到 Sony 時,會出現“Cybershot”的相關程度。. 24.
(33) 4-3 跨文件庫的字詞分析 4-3.1 KLCF divergence 我們透過相機介紹文件庫中取出的字詞與論壇文件庫中取出的字詞之間的 關係進行特徵字詞的篩選,我們認為相機介紹文件庫的字詞因為較正式化,所以 當在選取特徵字詞的時候,相機介紹文件庫的字詞重要性較高,所以我們假定在 相機介紹文中出現的字詞,相對於在論壇中出現機率分布差異高時,表示這個字 詞比較可能不是一般口語用語的情況,則這樣的字詞為我們要找出的特徵字詞, 故我們基於 KL divergence 可評估各個字詞 t 在不同文件集合中的機率分布差異 程度,提出下列計算公式:. KLCF (t) PC (t)log. PC (t) PF (t). PC(t)表示字詞 t 在相機介紹文件庫中出現次數相對於整個文件庫所有字詞總次 數的機率值,PF(t)代表 t 字詞在論壇字詞文件庫中出現次數相對於整個文件庫所 有字詞總次數的機率值,KLCF(t)即表示相對於論壇文件庫中,t 字詞為相機介紹 文件庫中的代表性字詞的差異值,當 KLCF(t)值越高,則 t 字詞是我們想要擷取 的特徵字詞的可能性越高。以“thank”為例,在論壇文件庫中出現機率很高,但 是在相機介紹文件庫中的機率卻是很低,則在 KLCF(t)的計算的時候,便會把這 樣的字詞重要性降低,藉此分析方法即可篩選過濾一些口語或論壇常見字詞。. 25.
(34) 4-3.2 Jensen-Shannon Divergence 在相機論壇文件庫與相機介紹文件庫中描述相機的特徵字詞雖然不盡相 同,但是若在相機介紹中經常被提及且是為特徵的字詞,在論壇中應該也有一定 程度的出現頻率,我們希望找出的是對於兩方都有相當程度代表性的特徵字詞, 所以若單就相機介紹文之於論壇或是論壇之於相機介紹文的機率分布差異來討 論,都僅只得到相對性重要的特徵字詞。 Jensen-Shannon Divergence (以下簡稱 JSD),主要是用來計算各個字詞在聚 落與在整體文件集合中機率分布的差異值,不同於 KL divergence 的地方在於 JSD 不僅考慮了兩個文件集合中的機率分布,還考慮了在兩個集合各字對於整體文件 集合的平均機率分布,使得兩個集合中重要的字詞都可以被突顯出來。 評估字詞在兩個文件集合之於整體文件集合的機率分布差異值的公式如下:. 1 P(i) Q(i) D JS (P || Q) ( P(i)log Q(i)log ) 2 i M(i) i M(i). M(i) . 1 (P(i) Q(i)) 2. P、Q 分別代表兩個文件集合,P(i) 為某 i 字詞在 P 文件集合中的機率值, Q(i) 為 Q 文件集合中 i 字詞的機率值,M(i) 為某 i 字詞在 P 文件集合中與在 Q 文件集合中的平均機率值,透過這個差異值計算,可以評估字詞對於兩個文件集 合的差異程度。 [17]針對文件分群結果,提出如何從各文件聚落集合中找出具有代表該聚落. 26.
(35) 的重要字詞。作者透過 JSD 計算每個字詞在該聚落與整個文件集合中的出現機 率所得的差異權重值,找出代表該聚落的重要字詞作為聚落標籤。我們以相同的 概念,希望找出在論壇與相機介紹文件庫中各別字詞的平衡重要程度,所以我們 將公式調整為下述:. P (t) P (t) 1 D JS (t) (PC (t)log C PF (t)log F ) 2 PM (t) PM (t). PM (t) . 1 (PC (t) PF (t)) 2. PC(t)表示字詞 t 在相機介紹文件庫中出現的次數與整個文件庫所有字詞數 的機率值,PC(t) 代表 t 字詞在論壇字詞文件庫中出現的次數與整個文件庫所有 字詞數的機率值,PM(t) 是字詞 t 在相機介紹文件庫字詞的機率值與論壇文件庫 字詞機率值的平均,DJS(t)值即為字詞 t 在兩個文件集合的平衡重要程度。以閃 光燈(flash)為例,在論壇中經常被提到,然而在相機介紹文件庫中較少被討論, 透過 DJS(t)的計算就可把這些對於某一個文件庫也是重要的特徵字詞找出。. 27.
(36) 第五章 字詞重要性評估 前一章我們提到許多分析字詞權重的方法,在本章我們將討論這些方法的優 缺點,以及如何用來計算字詞作為產品特徵的重要性。. 5-1 文件庫內部字詞重要性分析 當我們只有考慮文件庫內部的字詞,各種分析方法都有達到一些效果,以下 針對各種不同字詞分析方法觀察並進一步進行方法評估。. 5-1.1 詞頻分析 使用詞頻可以找出較多相機特徵字詞,但其中也包含許多非重要的特徵字詞 如“camera”、 “picture”,下頁表 5.1、表 5.2 分別為統計四個不同品牌在論壇文 件庫與相機介紹文件庫中排名前 20 名的字詞。 首先我們可從這兩個詞頻列表的排名發現,相機論壇底下各別廠牌的名稱與 “camera”最經常被提到,其次像是“review”、“problem”等等這類比較常會出現在 論壇文件庫中的字詞,然而這些並不是我們想要的特徵字詞,雖然如此,我們還 是可以找到多數有意義的特徵字詞,例如鏡頭(lens)、價格(price)、電池(battery) 等等,亦或是各別廠牌才會出現的字詞,如 Nikon 底下的 Coolpix 或者是 Fuji 底 下的 Finepix 等等。此外,還有諸如“anyone”、“thank”或是“hi”等等,部分因為詞 性標註誤差而又出現頻率較高的字詞排名也會在前位。就相機介紹文的排名來 看,口語或使用者習慣字詞並不會出現在前排名。. 28.
(37) Sony camera sony picture image flash battery problem shot stick thank memory mode lens time review photo quality canon anyone setting. Nikon camera nikon image lens flash picture coolpix problem card length mode time thank canon shot quality battery photo d70 feature. Fuji camera fuji picture image card problem battery shot photo lens flash thank zoom finepix quality time setting anyone mode review. Olympus camera olympus card picture problem image battery flash zoom photo mode lens shot time thank quality review software price anyone. 表 5.1 四大廠牌在論壇文件庫前 20 名的字詞 Sony sony camera image mode len iso range review shot model system noise quality sensor button option screen dslr alpha exposure. Nikon nikon image camera mode iso quality range option len setting screen button noise model feature shooting system control coolpix exposure. Fuji camera image mode fujifilm quality range sensor zoom len screen feature scene model control iso compact shot video system resolution. Olympus camera olympu image mode system option iso quality model 30 len noise af lcd jpeg filter raw setting exposure sensor. 表 5.2 四大廠牌在相機介紹文件庫前 20 名的字詞 總結而言,詞頻可以選出多數有效的特徵字詞,然而同時也包含了一些不具 29.
(38) 有特徵的字詞,故單單考慮詞頻作為特徵字詞的效果是有限的,必頇要有過濾非 特徵字詞的機制。. 5-1.2 Kullback-Leibler Divergence 分析 我們透過不同廠牌間的機率分布差異,找到廠牌各特有的特徵字詞,KL divergence 的概念運用來找出廠牌系列型號等特徵字詞,經過計算之後我們分別 就論壇與相機介紹文件庫統計如下表 5.3、5.4 所示,表中列出 KL divergence 差 異值排名前 20 名的字詞。 透過各別廠牌 KL divergence 有效地將特有的特徵字詞取出,卻同樣有包含 非重要特徵字詞的情況,我們從論壇中 KL divergence 差異值的排名以 Sony 為 例來看,差異值較高的字詞除了廠牌名稱,本身就是特殊特徵字詞之外,像是型 號(P150, S70,H5…),或是系列名稱(Cybershot, Mavica, DSC…)等等,也可透過差 異程度計算找出在論壇文件庫該廠牌中且較常被討論的特徵字詞,此外如自動對 焦(af)、感光度(ISO)等字詞也有突顯出在該廠牌特殊的特性。在相機介紹文中, 也可看出不錯的結果,然而如“camera”、 “lens”仍然排名在前的主要原因,乃是 受到字詞在集合出現的頻率與在整個文件集合中分佈的情況影響,因為在某廠牌 機率值可能很高,但相對於非該廠牌的文件集合來說,其機率值沒有很高,使其 偏受詞頻的影響,但是整體來說,使用 KL divergence 亦有達到一定的效果。. 30.
(39) Sony sony stick memory dsc p150 cybershot maxx w1 nr s70 camera p1 w7 picture p100 a700 mavica h5 pim iso. Nikon nikon coolpix d70 lens d50 d200 d40 len d100 dx d300 d1 canon d2x cp d3 flash nikkor dslr cf. Fuji fuji finepix camera s602 fujifilm picture webcam s7000 battery video f10 pix iso s2 attachment movie shot pic s9000 vga. Olympus olympu camedia card oly camera smartmedia zoom stylu 40 700 hq uz master 510 panorama c2000z 400z problem c750 battery. 表 5.3 四大廠牌 KL divergence 在論壇文件庫前 20 名的字詞. Sony nikon olympu coolpix d5000 e620 d300 zoom quality image second lighting choice compact body s620 effect d3000 control option third. Nikon sony olympu camera technology light lens filter system shot side sensor aperture memory review dslr priority face budget dynamic effect. Fuji sony point view af iso review raw jpeg kit click use option balance function size viewfinder user system third dslr. Olympus sony nikon hd alpha range use movie mode d5000 zoom shot video focu area screen subject aperture image 3d edge. 表 5.4 四大廠牌 KL divergence 在相機介紹文件庫前 20 名的字詞 31.
(40) 5-1.3 Mutual Information 分析 針對各個廠牌本身重要的特徵,我們運用 Mutual Information 考慮兩者間相 關程度的概念,對廠牌與字詞進行 MI 值的計算,結果如下頁表 5.5、5.6 所示, 列出四大廠牌在論壇及相機介紹文件庫中前 20 排名的字詞。 經過觀察,我們可以發現當出現各廠牌名稱時,同時會出現字詞多數是產品 系列名稱如,(“Alpha”, “Coolpix” …),其次是相機特徵如單眼數位相機(DSLR)、 記憶體(memory)。另外在此發現會跟廠牌名稱共同出現的字詞中,有其他廠牌名 稱,主要是因為我們常會對不同廠牌的相機進行比較。然而整體而言,MI 值的 計算會包含很多非描述相機特徵的字詞,如“tech”、 “got”等等,其 MI 值對於特 徵字詞的擷取效果有限。MI 值找到一些與廠牌共同出現的特徵字詞,同時也包 含了許多與相機不相關的字詞如“repair”、 “site”等等字詞。 整體而言,在論壇文件庫中雖然可以找出多數有效的特徵字詞,但是多找出 的字詞也是相對很多,若單單想就論壇文件庫進行特徵字詞的擷取,其效果是有 限的,相機介紹文件庫中的效果雖然較論壇文件庫來得好,其亦有像“review”這 類非特徵字詞被擷取出來的情況,故我們若單就文件庫內部字詞進行重要性分析 是不足的,所以我們進一步考慮透過跨文件庫進行字詞分析找出特徵字詞。. 32.
(41) Sony dsc cyber canon cybershot shot bought s website digital alpha support product have software dslr service mavica memory. Nikon coolpix canon support view software site slr usa digital website 900 d60 tech dslr non web wonder service. Fuji finepix support website pix canon tech site mx brand buying dpreview interpolat forum ion bought non kudo wake z. Olympus digital support site camedia website have non nikon ac canon product panorama memory camera my smart tech got. 表 5.5 四大廠牌 Mutual Information 在論壇文件庫前 20 名的字詞. Sony review alpha gallery click sample cybershot size s image shot bionz sony dslr steadysho new t compact panasonic company. Nikon coolpix review canon s vibration high image compact superzoo test m awb nikon 1 value one expeed gallery sample. Fuji finepix exr bridge chasing choice online technolog compact y review pack bulk fujifilm launch surprise illuminati selling on corner minimum. Olympus review four micro mju pen panasonic supersoni wave c gallery budget truepic buyer fe autofocus iii ing art dust history. 表 5.6 四大廠牌 Mutual Information 在相機介紹文件庫前 20 名字詞. 33.
(42) 5-2 跨文件庫字詞重要性分析 5-2.1 KLCF divergence 分析 為了改善論壇文件庫字詞擷取的侷限性,我們使用了相機介紹文件庫來輔助 論壇文件庫特徵字詞選取,各種結合論壇與相機介紹文的特徵字詞分析,相較於 單單就論壇的資料進行擷取篩選的效果都來得顯著。在 KLCF 中可以有效地減少 一些論壇常見的,如“problem”、 “thank”等等這類字詞,並保留了多數的重要特 徵,下表 5.7 為 KLCF 的排名前 20 名的字詞。 相較於先前只考慮論壇文件庫字詞出現的情況,加入相機介紹文來輔助找出 較有代表性的特徵效果更為突顯,除了產品型號如(“H20”、 “D5000”、 “Alpha” 等字詞會被找出來之外,同時也包含了多數常見的相機描述特徵,如 感光 (sensor)、自動對焦(af)、外觀(design)等等字詞,雖然尚有一些並非重要特徵字詞 但仍與相機相關的字詞,如“jpeg”、 “art” …等等,但相對地論壇常出現的一般 口語用詞減少許多,使用 KLCF 可達到一定程度的效果。. 5-2.2 Jensen-Shannon Divergence 分析 為了避免字詞受到論壇與相機介紹文其中一個影響,而使得原本應該被找出 的字詞反而遺漏的情況,我們加入 DJS 值可以平衡在兩個文件集合中字詞重要性 的概念,保留兩個不同文件庫分布都有一定程度的字詞。表 5.8 列出四大廠牌的 DJS(t)值排序結果。. 34.
(43) Sony h20 range alpha mode image system gallery grip view iso button dslr scene sensor model click sony option shooting design af sensitivit. Nikon iso image d5000 screen range mode button l100 option shooting control system stabilisati function on compact d3 scene raw setting detail jpeg video. Fuji mode sensor image fujifilm scene compact range detection control hd face rear model system screen quality feature body option aberration design performa. Olympus 30 620 system option image af raw jpeg iso sensor art mju 3 dslr 520 noise shadow stabilisati verdict on compact mode balance. y nce 表 5.7 四大廠牌 KLCF 在跨文件庫前 20 名的字詞 Sony picture range problem h20 alpha stick thank camera photo system mode view memory image gallery button flash dslr scene grip. Nikon iso flash image screen range d5000 picture button thank option problem mode photo shooting control lens system l100 function compact. Fuji picture mode sensor fujifilm image fuji scene range compact problem control detection card thank face hd model system rear photo. Olympus 30 picture system photo 620 option af card raw iso jpeg problem 35 battery sensor image 520 thank mju dslr. 表 5.8 四大廠牌 DJS 在跨文件庫前 20 名的字詞 35.
(44) 我們觀察到透過 DJS 的計算可以讓在兩文件庫都重要的字詞可被找出來,以 Sony 為例,閃光燈(flash)這個字詞在論壇中的機率值為 0.01,而在相機介紹中只 佔了 0.002,以 TFC 排名在 83 名,但以 DJS(t)值 0.0023 排進了第 17 名,凸顯了 閃光燈(flash)在 Sony 的重要程度,而“example”這類的字詞也因為在相機介紹集 合中機率很低而降至 476 名。但是,論壇裡非重要特徵的字詞也保留下來,如 “problem”、 “thank”等等字詞會被保留的原因,主要是受到在論壇集合中的機率 值較高,而使得出現了傾向論壇的機率影響 DJS 的值偏差。雖然如此,DJS 擷取 特徵字詞的效果仍有部分補足 KLCF 只考慮相機介紹對於論壇單方面的重要性,. 5-2.3 Frequency Lists Filtering 從上述跨文件庫的字詞結果,雖然都能達到不錯的效果,但是會保留了一般 論壇或口語習慣用詞、詞性標註差異等非重要特徵字詞,這類的字詞不管是透過 文件庫內部的分析,或者是跨文件庫的方法都無法有效地篩選,所以我們需要透 過一些過濾的方法將這類常見的口語用詞進行篩選。 我們認為如果在一般非討論相機的文章中也經常會出現的字詞,該字詞不是 我們要找出的重要特徵字詞,所以我們透過這樣的關係將非重要特徵字詞篩選過 濾。在此我們選用基於維基百科所建立多語系詞典—維基詞典 Wiktionary (http://en.wiktionary.org/),它提供了電視節目與電影的語詞統計常用的字詞與頻 率列表,如圖 5.1 所示,我們取出前 5000 個字詞作為常見用詞列表。. 36.
(45) 圖 5.1 常見用詞列表 依據我們的假設認為,若一個字詞在相機論壇或介紹文中出現的頻率,與一 般文章的討論用詞出現頻率達到一個比例值時,則該字詞極有可能不是相機的特 徵字詞,換而言之,當在論壇與相機介紹文件庫中出現的程度比常見字詞頻率大 時,則這個字詞便可能是我們想要找到的字詞。故我們決定這個比例值為 FL(t), 其 FL(t)可為下述各式:. D(t) D(t)2 D(t)logD(t) D(t) FL1 (t) , FL2 (t) , FL3 (t) , FL4 (t) W(t) W(t) W(t) logW(t) 其中 D(t)表示 t 字詞出現的次數相對於論壇與相機介紹文見庫所有字詞的機率 值,W(t)為 Wiktionary Frequency List 出現的機率值,我們比較各種方法對常見 字詞的分數值高低與排名,下頁表 5.9 為常見字詞的分數值排名。 FL1(t)選出的前 20 名的字詞中,有 12 個是相機相關的特徵字詞,比 FL2(t)、 FL3(t)、FL4(t)分別找出 11、10、11 個相機相關的特徵字詞效果較好,故我們選. 37.
(46) 擇 FL1(t)的計算作為字詞過濾的參考列表。對於一般文章裡常出現的字詞過濾有 一定的效果。. D(t) W(t) review image mode model raw shooting range feature area gallery detail user setting angle balance quality performa noise nce frame design. D(t)logD(t) W(t). D(t) logW(t). image mode range review model shot system quality noise feature setting shooting view raw point size detail scene control area. image mode range review model shot system quality noise feature shooting setting raw View Point size detail scene area control. D(t)2 W(t) image mode review model range shooting raw feature shot setting quality noise area detail gallery user system size frame design. 表 5.9 常見字詞的 FL(t)前 20 名的排名. 5-3 字詞重要性評估函式 5-3.1 文件庫內部字詞重要性資訊 我們已經了解各種方法的一些特性,所以我們希望可以取出各個部份的優 點,對字詞做重要性評估,來當作特徵字詞擷取的原則。首先,在文件庫中我們 認為出現頻率要夠高的字詞才是我們想要的候選字詞;再者,我們要可以取出一 些相對於其他廠牌而言,是該廠牌中特殊的字詞,故我們也認為 KL divergence. 38.
(47) 取出來的字詞亦是重要的字詞;接著,我們希望取出來的字詞與廠牌之間有較高 程度的緊密性,MI 值計算出來的字詞具有跟廠牌相關程度高低的特性,所以我 也加入 MI 值所取出的字詞作為候選。最後我們詴著透過加入 Frequency List Filtering 的方法,若出現在 Frequency List 的字詞,就可能是非重要特徵字詞, 所以我們將挑選出來的字詞篩選掉有出現在 Frequency List 的字詞。 組合上述這個想法,我們詴著透過各個不同的字詞分析方法,給予每個字詞一個 權重值,其我們設計一個透過權重計算的字詞重要性評估函式如下:. Intra_Score(t) TF(t) KL(t) MI(t) FL(t). 5-3.2 組合跨文件庫字詞重要性資訊 基於文件庫內部字詞對於我們選取特徵字詞時有一定程度的代表性,故我們 保留文件庫內部字詞選定候選字詞的方式,接著我們認為相機介紹文中取出的字 詞可能為特徵字詞的可能性較高,故我們加入相機介紹文的字詞作為論壇字詞的 篩選依據。我們使用 KLCF 對候選字詞集合篩選,對於論壇的字詞來說相機介紹 文更具有代表性的字詞,表示 KLCF 必頇要夠高才有這樣的特性。KLCF 過濾了 部分在論壇常見的非重要特徵字詞,接著我們考慮將相機介紹文件庫中比較重要 的特徵字詞取出,這些候選進集合的字詞代表在相機介紹文件庫的字詞重要性較 高,但在過濾的時候也把可能是論壇裡重要的字詞也捨棄,故希望可將論壇重要 性較高的字詞也挑選進來,所以在此加入 DJS 考慮論壇與相機介紹文雙向關係的. 39.
(48) 評估方式,透過這個方式亦可將一些廠牌特有的特徵字詞挑選進候選集合中。我 們挑選出來的候選字詞集合中,包含了許多特徵字詞,同時也存在許多一般論壇 或文章使用的字詞,故我們透過 Frequency List 的輔助,將一般口語或常見用詞。 綜合上述的方法,我們整理出用權重值設計跨文件庫字詞重要性函式,其式子如 下:. Inter_Score(t) [TF(t) KLCF (t) DJS (t)] FL(t) KLCF (t) 是 t 字詞相機介紹文相對於論壇的 KL divergence 值,可以找出常 見的相機特徵字詞,而在字詞中 KLCF (t) 的值越高則表示其越重要。 D JS (t) 主 要是希望可以在找出常見的相機特徵字詞之外,可以找出各別廠牌的特殊特徵字 詞,但是 D JS (t) 值高的字詞並不一定會是 KLCF (t) 高的字詞,所以我們以加重 其字詞的權重值方式補償廠牌特殊的特徵字詞,取其平方式為了平衡 P(t) 與. KLCF (t) 的值。 FL(t) 為 t 字詞是否為一個常見字詞的評斷依據,我們透過這 個方式來對常見字詞進行過濾篩選,若在文件集合中出現的頻率大於一般文章, 則為一個特徵字詞的可能性就比較高,但是對於找出系列名稱仍有一定的功用, 故我們也以加重其字詞權重值來提升其重要性。. 40.
(49) 第六章 實驗結果與討論 我們根據第五章提出的字詞重要性評估函式,在本章我們將顯示不同方法對 字詞重要性分析的效果,與不同字詞評估函式的效果。. 6-1 實驗來源 我們蒐集了 2009 年 10 月以前相機論壇文章中,四大廠牌的討論句子,從這 些句子中取出詞性標註為名詞的字詞,同時我們也取出相機介紹文中,產品評論 與介紹的句子與詞性標註為名詞的字詞,以下為各大廠牌所蒐集的句子數與字詞 數如下表 6.1 所示。此外,我們亦選擇 Wiktionary Frequency List 中的前 5000 名 的常見字詞作為字詞篩選的依據。 相機論壇. Sony. Nikon. Fuji. Olympus. 句子數. 9099. 10657. 4264. 9834. 字詞數. 4096. 4735. 2764. 4292. 相機介紹. Sony. Nikon. Fuji. Olympus. 句子數. 740. 886. 412. 606. 字詞數. 1022. 1126. 697. 939. 表 6.1 文件庫的句數與字詞數. 41.
(50) 6-2 實驗評估 我們用來評估字詞重要性的依據,是以一個由人工挑選出來的特徵列表,其 列表分成兩個部份,其一部分為所有廠牌共有的特徵字詞諸如:“design”、 “battery”等等,以下通稱為相機特徵字詞。另一部分為各個廠牌特有的特徵字 詞,如:Sony 的“cybershot”、 “dsc”、 “H20”等等這類字詞。下表 6.2 為特徵列 表的字詞數,Common 表示不分廠牌都具有的相機特徵字詞數,其他則表示各廠 牌特有的特徵字詞數。. 特徵字詞數. Common. Sony. Nikon. Fuji. Olympus. 128. 206. 210. 117. 156. 表 6.2 特徵字詞數. [實驗 1] 文件庫內部字詞為特徵字詞之比率評估 首先我們希望找出來的字詞,能夠涵蓋多數的特徵字詞,並且是每個廠牌都 會提到的特徵字詞,我們實驗從論壇文件庫及相機介紹文件庫中,各個廠牌取出 的字詞確實有對應到相機特徵字詞,以及各廠牌特有特徵字詞的比例。. [實驗結果] 如下頁表 6.3 所示,就論壇文件庫的部份可看出,各別廠牌可被找出是相機 特徵字詞,平均可以找出 100 個左右的相機特徵字詞,其中在各個廠牌共同會出 現的特徵字詞就高達 97 個(75.8%),而各廠牌特有的特徵字詞,約 10 個左右的. 42.
(51) 特徵字詞會有遺失的情況。 在相機介紹文件庫中其找出的相機特徵字詞比例與各廠牌特徵字詞比例皆 較低,主要是因為我們取用的相機文件庫的資料數量,相對於論壇文件庫來說減 少了許多,然而就特徵字詞的部份找出的效果平均都還有在 80.0%左右,故我們 可以知道不管在論壇或相機介紹文件庫中包含了多數的特徵字詞。 論壇文件庫. Sony. Nikon. Fuji. Olympus. 涵蓋相機特徵字詞比例. 84.3%. 86.7%. 81.3%. 86.0%. 涵蓋各廠牌特徵字詞比例. 94.6%. 92.0%. 92.3%. 91.0%. 相機介紹文件庫. Sony. Nikon. Fuji. Olympus. 涵蓋相機特徵字詞比例. 79.7%. 83.6%. 75.8%. 81.25%. 涵蓋各廠牌特徵字詞比例. 10.5%. 11.3%. 10.0%. 8.4%. 表 6.3 文件庫內部特徵字詞涵蓋比例. [實驗 2] 論壇文件庫內部字詞資訊的準確度 我們希望透過論壇文件庫的字詞分析方法擷取出較多的特徵字詞,首先我們 必頇先了解各個字詞分析方法找出來的字詞是否準確,我們評估是根據排名在前 N 名中可以找出多少的特徵字詞,以 Precsion@N 表示,以下實驗皆以四大廠牌 的結果進行平均。 透過我們的字詞分析方法,每個字詞會得到一個字詞重要性評估值,由這個. 43.
(52) 數值高低決定字詞的重要性程度,我們再透過不同的結合方式設計重要性評估函 式,在此我們分別考慮加入常見字詞列表 Frequency List (以下以 FL 簡稱)與否的 準確度。. [實驗結果] 圖 6.1 顯示使用文件庫內部各種字詞分析方法計算字詞重要性程度,我們可 以看出依據各種字詞分析方法所得的評估值都可達到不錯的效果,在前 100 名的 準確度都可達到 0.45 以上,而其中 KL divergence(以下以 KL 簡稱)可達到很高的 準確度,主要是受到各別廠牌特徵可以找到較多的廠牌特有的特徵字詞,而詞頻 (以下以 TF 簡稱)在平均約 0.5 左右,效果也維持在一個穩定的狀態。 圖 6.2 顯示結合兩種不同的重要性評估函式的準確度,以前 100 名來看,可 發現雖然整體的準確度相較於單一字詞分析方法來說有下降的趨勢,但當我們同 時考慮 TF 與 KL 的重要性的效果比其他兩者較好,也突顯出 TF 值高與 KL 值高 的字詞能有效地被找出來。 圖 6.3 顯示重要性評估評估函式的準確度,我們發現加入 Mutual Information 值(以下以 MI 值簡稱)的字詞重要性評估,準確度下降主要是因為 MI 值會受到 與廠牌字詞太常出現但是並不一定是有意義的字詞,所以若未考綠 FL 的情況, 在前 100 名中只可達到 0.29 的準確度,結合各方法與 FL (以 TF*KL*MI(FL)_F 表 示),則可提升到 0.33,顯示加入 Frequency List Filtering 可以有效地過濾一些不 重要的字詞並提升準確度。在此,我們發現使用論壇文件庫的重要性評估函式的. 44.
(53) 效果並未比詞頻的效果好,主要是因為重要性評估函式希望是找出在 TF、KL、 MI 值的表現都有達到一定程度值的字詞,而這會受到特徵字詞中若其中一項效 果較差,則會使得權重值降低而未被找出的情況。 在各別方法中 KL 有較高的準確度的原因主要受到各別廠牌包含特有特徵字 詞較多的影響,圖 6.4 顯示單獨就 KL 值在相機特徵字詞的準確度比我們的重要 性評估函式所找出的準確度效果較低,所以若考慮廠牌特有特徵字詞時,可以 KL 值作為擷取依據,而當考慮整體相機特徵字詞的重要性評估時,則可使用我 們提出的字詞重要性評估函式。. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2. 29 0. 27 0. 25 0. 23 0. 21 0. 19 0. 17 0. 15 0. 13 0. 11 0. 90. 70. 50. 30. 10. 0.1 0. Precision@N TF_F. KL_F. MI_F. FL_F. 圖 6.1 論壇文件庫內部字詞資訊重要性各別分析的準確度. 45.
(54) 0.6 0.5 0.4 0.3 0.2 0.1. 29 0. 27 0. 25 0. 23 0. 21 0. 19 0. 17 0. 15 0. 13 0. 11 0. 90. 70. 50. 30. 10. 0. Precision@N TF*KL_F. TF*MI_F. KL*MI_F. 圖 6.2 論壇文件庫內部字詞重要性兩兩結合方法評估的準確度. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1. 29 0. 27 0. 25 0. 23 0. 21 0. 19 0. 17 0. 15 0. 13 0. 11 0. 90. 70. 50. 30. 10. 0. Precision@N TF*KL_F. TF*KL*MI_F. TF*KL*MI(FL)_F. 圖 6.3 論壇文件庫內部字詞多個方法結合重要性評估的準確度. 46.
(55) 0.6 0.5 0.4 0.3 0.2 0.1. 29 0. 27 0. 25 0. 23 0. 21 0. 19 0. 17 0. 15 0. 13 0. 11 0. 90. 70. 50. 30. 10. 0. Precision@N KL_F(FL). IntraScoreF(FL). 圖 6.4 論壇文件庫中相機特徵字詞的準確度比較. [實驗 3] 相機介紹文件庫內部字詞資訊的準確度 論壇文件庫我們進行字詞資訊的分析評估,在此我們也同是對相機介紹文件 庫進行相同的分析評估。 在相機介紹文見庫中,我們亦透過各種不同的字詞分析方法,每個字詞會得 到一個字詞重要性評估值,由這個數值高低決定字詞的重要性程度,我們再透過 不同的結合方式設計重要性評估函式,在此我們分別考慮加入常見字詞列表與否 的準確度。. [實驗結果] 圖 6.5 顯示在相機介紹文的字詞重要性評估方法的準確度。我們發現在前 100 名的 TF 的效果並沒有被突顯出來,反而是在 KL 值的效果比較好,主要是 47.
(56) 因為相機介紹文的資料量相對於論壇文件庫較少,而使得一些 TF 值低的特徵字 詞並未被找出來。 圖 6.6 針對兩兩字詞分析進行結合,我們可以看到在前 100 名中詞頻與 KL 的效果是較穩定的,而 TF 與 MI 的結合在 70 名之後表現較 TF 與 KL 的效果好, 主要是因為在相機介紹文件庫中,主要在介紹相機的功能等等,故出現與廠牌共 同出現的 TF 高,而使得 70 名之後的表現較好。 圖 6.7 顯示相機介紹文件庫內部重要性評估函式的準確度。在這裡我們很明 顯發現未考慮常見字詞列表過濾字詞的效果比較好,其原因是 Frequency List 中 包含部分特徵字詞,而因為在相機介紹文中 TF 與在 Frequency List 的機率分布 懸殊,使得特徵字詞的權重值被降低。 在各個分析方法中 K 與論壇文件庫同樣有達到不錯的效果,但亦是受到各 廠牌的特有特徵字詞影響,若單就相機特徵字詞的準確度來看,其效果亦沒有結 合各種分析方法的字詞重要性評估函式效果好。 整體而言,論壇與相機介紹文件庫內部字詞資訊中,若各別考慮廠牌特有特 徵字詞時,則採用 KL 的結果可達到較高的準確度,但若要對整體的特徵字詞進 行重要性評估,雖然相較於各別方法的準確度略低,但我們的產品特徵字詞重要 性評估函式可以達到不錯的效果,值得一提的是我們對於論壇與相機介紹文件庫 的字詞重要性評估函式的結果是一致的。. 48.
(57) 0.6 0.5 0.4 0.3 0.2 0.1. 29 0. 27 0. 25 0. 23 0. 21 0. 19 0. 17 0. 15 0. 13 0. 11 0. 90. 70. 50. 30. 10. 0. Prceision@N TF_C. KL_C. MI_C. FL_C. 圖 6.5 相機介紹文件庫內部字詞重要性各別方法的準確度. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1. 29 0. 27 0. 25 0. 23 0. 21 0. 19 0. 17 0. 15 0. 13 0. 11 0. 90. 70. 50. 30. 10. 0. Precision@N TF*KL_C. TF*MI_C. KL*MI_C. 圖 6.6 相機介紹文件庫內部字詞重要性兩兩結合方法評估的準確度. 49.
(58) 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1. 29 0. 27 0. 25 0. 23 0. 21 0. 19 0. 17 0. 15 0. 13 0. 11 0. 90. 70. 50. 30. 10. 0. Precision@N TF*KL_C. TF*KL*MI_C. TF*KL*MI(FL)_C. 圖 6.7 相機介紹文件庫內部字詞多個方法結合重要性評估的準確度. 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15. 29 0. 27 0. 25 0. 23 0. 21 0. 19 0. 17 0. 15 0. 13 0. 11 0. 90. 70. 50. 30. 10. 0.1 0.05 0. Precision@N KL_C(FL). IntraScoreC(FL). 圖 6.8 相機介紹文件庫中相機特徵字詞的準確度比較. 50.
相關文件
Natural Video Matting using Camera Arrays Removing Camera Shake From a Single Photograph Coded Exposure Photography: Motion Deblurring Photo Tourism: Exploring Photo Collections in
Clinical Significance: A substantial reduction in radiation exposure can be achieved in conventional panoramic radiography using a medium intensifying screen and in digital
中興國中
In this research, we use conventional RGB (Red, Green, Blue) images as input data. The conventional RGB image is demosaiced from raw image by using the color interpolation
The performance guarantees of real-time garbage collectors and the free-page replenishment mechanism are based on a constant α, i.e., a lower-bound on the number of free pages that
Let us consider the numbers of sectors read and written over flash memory when n records are inserted: Because BFTL adopts the node translation table to collect index units of a
This flipbook is designed to display a collection of students’ works selected from the winning entries of the SOW Picture Book Design Competition organised in the 2020/21 school
Flash 動畫網頁時,會先偵測電腦的 Flash Player 版本,如果是可接受的 Flash Player 版本,SWF 就會順利播放;如果電腦中沒有檢視 SWF 所需的