• 沒有找到結果。

字詞統計分析方法

從文件庫中取出的內容,包含了各式各樣的字詞,如何從這些句子找出重要

的特徵字詞,我們將文件庫分成四大廠牌,針對各個廠牌的字詞進行文件庫內部

分析,以及跨文件庫的字詞分析。

4-1 文件庫的字詞類型

首先從文件庫中的字詞進行整理分析之後,我們發現字詞主要可分成四種

不同特性,以下簡要描述其特性。

1. 相機特徵字詞:主要是描述產品所具有的特徵,如:電池(battery)、鏡頭

(lens),等等這類字詞我們可以清楚地知道使用者在描述的是產品組成元

件或構造。

2. 一般特徵字詞:描述相機相關的訊息,但是卻不是我們所需要的特徵字

詞,如:相機(camera)、照片(picture)等等這類的字詞,雖然和相機有其

關聯,但是對於我們了解產品的主要特徵較不具重要性。

3. 廠牌特有特徵字詞:包含產品系列名稱、產品型號,某特定配件的特徵

字詞,如:Sony 的 Cybershot、H20、Fuji 的 Finepix、MemoryStick 等等

各別廠牌的特別字詞。

4. 口語與一般字詞:一般文章中亦會出現的字詞,以及論壇使用者習慣用 語,諸如:“problem”、 “review”、 “hi”,這些字詞對於我們找出特徵字

詞來說沒有幫助。

針對上述的字詞類型歸結,我們主要希望可以找出相機特徵字詞、廠牌特

有特徵字詞對於產品特徵擷取有幫助的字詞,接下來我們將對文件庫內部字詞

進行分析。

4-2 文件庫內部的字詞分析

4-2.1 詞頻(Term Frequency)

在相機論壇中,我們會想要從論壇的討論得知哪個相機廠牌,經常會被提到

的特徵是什麼,不同的廠牌間關心的特徵焦點是否不同,我們可以知道使用者在

選擇相機的時候會針對那些特徵進行挑選。

在這裡我們分成四個廠牌進行不同廠牌的比較與討論,討論相機的外觀

(design)、鏡頭(lens)的好壞、快門(shutter)快慢、或光圈(aperture)的設定等等…,

都會使用專有的名詞來描述想了解的特徵,故我們在此只考慮採用詞性標註

(POS-tag)標註為名詞的字詞。我們認為在某廠牌當出現頻率有達到一定程度時,

則該特徵是為該廠牌主要討論的核心,我們為所有論壇字詞計算出現的頻率與在

整個資料集合中的機率分布 TF(t)。

4-2.2 Kullback-Leibler Divergence

透過詞頻的分析,我們可以找出經常被討論的特徵字詞,而除了一般討論相

機會出現的特徵之外,各別廠牌也可能包含特有的特徵字詞,型號系列名稱

(Cybershot, Finepix, T100…)、特有配件名稱(MemoryStick)等等,這些字詞對於想

了解不同廠牌有哪些是產品特色也有很大的幫助,故針對不同廠牌有哪些特殊的

特徵,我們透過 Kullback-Leibler divergence(以下簡稱 KL divergence)的概念進行

字詞分析。

KL divergence 是用來衡量比較兩個機率分布差異程度,在資料檢索領域常用

來比較兩個文件集合中各個字詞出現機率分布的差異。當差異值越大,則代表兩

P(t)log P(t)

)

特殊的特徵,而且可能為該廠牌特有的特徵字詞。

4-2.3 Mutual Information

Mutual Information(以下簡稱 MI),通常被用來評估兩個事件集合的相關程

度,在資料探勘中常被用來評估字詞間的相關程度。我們要找出當該廠牌出現

y)log P(x,

P(x,

若我們討論到 Sony 時,會出現“Cybershot”的相關程度。

4-3 跨文件庫的字詞分析

4-3.2 Jensen-Shannon Divergence

Jensen-Shannon Divergence (以下簡稱 JSD),主要是用來計算各個字詞在聚

落與在整體文件集合中機率分布的差異值,不同於 KL divergence 的地方在於 JSD

不僅考慮了兩個文件集合中的機率分布,還考慮了在兩個集合各字對於整體文件

集合的平均機率分布,使得兩個集合中重要的字詞都可以被突顯出來。

評估字詞在兩個文件集合之於整體文件集合的機率分布差異值的公式如下:

M(i) ) Q(i)log Q(i) M(i)

P(i)log P(i)

2 (

的重要字詞。作者透過 JSD 計算每個字詞在該聚落與整個文件集合中的出現機

第五章 字詞重要性評估

前一章我們提到許多分析字詞權重的方法,在本章我們將討論這些方法的優

缺點,以及如何用來計算字詞作為產品特徵的重要性。

5-1 文件庫內部字詞重要性分析

當我們只有考慮文件庫內部的字詞,各種分析方法都有達到一些效果,以下

針對各種不同字詞分析方法觀察並進一步進行方法評估。

5-1.1 詞頻分析

使用詞頻可以找出較多相機特徵字詞,但其中也包含許多非重要的特徵字詞

如“camera”、 “picture”,下頁表 5.1、表 5.2 分別為統計四個不同品牌在論壇文

件庫與相機介紹文件庫中排名前 20 名的字詞。

首先我們可從這兩個詞頻列表的排名發現,相機論壇底下各別廠牌的名稱與

“camera”最經常被提到,其次像是“review”、“problem”等等這類比較常會出現在

論壇文件庫中的字詞,然而這些並不是我們想要的特徵字詞,雖然如此,我們還

是可以找到多數有意義的特徵字詞,例如鏡頭(lens)、價格(price)、電池(battery)

等等,亦或是各別廠牌才會出現的字詞,如 Nikon 底下的 Coolpix 或者是 Fuji 底

下的 Finepix 等等。此外,還有諸如“anyone”、“thank”或是“hi”等等,部分因為詞

性標註誤差而又出現頻率較高的字詞排名也會在前位。就相機介紹文的排名來

看,口語或使用者習慣字詞並不會出現在前排名。

Sony Nikon Fuji Olympus

camera camera camera camera

sony nikon fuji olympus

picture image picture card

image lens image picture

flash flash card problem

battery picture problem image problem coolpix battery battery

shot problem shot flash

quality battery setting review

canon photo anyone software

anyone d70 mode price

setting feature review anyone

表 5.1 四大廠牌在論壇文件庫前 20 名的字詞

option shooting compact filter

screen system shot raw

dslr control video setting

alpha coolpix system exposure

exposure exposure resolution sensor

表 5.2 四大廠牌在相機介紹文件庫前 20 名的字詞

有特徵的字詞,故單單考慮詞頻作為特徵字詞的效果是有限的,必頇要有過濾非

特徵字詞的機制。

5-1.2 Kullback-Leibler Divergence 分析

我們透過不同廠牌間的機率分布差異,找到廠牌各特有的特徵字詞,KL

divergence 的概念運用來找出廠牌系列型號等特徵字詞,經過計算之後我們分別

就論壇與相機介紹文件庫統計如下表 5.3、5.4 所示,表中列出 KL divergence 差

異值排名前 20 名的字詞。

透過各別廠牌 KL divergence 有效地將特有的特徵字詞取出,卻同樣有包含

非重要特徵字詞的情況,我們從論壇中 KL divergence 差異值的排名以 Sony 為

例來看,差異值較高的字詞除了廠牌名稱,本身就是特殊特徵字詞之外,像是型

號(P150, S70,H5…),或是系列名稱(Cybershot, Mavica, DSC…)等等,也可透過差

異程度計算找出在論壇文件庫該廠牌中且較常被討論的特徵字詞,此外如自動對

焦(af)、感光度(ISO)等字詞也有突顯出在該廠牌特殊的特性。在相機介紹文中,

也可看出不錯的結果,然而如“camera”、 “lens”仍然排名在前的主要原因,乃是

受到字詞在集合出現的頻率與在整個文件集合中分佈的情況影響,因為在某廠牌

機率值可能很高,但相對於非該廠牌的文件集合來說,其機率值沒有很高,使其

偏受詞頻的影響,但是整體來說,使用 KL divergence 亦有達到一定的效果。

Sony Nikon Fuji Olympus

sony nikon fuji olympu

stick coolpix finepix camedia

memory d70 camera card

dsc lens s602 oly

p150 d50 fujifilm camera

cybershot d200 picture smartmedia

maxx d40 webcam zoom

p100 cp attachment panorama

a700 d3 movie c2000z

choice aperture option video

compact memory balance focu

body review function area

s620 dslr size screen

effect priority viewfinder subject

d3000 face user aperture

control budget system image

option dynamic third 3d

third effect dslr edge

5-1.3 Mutual Information 分析

針對各個廠牌本身重要的特徵,我們運用 Mutual Information 考慮兩者間相

關程度的概念,對廠牌與字詞進行 MI 值的計算,結果如下頁表 5.5、5.6 所示,

列出四大廠牌在論壇及相機介紹文件庫中前 20 排名的字詞。

經過觀察,我們可以發現當出現各廠牌名稱時,同時會出現字詞多數是產品

系列名稱如,(“Alpha”, “Coolpix” …),其次是相機特徵如單眼數位相機(DSLR)、

記憶體(memory)。另外在此發現會跟廠牌名稱共同出現的字詞中,有其他廠牌名

稱,主要是因為我們常會對不同廠牌的相機進行比較。然而整體而言,MI 值的

計算會包含很多非描述相機特徵的字詞,如“tech”、 “got”等等,其 MI 值對於特

徵字詞的擷取效果有限。MI 值找到一些與廠牌共同出現的特徵字詞,同時也包

含了許多與相機不相關的字詞如“repair”、 “site”等等字詞。

整體而言,在論壇文件庫中雖然可以找出多數有效的特徵字詞,但是多找出

的字詞也是相對很多,若單單想就論壇文件庫進行特徵字詞的擷取,其效果是有

限的,相機介紹文件庫中的效果雖然較論壇文件庫來得好,其亦有像“review”這

類非特徵字詞被擷取出來的情況,故我們若單就文件庫內部字詞進行重要性分析

是不足的,所以我們進一步考慮透過跨文件庫進行字詞分析找出特徵字詞。

Sony Nikon Fuji Olympus dsc coolpix finepix digital cyber canon support support canon support website site cybershot view pix camedia shot software canon website

bought site tech have

s slr site non

website usa mx nikon

digital digital brand ac alpha website buying canon support 900 dpreview product product d60 interpolat

ion

panorama

have tech forum memory

software dslr bought camera

dslr non non my

review coolpix finepix review

alpha review exr four

gallery canon bridge micro

click s chasing mju

sample vibration choice pen cybershot high online panasonic

size image technolog

y

supersoni s compact compact c wave image superzoo

m

review gallery

shot test pack budget

value surprise autofocus new one illuminati ing

on

iii compact expeed selling art panasonic gallery corner dust company sample minimum history

表 5.6 四大廠牌 Mutual Information 在相機介紹文件庫前 20 名字詞

5-2 跨文件庫字詞重要性分析

5-2.1 KL

CF

divergence 分析

為了改善論壇文件庫字詞擷取的侷限性,我們使用了相機介紹文件庫來輔助

論壇文件庫特徵字詞選取,各種結合論壇與相機介紹文的特徵字詞分析,相較於

單單就論壇的資料進行擷取篩選的效果都來得顯著。在 KLCF中可以有效地減少

一些論壇常見的,如“problem”、 “thank”等等這類字詞,並保留了多數的重要特

徵,下表 5.7 為 KLCF的排名前 20 名的字詞。

相較於先前只考慮論壇文件庫字詞出現的情況,加入相機介紹文來輔助找出

較有代表性的特徵效果更為突顯,除了產品型號如(“H20”、 “D5000”、 “Alpha”

等字詞會被找出來之外,同時也包含了多數常見的相機描述特徵,如 感光

(sensor)、自動對焦(af)、外觀(design)等等字詞,雖然尚有一些並非重要特徵字詞 但仍與相機相關的字詞,如“jpeg”、 “art” …等等,但相對地論壇常出現的一般

口語用詞減少許多,使用 KLCF可達到一定程度的效果。

5-2.2 Jensen-Shannon Divergence 分析

為了避免字詞受到論壇與相機介紹文其中一個影響,而使得原本應該被找出

的字詞反而遺漏的情況,我們加入 DJS值可以平衡在兩個文件集合中字詞重要性

的概念,保留兩個不同文件庫分布都有一定程度的字詞。表 5.8 列出四大廠牌的

DJS(t)值排序結果。

Sony Nikon Fuji Olympus

h20 iso mode 30

range image sensor 620

alpha d5000 image system

mode screen fujifilm option

image range scene image

scene stabilisati on

model 3

sensor function system dslr model compact screen 520

click d3 quality noise

sony scene feature shadow

option raw body stabilisati

shooting setting option on verdict design detail aberration compact

af jpeg design mode

sensitivit y

video performa nce

balance

balance

相關文件