• 沒有找到結果。

第三章 研究方法與系統架構

3.2 Flickr 資料處理步驟

3.2.5 重複城市

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.2.4 抑制雜訊

由於本研究是以世界城市的概念輪廓與連結作為主軸,對於抑制雜訊的部分 Flickr 網路相簿可協助找到具有相同點的相片,而 Flickr 並沒有規定的輸入內容,只限制每張 相片最多可輸入 75 個 Tags;但就一般使用者而言,最多僅會標示十幾個 Tags,因此有 些廣告商或是想增加個人 Flickr 網站曝光度就會利用此漏洞,將常用但與照片無關的 Tags 標註在照片中,其照片本身並無法表達出這些 Tag 意義;本文透過整理建立起常出 現雜訊字典檔來將一些攝影用語、照相雜訊、年份用語、地名及其他雜訊或是一些無法 辨識語言及針對廣告性質的 Tags 加以濾除。該部分合計共處理掉 4,292 個 Tags 雜訊(如 表 3.7 雜訊分類表)。

表 3.7 雜訊分類表

雜訊標註 雜訊

攝影用語 Nikon、Canon、Kodak、iphone、Sony、Fujifilm、leica、

5d2、d90 品牌雜訊

攝影用語 black and white、blancoynegro、bw、dof、dslr、f2.8、

6x6、50mm、reflection、photo、long exposure 照相雜訊

年份用語 2012、二零一一、July、5 月 時間雜訊

地名用語 harajuku、europe、asia、101(觀光景點、城市縮寫) 地名雜訊 其他雜訊

5324635、http://designer.com、AD(廣告)、mywinners、

BNW、PJ(無法辨識)、(無法辨識語言)、 exif:flash=flashfiredautomode

數字、亂 數雜訊

3.2.5 重複城市

有些使用者為了提高曝光度將無關相片的其他城市 Flickr Tags 帶入,這部份可透過

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Java 程式予以濾除;此外有些 Flickr Tags 將城市名全部加入造成 Tags 在統計數量時造 成誤判,因此只要相片出現兩個以上的城市名將予以濾除(圖 3.3 兩個城市以上 Flickr Tags 範例)。

圖 3.3 兩個城市以上 Flickr Tags 範例 3.2.6 過濾門檻

Flickr Tags 在經過資料處理後,置入 My SQL 以統計 Flickr Tags 排名及數量,同時 針對排名比例來分析出各國城市的顯著 Tags。範圍量越多則取樣的結果將變得無法判讀;

反之如資料量過於減少時,亦無法得到預期的實驗結果。因此觀察從每個城市帄均有一 百多個 Tags 篩選 Top 100 Tags 數量來過濾門檻比對個城市顯著 Tags,再進一步以社會 網路軟體來分析各城市特色。

3.3 研究工具

社會網路分析工具軟體相當多例如(UCINET、Pajek、NodeXL、Gephi)而 NodeXL 軟體涵蓋了一些基本的圖論概念、位置分析法與多維量等。另外 Gephi 是一種專門用來 處理超大型數據集合的軟體,還可以利用一些選項對社群圖進行帄面旋轉或空間旋轉,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

以便以不同角度對圖形進行觀察。還有 POS 詞性分析的 Stanford-Postagger 軟體,以下 介紹本文所使用的研究工具。

3.3.1 NodeXL 介紹

NodeXL 是一個開放原始碼的網路分析和可視化軟件包的 SNA 軟件。這是一個普 遍、且類似 PAJEK、UCINET Gephi 的網路可視化工具。NodeXL 可運作在 Microsoft Excel 2007 以上的版本,於其工作表中含有的各種元素如邊和節點的圖形結構,而其工作表包 含了:Edges、 Vertices、 Groups and Overall Metrics。

NodeXL 可以從 E-mail、Twitter、YouTube 的社交媒體數據的快速收集資料匯入 Excel 中。這些功能允許 NodeXL 用戶立即獲得工作相關的社交媒體數據,並整合成一個工具,

社交媒體數據的收集和分析方面。在適當的工作表中的行格式都位於圖中的實體和它們 之間的關係的相關數據。

3.3.2 Gephi 介紹

Gephi 剛開始是一名大學生開發,後來迅速成為一個開發 SNA 軟件,目前版本為 0.82-beta 版。而 Bastian (2009)提出 Gephi 除了提供在大型網路的可視化分析,利用 數據分析,其應用於 Data Mining 價值從單一節點拓展整個網路的關係。Gephi 是用戶的 可視化和操縱結構,形狀和顏色來解析複雜和凌亂的數據的屬性,目的是幫助數據分析 做出的假設和直觀地發現在大型數據集合的模式。

3.3.3 Stanford-Postagger 介紹

Flickr Tags 當中每個字都有專屬的詞性,這也是使用者常用分析依據。當 Flickr Tags 加入詞性後將更顯得具有研究的價值。如於一開始時即以人工方式來做標註,準確度一 定能達到水準之上,但礙於時間與成本考量,人工方式標註亦有可能發生誤判等問題,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

因此考量使用自動詞性標註方式來產生結果。在使用本軟體觀察詞性標註系統中,蔡卲 章(民 98)觀察近年來詞性標註系統可以發現,標註的正確率大多在 95%上下,使用 標註正確率高的 Stanford Tagger 是不錯的選擇,標註錯誤的部份原因是因為一些句型複 雜長度過長的句子造成誤判。因此詞性標註的正確率對於研究有一定的影響。

3.4 資料庫建置

本研究是利用 MySQL 5.2.44CE 版資料庫進行資料取的與存取,透過此資料庫進行 分析比對,以下是以 Flickr 進行資料庫分析正規化做介紹:

(一)Flickr 城市代碼檔(placecode):首先針對 Flickr 城市代碼檔案建置,Flickr 將記 載 Flickr 城市代碼及名稱分為例如 Amsterdam(727232)、Atlanta(2357024)、

Bangkok(1225448)等(如表 3.8 Flickr 城市代碼檔),其中 PK 指得是 PRIMARY Key 縮寫,而每個 table 只能有一個 PK 值,且 PK 會自動建立 index 格式,另外 特性這個欄位則是 woeid 本身所帶入的一些參數,因此不可為空集合。

表 3.8 Flickr 城市代碼檔 Placecode(Flickr 城市代碼檔)

英文名稱 Woeid Place_name

中文名稱 城市代碼 城市名稱

資料型別 INT VARCHAR (120)

pk V

特性 NOT NULL

範例

Woeid Place_name 727232 Amsterdam 2357024 Atlanta 1225448 Bangkok

753692 Barcelona 2151330 Beijing

………… …………

784794 Zurich

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(二)每月取一號上傳相片數量 TOP 檔(top place data):接著針對 Flickr top place data 分析數量,以日期為參數,呼叫 getTop PlacesList METHOD 後得到的資料(如表 3.9 每月取一號上傳相片數量 TOP 檔)。

表 3.9 每月取一號上傳相片數量 TOP 檔 top place data(每月取一號上傳相片數量 TOP 檔)

英文名稱 Qry_date Woeid Photo_count

中文名稱 查詢日期 城市代碼 上傳相片數量

資料型別 DATE INT INT

pk V V

特性 NOT NULL NOT NULL

範例

Qry_date Woeid Photo_count 2004-03-01 727232 189258 2004-07-01 2357024 174148 2004-07-01 1225448 168605 2004-06-01 753692 182718 2004-05-01 2151330 138022

………… ………… …………

2004-05-01 784794 192908

(三)上傳相片數量前 100 城市檔(top100 place):然後上傳相片數量前 100 城市,以 top place data TABLE 為資料來源,整理出 2004-2012 年前 100 上傳相片數量最多 城市(如表 3.10 每月取一天上傳相片數量 TOP 檔)。

表 3.10 每月取一天上傳相片數量 TOP 檔 top100 place(上傳相片數量前 100 城市檔)

英文名稱 Woeid City Region Country Photo count GNC 中文名稱 城市代碼 城市名稱 地區名稱 國家名稱 上傳相片總數量 城市連結數

資料型別 INT char(30) char(30) char(30) INT INT

pk V

特性 NOT NULL

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

範例

Woeid City Region Country Photo count GNC 727232 Amsterdam Holland Netherlands 524747 37414 2357024 Atlanta Georgia USA 380928 27052 1225448 Bangkok Bangkok Thailand 270029 27726 753692 Barcelona Catalonia Spain 1014672 27053 2151330 Beijing beijing China 320292 26608

……… ……… ……… ……… ……… ……

784794 Zurich Zurich Switzerland 72430 30737

(四)相片主檔(photo):將相片主檔以 photo 為資料來源,透過[城市名稱]為參數,呼 叫 flickr.photos.search METHOD 後得到的資料(如表 3.11 相片主檔)。

表 3.11 相片主檔 photo(相片主檔)

英文名稱 Woeid Date Photo_id Photo_url Tags count 中文名稱 城市代碼 拍攝日期 Flickr 相片 ID Flickr 相片 URL 相片 Tags 數

資料型別 INT DATE BIGINT char(200) INT

pk V V V

特性 NOT

NULL

NOT NULL

NOT NULL constraint index index

範例

Woeid Date Photo_id Photo_url Tags count 727232 2004-3-1 10900 …/gee-ay-bee/10900 3 2357024 2004-7-1 59704 …/robh/59704/ 9 1225448 2004-7-1 77977 …/garyturner/77977 4 753692 2004-6-1 64324 …/moth/64324/ 7 2151330 2004-5-1 32885 …/meer/32885/ 4

……… ……… …… ……… ………

784794 2004-5-1 32066 …/nacho/32066/ 5

註:省略前面網址(http://www.flickr.com/photos/以…代替相對位置)

(五)相片 Tags 檔(Tag for photo):分析相片 Tags 檔,記載相片主檔的所屬 Tags 資料,

利用 Java 程式處理將資料轉換成 Porter 及 Lovins Stemming 詞幹變化(如表 3.12 相片 Tags 檔)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 3.12 相片 Tags 檔 tag for photo(相片 Tags 檔)

英文名稱 Photo_id Tag name Tag_stem Tag_lovins 中文名稱 相片 ID Tags 名稱 Porter Stemming Lovins Stemming 資料型別 BIGINT char(120) char(120) char(120)

pk V V

特性 NOT NULL NOT NULL constraint index index

範例

Photo_id Tag name Tag_stem Tag_lovins 10900 flowers flower flower 59704 unguarded unguard unguard 891276 pans pan pan

64545 sightings sight sight

…… …… …… ……

90875 airports airport airport

(六)多個城市名稱檔(photo_duplicate):分析多個城市名稱檔,以 stock_ director 分 析 photo TABLE 為資料來源,記載相片 Tags 中有兩個城市名稱以上的相片,主 要用來去除不列入研究範圍相片參考,此 TABLE 就是存相片同時存在兩個城市 以上的 photo_id,所以 cnt=2 則表示兩個城市,以此類推(如表 3.13 多個城市名 稱檔)。

表 3.13 多個城市名稱檔 stock_duplicate(多個城市名稱檔)

英文名稱 Photo_id Count

中文名稱 Flickr 相片 ID 城市數量

資料型別 BIGINT INT

pk V

特性 NOT NULL

範例

Photo_id Count Amsterdam 12

Atlanta 15 Bangkok 15 Barcelona 13

…… ……

Zurich 15

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(七)Tags 同義詞字典檔(chk_merge Tag):Tags 同義詞字典檔利用 chk_mergeTag 分 析,將 Tags 同義詞轉換索引(如表 3.14 Tags 同義詞字典檔)。

表 3.14 Tags 同義詞字典檔 chk_merge tag(Tags 同義詞字典檔)

英文名稱 Tag name Merge tag

中文名稱 Tags 名稱 同義詞 Tags 名稱

資料型別 char(120) char(120)

pk V V

特性 NOT NULL NOT NULL

範例

Tag name Merge tag abandoned abandon abends abend abstract abstract

…… ……

zone district

(八)雜訊 Tags 字典檔(chk_noise tag):建立 chk_noise Tag 雜訊 Tags 字典檔,將刪除 雜訊 Tags 為依據(如表 3.15 雜訊 Tags 字典檔)。

表 3.15 雜訊 Tags 字典檔 chk_noise tag(雜訊 Tags 字典檔)

英文名稱 Noise tag

中文名稱 雜訊 Tags

資料型別 char(120)

pk V

特性 NOT NULL

範例

Noise tag ab800 abandon

abigfav abigfave

……

zurigo

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(九)各城市顯著 Tags 檔(ace_Tag_rank):各城市顯著 Tags 檔透過 ace_Tag_rank 分類,

將得到的全部顯著 Tags 存在同一 TABLE,以利使用 SQL 語言操作(如表 3.16 各 城市顯著 Tags 檔)。

表 3.16 各城市顯著 Tags 檔 ace_tag_rank(各城市顯著 Tags 檔)

英文名稱 Woeid City Ace_name Count Rank 中文名稱 城市代碼 城市名稱 Tags 名稱 Tags 數量 排名 資料型別 INT char(30) char(120) INT INT

pk V V V

特性 NOT

NULL

NOT NULL NOT NULL

範例

Woeid City Ace_name Count Rank 727232 Amsterdam bike 1788 1 2357024 Atlanta architecture 1188 1 1225448 Bangkok woman 2357 1 753692 Barcelona art 1201 1 2151330 Beijing travel 1541 1

…… …… …… …… …

784794 Zurich street 1484 1

(十)各城市檔案資料(city_XX city)…(41 個城市 TABLE):分析各城市檔案資料,

記載城市的 Tags 資料總共產生 41 個城市 TABLE (如表 3.17 41 個城市檔案)。

表 3.17 41 個城市檔案 city_XX city(41 個城市檔案)

英文名稱 Woeid City Year Date Photo_id Tag_name Tag_stem Tag_lovin Url

中文名稱 城市代碼 城市名稱 年度 拍攝日期 相片 ID Tags 名稱 Porter Stemming Lovins Stemming 相片 URL

資料型別 INT Char(30) Char(4) DATE BIGINT char(120) char(120) char(120) char(200)

constraint index index index

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

範例

Woeid City Year Date Photo_id Tag_name Tag_stem Tag_lovin Url 727232 Amsterdam 2004 4-1 25126 bunches bunch bunch …/mildlydiverting

2357024 Atlanta 2004 7-1 59704 art art art …/robh/59704

1225448 Bangkok 2004 9-1 430121 travel travel travel …/danburgmurmur

753692 Barcelona 2004 6-1 64324 art art art …/moth/64324

……… …… …… …… ……… ……… ……… ……… ………

784794 Zurich 2004 5-1 32066 old old old …/nacho/32066

(十一)各城市檔案權重資料(city_XX city TF-IDF):分析各城市檔案資料,記載城市 的 Tags 資料總共產生 41 個城市 TF*IDF 權重 TABLE (如表 3.18 41 個城市 檔案權重資料)。

表 3.18 41 個城市檔案權重資料 Tour_tag_TF_IDF(各城市顯著 Tags 檔)

英文名稱 Woeid City Ace_name Count TF*IDF Rank 中文名稱 城市代碼 城市名稱 Tags 名稱 Tags 數量 TF*IDF 權重 排名 資料型別 INT char(30) char(120) INT INT INT

pk V V V

特性 NOT

NULL

NOT NULL

NOT NULL NOT NULL

範例

Woeid City Ace_name Count TF*IDF Rank 727232 Amsterda

m bike 1788 0.3184

1 2357024 Atlanta architecture 1188 0.1398 1 1225448 Bangkok woman 2357 0.444 1 753692 Barcelona art 1201 0.3108 1 2151330 Beijing travel 1541 non 1

…… …… …… …… …… …

784794 Zurich street 1484 0.2796 1

該部分使用 MySQL 搭配 Java 程式撰寫,透過 Flickr API 尋找與城市的 Tags 連結的 字詞,利用 Java 程式篩選時間後,以等量結果回傳到資料庫中,透過分群方式排列,將