第三章 研究方法與系統架構
3.4 資料庫建置
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
因此考量使用自動詞性標註方式來產生結果。在使用本軟體觀察詞性標註系統中,蔡卲 章(民 98)觀察近年來詞性標註系統可以發現,標註的正確率大多在 95%上下,使用 標註正確率高的 Stanford Tagger 是不錯的選擇,標註錯誤的部份原因是因為一些句型複 雜長度過長的句子造成誤判。因此詞性標註的正確率對於研究有一定的影響。
3.4 資料庫建置
本研究是利用 MySQL 5.2.44CE 版資料庫進行資料取的與存取,透過此資料庫進行 分析比對,以下是以 Flickr 進行資料庫分析正規化做介紹:
(一)Flickr 城市代碼檔(placecode):首先針對 Flickr 城市代碼檔案建置,Flickr 將記 載 Flickr 城市代碼及名稱分為例如 Amsterdam(727232)、Atlanta(2357024)、
Bangkok(1225448)等(如表 3.8 Flickr 城市代碼檔),其中 PK 指得是 PRIMARY Key 縮寫,而每個 table 只能有一個 PK 值,且 PK 會自動建立 index 格式,另外 特性這個欄位則是 woeid 本身所帶入的一些參數,因此不可為空集合。
表 3.8 Flickr 城市代碼檔 Placecode(Flickr 城市代碼檔)
英文名稱 Woeid Place_name
中文名稱 城市代碼 城市名稱
資料型別 INT VARCHAR (120)
pk V
特性 NOT NULL
範例
Woeid Place_name 727232 Amsterdam 2357024 Atlanta 1225448 Bangkok
753692 Barcelona 2151330 Beijing
………… …………
784794 Zurich
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(二)每月取一號上傳相片數量 TOP 檔(top place data):接著針對 Flickr top place data 分析數量,以日期為參數,呼叫 getTop PlacesList METHOD 後得到的資料(如表 3.9 每月取一號上傳相片數量 TOP 檔)。
表 3.9 每月取一號上傳相片數量 TOP 檔 top place data(每月取一號上傳相片數量 TOP 檔)
英文名稱 Qry_date Woeid Photo_count
中文名稱 查詢日期 城市代碼 上傳相片數量
資料型別 DATE INT INT
pk V V
特性 NOT NULL NOT NULL
範例
Qry_date Woeid Photo_count 2004-03-01 727232 189258 2004-07-01 2357024 174148 2004-07-01 1225448 168605 2004-06-01 753692 182718 2004-05-01 2151330 138022
………… ………… …………
2004-05-01 784794 192908
(三)上傳相片數量前 100 城市檔(top100 place):然後上傳相片數量前 100 城市,以 top place data TABLE 為資料來源,整理出 2004-2012 年前 100 上傳相片數量最多 城市(如表 3.10 每月取一天上傳相片數量 TOP 檔)。
表 3.10 每月取一天上傳相片數量 TOP 檔 top100 place(上傳相片數量前 100 城市檔)
英文名稱 Woeid City Region Country Photo count GNC 中文名稱 城市代碼 城市名稱 地區名稱 國家名稱 上傳相片總數量 城市連結數
資料型別 INT char(30) char(30) char(30) INT INT
pk V
特性 NOT NULL
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
範例
Woeid City Region Country Photo count GNC 727232 Amsterdam Holland Netherlands 524747 37414 2357024 Atlanta Georgia USA 380928 27052 1225448 Bangkok Bangkok Thailand 270029 27726 753692 Barcelona Catalonia Spain 1014672 27053 2151330 Beijing beijing China 320292 26608
……… ……… ……… ……… ……… ……
784794 Zurich Zurich Switzerland 72430 30737
(四)相片主檔(photo):將相片主檔以 photo 為資料來源,透過[城市名稱]為參數,呼 叫 flickr.photos.search METHOD 後得到的資料(如表 3.11 相片主檔)。
表 3.11 相片主檔 photo(相片主檔)
英文名稱 Woeid Date Photo_id Photo_url Tags count 中文名稱 城市代碼 拍攝日期 Flickr 相片 ID Flickr 相片 URL 相片 Tags 數
資料型別 INT DATE BIGINT char(200) INT
pk V V V
特性 NOT
NULL
NOT NULL
NOT NULL constraint index index
範例
Woeid Date Photo_id Photo_url Tags count 727232 2004-3-1 10900 …/gee-ay-bee/10900 3 2357024 2004-7-1 59704 …/robh/59704/ 9 1225448 2004-7-1 77977 …/garyturner/77977 4 753692 2004-6-1 64324 …/moth/64324/ 7 2151330 2004-5-1 32885 …/meer/32885/ 4
……… ……… …… ……… ………
784794 2004-5-1 32066 …/nacho/32066/ 5
註:省略前面網址(http://www.flickr.com/photos/以…代替相對位置)
(五)相片 Tags 檔(Tag for photo):分析相片 Tags 檔,記載相片主檔的所屬 Tags 資料,
利用 Java 程式處理將資料轉換成 Porter 及 Lovins Stemming 詞幹變化(如表 3.12 相片 Tags 檔)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 3.12 相片 Tags 檔 tag for photo(相片 Tags 檔)
英文名稱 Photo_id Tag name Tag_stem Tag_lovins 中文名稱 相片 ID Tags 名稱 Porter Stemming Lovins Stemming 資料型別 BIGINT char(120) char(120) char(120)
pk V V
特性 NOT NULL NOT NULL constraint index index
範例
Photo_id Tag name Tag_stem Tag_lovins 10900 flowers flower flower 59704 unguarded unguard unguard 891276 pans pan pan
64545 sightings sight sight
…… …… …… ……
90875 airports airport airport
(六)多個城市名稱檔(photo_duplicate):分析多個城市名稱檔,以 stock_ director 分 析 photo TABLE 為資料來源,記載相片 Tags 中有兩個城市名稱以上的相片,主 要用來去除不列入研究範圍相片參考,此 TABLE 就是存相片同時存在兩個城市 以上的 photo_id,所以 cnt=2 則表示兩個城市,以此類推(如表 3.13 多個城市名 稱檔)。
表 3.13 多個城市名稱檔 stock_duplicate(多個城市名稱檔)
英文名稱 Photo_id Count
中文名稱 Flickr 相片 ID 城市數量
資料型別 BIGINT INT
pk V
特性 NOT NULL
範例
Photo_id Count Amsterdam 12
Atlanta 15 Bangkok 15 Barcelona 13
…… ……
Zurich 15
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(七)Tags 同義詞字典檔(chk_merge Tag):Tags 同義詞字典檔利用 chk_mergeTag 分 析,將 Tags 同義詞轉換索引(如表 3.14 Tags 同義詞字典檔)。
表 3.14 Tags 同義詞字典檔 chk_merge tag(Tags 同義詞字典檔)
英文名稱 Tag name Merge tag
中文名稱 Tags 名稱 同義詞 Tags 名稱
資料型別 char(120) char(120)
pk V V
特性 NOT NULL NOT NULL
範例
Tag name Merge tag abandoned abandon abends abend abstract abstract
…… ……
zone district
(八)雜訊 Tags 字典檔(chk_noise tag):建立 chk_noise Tag 雜訊 Tags 字典檔,將刪除 雜訊 Tags 為依據(如表 3.15 雜訊 Tags 字典檔)。
表 3.15 雜訊 Tags 字典檔 chk_noise tag(雜訊 Tags 字典檔)
英文名稱 Noise tag
中文名稱 雜訊 Tags
資料型別 char(120)
pk V
特性 NOT NULL
範例
Noise tag ab800 abandon
abigfav abigfave
……
zurigo
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(九)各城市顯著 Tags 檔(ace_Tag_rank):各城市顯著 Tags 檔透過 ace_Tag_rank 分類,
將得到的全部顯著 Tags 存在同一 TABLE,以利使用 SQL 語言操作(如表 3.16 各 城市顯著 Tags 檔)。
表 3.16 各城市顯著 Tags 檔 ace_tag_rank(各城市顯著 Tags 檔)
英文名稱 Woeid City Ace_name Count Rank 中文名稱 城市代碼 城市名稱 Tags 名稱 Tags 數量 排名 資料型別 INT char(30) char(120) INT INT
pk V V V
特性 NOT
NULL
NOT NULL NOT NULL
範例
Woeid City Ace_name Count Rank 727232 Amsterdam bike 1788 1 2357024 Atlanta architecture 1188 1 1225448 Bangkok woman 2357 1 753692 Barcelona art 1201 1 2151330 Beijing travel 1541 1
…… …… …… …… …
784794 Zurich street 1484 1
(十)各城市檔案資料(city_XX city)…(41 個城市 TABLE):分析各城市檔案資料,
記載城市的 Tags 資料總共產生 41 個城市 TABLE (如表 3.17 41 個城市檔案)。
表 3.17 41 個城市檔案 city_XX city(41 個城市檔案)
英文名稱 Woeid City Year Date Photo_id Tag_name Tag_stem Tag_lovin Url
中文名稱 城市代碼 城市名稱 年度 拍攝日期 相片 ID Tags 名稱 Porter Stemming Lovins Stemming 相片 URL
資料型別 INT Char(30) Char(4) DATE BIGINT char(120) char(120) char(120) char(200)
constraint index index index
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
範例
Woeid City Year Date Photo_id Tag_name Tag_stem Tag_lovin Url 727232 Amsterdam 2004 4-1 25126 bunches bunch bunch …/mildlydiverting
2357024 Atlanta 2004 7-1 59704 art art art …/robh/59704
1225448 Bangkok 2004 9-1 430121 travel travel travel …/danburgmurmur
753692 Barcelona 2004 6-1 64324 art art art …/moth/64324
……… …… …… …… ……… ……… ……… ……… ………
784794 Zurich 2004 5-1 32066 old old old …/nacho/32066
(十一)各城市檔案權重資料(city_XX city TF-IDF):分析各城市檔案資料,記載城市 的 Tags 資料總共產生 41 個城市 TF*IDF 權重 TABLE (如表 3.18 41 個城市 檔案權重資料)。
表 3.18 41 個城市檔案權重資料 Tour_tag_TF_IDF(各城市顯著 Tags 檔)
英文名稱 Woeid City Ace_name Count TF*IDF Rank 中文名稱 城市代碼 城市名稱 Tags 名稱 Tags 數量 TF*IDF 權重 排名 資料型別 INT char(30) char(120) INT INT INT
pk V V V
特性 NOT
NULL
NOT NULL
NOT NULL NOT NULL
範例
Woeid City Ace_name Count TF*IDF Rank 727232 Amsterda
m bike 1788 0.3184
1 2357024 Atlanta architecture 1188 0.1398 1 1225448 Bangkok woman 2357 0.444 1 753692 Barcelona art 1201 0.3108 1 2151330 Beijing travel 1541 non 1
…… …… …… …… …… …
784794 Zurich street 1484 0.2796 1
該部分使用 MySQL 搭配 Java 程式撰寫,透過 Flickr API 尋找與城市的 Tags 連結的 字詞,利用 Java 程式篩選時間後,以等量結果回傳到資料庫中,透過分群方式排列,將
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
Flickr 中具有指標性質的相片 Tags、Cunt、Rank、Mark、City…etc,存入資料庫中。完 成所有字詞相關的相片資料庫建置後,資料庫內的資料表會有成千上萬個的 Tags 數與 其相關的城市對應,透過 Tags 進行資料分析,看其中使用者如何使用習慣標示 Tag,進 而完成 Flickr 網路相簿與世界城市的概念輪廓與連結之研究。