• 沒有找到結果。

資料收集作業流程

資料收集的過程相當繁瑣,因此本章將介紹資料收集的流程,包含資料收集 的過程、資料更新方式以及使用與呈現。7.1 資料收集與系統建置、7.2 資料更 新及 7.3 系統重建機制。

7.1 資料收集

資料收集主要分成實價登錄及房仲網兩部分。流程有資料的取得、資料整理 及匯入資料庫。

1. 資料取得

實價登錄資料是於 102 年 11 月向內政部購買 101 年 8 月至 102 年 9 月 15 日的租賃、買賣及預售資料。而房仲網方面是有巢氏房屋,自行撰寫 crawler 搭 配 bash 檔執行。

2. 資料整理

實價登錄資料雖說有政府的把關,但資料空缺、格式不一的情況還是層出不 窮。觀察表格 1 實價登錄實際資料以下是我們做的資料整理:

A. 「土地區段位置/建物區段門牌」依實價登錄之規定應該填入除去縣市及 鄉鎮名的地址區段,但資料中建物地址大多數還是保留了縣市及鄉鎮名,

因此需將其除去。

B. 面積的計算方式在收集儲存時是以實價登錄原始的型態儲存,也就是以 平方公尺作為度量單位,而呈現時需將其轉換成以坪當單位。同時平均 單價也需作變動。

C. 「移轉層次」裡除了包含交易的標的樓層外,還有許多其他資訊,如:

陽台、騎樓、夾層、電梯間等等,相當混亂。因此在整理過程中需將其 主要資訊,也就是交易的標的樓層轉換成數字儲存,方便日後計算或呈 現使用。

D. 「交易標的坐標」是 TWD97 的座標系,但在許多資料呈現都是已經緯

55

度作參考,因此再匯入資料庫前也需將其座標轉換成經緯度一起存入資 料庫中。

將上述問題整理完後匯出成.csv 檔,就完成實價登錄資料整理的部分。有巢 氏的部分如下:

A. 當初 crawler 將資料匯出成.tsv 而非.csv 的原因是有巢氏在價錢的欄位有 加上千分位的逗點,若以.csv 紀錄會造成藍位區分上的混淆。因此,在 整理時要將千分位的逗點移除。

B. 格局的欄位需將「x 房(室)x 廳 x 衛」形式切割成房、廳、衛三個不同的 欄位儲存。

C. 有巢氏房屋的資料不像實價登錄資料有縣市、鄉鎮、地址的獨立欄位,

而是全部都寫在地址一個欄位中。為了資料的結構化及統一性我們將其 切成三個欄位,與實價登錄資料庫一致。

D. 單位去除。如:面前巷道及管理費的資料有含單位,需將其去除後在存 入資料庫中。

3. 匯入資料庫

第三歩為匯入資料庫,以 phpMyAdmin 的介面,勾選.csv 檔匯入,並將 換行字元改為’\n’。

7.2 資料更新

資料更新主要也是分兩個步驟,資料收集與網頁更新。資料收集分成實價登 錄與房仲網。

由實價登錄資料須購買,計費方式是以資料量作為標準,100M 以下是 2000 元,100M 到 500M 是 4000 元,以學術研究名義可半價購買。經過衡量半年購 買一次較為恰當。同樣的,在資料更新也包括資料收集和資料整理。如 7.1 的資 料整理部分,我們需要做地址路段化;面積單位轉換,同時平均單價也需作變動;

「移轉層次」轉換成數字儲存;「交易標的坐標」轉換成經緯度一起存入資料庫

56

中。

房仲網是自行抓取較不受此限,約兩個月抓取一次。抓取方式參照資料收集 流程及可。資料收集完成後同樣也需要做整理。將價錢資料中千分位的逗點移除;

格局的欄切割成房、廳、衛三個欄位儲存;將地址資訊切成三個欄位儲存;特定 欄位的單位去除。

第二部分是網站更新,需要再資料收集後產生新的檔案供網頁顯示。產生完 相對應的檔案後,網頁內容也需要作為調,如下拉式選單需新增幾個月分等等。

7.3 系統重建機制

意外隨時可能會發生,像是停電、主機硬體故障,甚至電腦中毒或是操作不 當,造成硬體故障或是資料損毀而無法讀取都有可能造成系統毀壞。因此,適時 的備份是很重要的。而除了備份資料外,系統要能運作還需要一些繁瑣的設定何 調整。本篇制訂了一套重建機制來解決未來可能發生意外的狀況。

當主機發生意外或是系統需要移植到另外一台主機上時,就需要作系統重建。

在討論重建之前要先討論備分。當資料更新過後,資料庫以及網站的資料夾需要 備份至雲端,以確保之後的系統有最新的版本能復元。

在需作系統重建時,首先將資料庫備份還原至最新備份版本。第二,將網頁 資料夾擺放置新的位置。內部需調整地方有網頁顯示及連接資料庫兩部分:網頁 顯示部分,房價趨勢地圖的部分,網址 url 需依據檔案路徑作調整;連接資料庫 的部分需更改 IP、帳號密碼。IP 須依照新的資料庫所在主機 IP 設定,而帳號密 碼也須變更成擁有能夠存取新設置資料庫權限的帳號密碼。

57

相關文件