• 沒有找到結果。

第三章、 研究方法與設計

第二節、 資料來源與處理

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二節、 資料來源與處理

3.2.1. 資料來源

如前所述,因 Apple 的 App Store 提供使用者較大量的 App,而目前網路上 也有許多針對 App 所架設的論壇及網站,提供網友在使用 App 之後能夠藉由發 表文章的方式來推薦自己喜愛的 App。

故本研究便以 App Store 的 App 為主,並在 App Store 所設定的 22 項主要類 別中,選擇遊戲(Games)類別的 App 為蒐集對象;而資料蒐集來源則選擇設有以 使用者發表 App 相關推薦文為主討論區塊之論壇,因 App 相關論壇並無統一網 頁格式,故需以人工方式蒐集文章。而論壇選擇方式為:於 Google 搜尋網頁中 輸入關鍵字:「App Store、推薦、遊戲、論壇」後,於搜尋結果中選取符合本研 究需求之 App 相關論壇;又仔細觀察搜尋結果排列越後面之項目,與所欲搜尋 的相關論壇越無關聯,故只採用前 50 筆搜尋結果,並挑選出前三個 App 相關論 壇,分別為:App01(www.app01.com.tw)、iPhone4.TW(iphone4.tw/forums/forum.php) 與 Mobile01(www.mobile01.com)。接著,從中蒐集與 Apple Store 所提供之遊戲 類型 App 相關之推薦文章共 439 篇;並將推薦對象相同之 App 推薦文章整合於 同一份文章中。最後共整理出 357 篇文章,每一篇文章代表一種 App 遊戲。

本研究所蒐集的 App 推薦文範例如表 3-1:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 3-1 App 推薦文範例

標題:【新發現。重要經驗分享 173 樓】CEO LIFE 私密功略分享及簡介

發布者:cheris168 發布時間:2011-08-15 10:16

CEO LIFE 這款超有趣模擬經營的遊戲今年 2 月 11 日新鮮上架的職場 CEO 模擬 軟體, 短短半年在日本與對岸吸引了數十萬的瘋狂玩家, 小弟從上星期五(8/12)也加 入了這個行列, 感覺蠻有趣的,

可以邀請朋友一起加入、合夥做生意、建立子公司、培訓下屬、結交好友、開拓 業務…若未來您真有自己創業的計劃, 也不妨先在這遊戲中經驗一下當 CEO 的滋味。

在遊戲的當中隨時也可以與真實的朋友互通訊息,

也可以和陌生的外國朋友聊天, 互相分享心得或真實世界的生意往來。遊戲一開 始會先給您一位漂亮的秘書, 當然漂亮的定義因每人觀感不同, 所以選擇也不同了...

為了讓公司強大, 首先要陪養優秀的人材, 部下的人力值分為健壯、才智、審美 與外交 4 種; 然後根據部下的能力選擇職業, 建立子公司...根據子公司的職業特徵, 每 隔一小時會得到相應的效益哦~

公司愈大效益愈多, 您就有錢買鑽石或名牌包包囉~來吧~讓我們一起成為世界 首富加油吧~

(資料來源:ttp://www.mobile01.com/topicdetail.php?f=627&t=2302566&last=30656671)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.2.2. 文章斷詞

在論壇中所蒐集到的 App 推薦文中,許多網友會透過圖片的方式來解說遊 戲的玩法以及分享戰績,而這些圖片在其後是無法被進行分析的,所以在存入資 料庫前,我們必須將無法透過文字探勘進行分析的圖片以及作者資訊等非主文的 描述過濾掉,以便進行後續的文字探勘分析。

又在前述文獻探討中我們曾提到:因為文件是以非結構化或半結構化的方式 呈現,所以為了讓推薦文章像一般資料庫中的結構化資料一樣,方便我們分析其 內容資訊,就必須先將文章進行斷詞,轉換成結構化的資料。

而本研究所使用的斷詞工具是中研院詞庫小組所開發的 CKIP 中文斷詞系統,

因文章透過該系統進行斷詞後,回傳的結果會針對所有詞彙加上相符的詞性且沒 有每日斷詞次數之限制,故能符合本研究之需求。以下為 CKIP 系統斷詞處理前、

後對照之範例:

斷詞處理前:

斷詞處理後:

也因為我們可以得知文章斷詞後各詞彙的詞性,如此一來,當未來我們需要 刪減文件特徵時,也能透過判斷詞彙詞性的方式,擷取出較具代表性的特徵詞彙,

並刪除較不具有實質意義的詞性之詞彙;以本研究所考慮的詞性方面,較能代表 使用者感受且具有實質意義的詞性為:動詞、名詞與形容詞,故本研究將過濾掉 其他詞性,以減少後續運算過程,提升執行效率。

CEO 模擬軟體, 短短半年在日本與對岸吸引了數十萬的瘋狂玩家!

CEO(FW) 模擬(Nv) 軟體(N) ,(COMMACATEGORY) 短短(Vi) 半年(N) 在(P) 日本(N) 與(C) 對岸(N) 吸引(Vt) 了(ASP) 數十萬(DET) 的(T) 瘋狂(Vi) 玩家(N)

!(EXCLAMATIONCATEGORY)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.2.3. 文件特徵選取

在進行文件相似度計算前,需將文件轉換成向量空間模型表示,因此本研究 能藉由 TF-IDF 詞彙權重計算公式,將斷詞後的各個詞彙在文章中所佔的權重值 計算出來,該法考慮到詞彙在各篇文章中以及在所有文章的普遍性,並可透過正 規化公式來避免各篇文章因為長度不同而造成的權重值差異問題。

由於文件中的每一個詞彙都是組成該文件的特徵,因此,選擇愈多的詞彙作 為文件特徵,即愈能代表文件本身。但過多的文件特徵常會造成文件向量空間模 型的維度太高,進而使得分群時的運算量過於龐大;故本研究針對每篇推薦文章 計算完文章中所有詞彙之權重後,僅以詞彙權重前 80%的詞彙作為文章之關鍵詞 彙,以使各文章所含之詞彙更具特徵意義並減少運算量及刪去較不重要之詞彙。

相關文件