• 沒有找到結果。

第四章 資料處理

第一節、 資料清洗

透過本節的資料清洗步驟與文章斷詞後,才能非結構資料量化並執行後續演 算。同時,因為維穩相關文本包羅萬象,不管是美容廣告用的「維穩效果」,還是 投機炒作用的「維穩行情」,佔據相當雜訊,也非本文需要探究的內容。接下來說 明如何資料清洗並如下流程圖所示。

圖四. 1 資料清洗的流程圖 資料來源:本文自行整理

按圖四. 1 依序介紹資料清洗過程。首先無關 ID 與連結會因為有些發文者的 ID 就包含了「維穩」的關鍵字,例如「維穩先鋒卡菊輪」、「那少年維穩著反腦」、

「維穩先鋒卡梅倫」等。其他發文者發帖出現「@」標誌 36這幾位發文者,但文章 內容不一定與維穩相關。同時本文將排除無關內容,例如廣告文或股市文37。若發 文者附帶的連結名稱,若無關,也必須要去除。

下個程式為檢查文本是否遭到外力影響,也就是微博管理員對文章屏蔽或刪 除。不過因微博的管理員「小秘書」,刪除或屏蔽文本所用的官方「功能詞」繁多,

不易列舉所有被刪文章的官方功能詞,但觀察後,確定遭到屏蔽或刪除的文章如下 表與下圖四. 2 與下表四. 1 的表現方式。

圖四. 2 微博貼文遭過濾禁止查閱內容,但發文內容仍在 資料來源:取自微博網頁並自行整理

36 但實際是爬蟲過程中,應該排除或是記錄成一個資料欄位,但筆者當時並未預先處理,是故額 外字串處理。必須準確切割@符號,並切割發文者,有時甚至要人工判斷是否發文者。若重新 爬蟲並額外處理,方便未來研究展望可以處理@發文者來表達意見領袖的群組,也可做更為細 緻的向內向心性與向外向心性的網絡分析。

37 許多文章確實出現以「維穩」作為信號,要求其他股民進退場,或是其他投機客對房地產炒 作。投機客大喊「維穩行情」、「價格維穩」、「國家隊進場」等引領炒作投機。類似文章與 本文研究目的差異盛大,故屏除投資文、廣告文、股市文等不談

表四. 1 來自微博的官方通知訊息,當發文者遭到刪除或是過濾

資料來源:取自微博網頁並自行整理

在去除無意義字詞(刪除字典)程式中,主要以非政治類討論文章,同時也先 行斷詞,但並非斷詞最後結果(僅為了優化斷詞品質)。過程中大多是中文詞性38 的連接詞、語助詞、形容詞與副詞等,也包括不能表達具體意義的一個單字的字詞

39,也包括微博功能詞40,也包括中文字41以外的字詞。

為了刪除「廣告」與「投機」的文章,一般研究會使用執行速度較快的演算法 幫忙分類,一旦發現該分類屬於被研究目的所需,則剃除「雜訊文」的分類文章。

常用的演算法是kmeans 分群演算法。但本研究前期分群之後發現許多文章不能成 功分群,即便分至2000 群也有數個文章數多的大群,其他數群甚至出現 0 篇文章。

也就是說,文章數多的大群已難分出雜訊混合的小群,也不易切割。

所以為了「相當確切」分出雜訊文章,本文以「雜訊目標字」來找尋文章濾除。

經大致閱覽文章後,細分八個層級來濾除或加回文章,過濾層級與程式些許判斷範 例如下表四. 2(因篇幅僅列出程式內部判斷數詞)所示,刪除無意義字詞以及刪除 雜訊文章的過程如下步驟(圖四. 1 的來回優化步驟)。

38 例如有人、一隻、依舊、非常、說道、我還以為等。儘管如此,後面章節用到的 word2vec 會參考 前後字詞的出現機率,不會先行刪除其中中文詞性。之後分析結果時,才會「刪除無意義斷詞」。

39 例如到、去、中、等、從、你、我等。但還是存有有意義的一個單字字詞,如刪、殺、遭、維、

穩等詞。

40 例如最新動態、新浪財經、轉載、網頁連結、收起全文等。

41 由於符號繁雜,可能是標點符號、運算符號、其他外國語文字、表情符號、亂碼等,難以一一濾 除,故本文先行將全文本轉為 utf-8 格式,並限制在文字內碼為:「\u4e00-\u9fa5」範圍內的中文 文字。

該微博因被多人投訴,根據《微博社區公約》,已被刪除。查看幫助:

系統通知 您在 2012-03-06 19:26:00 發表的微博“轉發微博”已被管理員刪除。給您帶來的不便,

深表歉意。如有疑問可私信 @圍脖被刪投訴 的帳戶,我們會妥善處理您的投訴。或者到微博客 服專區投訴 O 網頁連結 ,謝謝合作!

抱歉,此微博不適宜對外公開。如需幫助,請聯繫客服。O 微博幫助-我要提問

抱歉,您在 2012-08-19 17:55:20 發表的微博“深圳。”已被管理員加密。此微博不適宜對外公開。

如需説明,請聯繫客服(連結:O 微博幫助-我要提問)

尊敬的用戶你好,因違反相關法律法規和《微博舉報投訴操作細則》,你於 2018-01-02 14:52:24 發 表的微博“O 馮遠征控訴侵權 替岳父《紅色娘子軍》編劇梁信討 12 萬元賠償 ...”已被刪除。

查看幫助:O

抱歉,由於作者設置,你暫時沒有這條微博的查看許可權哦。查看幫助:O 網頁連結 抱歉,此微博已被刪除。查看幫助:O 網頁連結

系統通知:抱歉,您在 2012-04-18 10:42:08 發表的微博“今年要維穩,微博上煽動的人...”已被 管理員加密。此微博不適宜對外公開。如需説明,請聯繫客服(連結:O 微博幫助-我要提問)

一、先行斷詞一次,以不完整斷詞結果執行以下步驟

二、以亂數方式顯示10 則文章(包含斷詞結果與文章序號)

三、由筆者主觀確定某文重要斷詞結果錯誤或需判定的斷詞結果 i. 正確斷詞結果增加至結巴自訂字典

ii. 無意義字詞結果以及微博的功能詞則增加至刪除字典

iii. 經查詢屬於地方方言或網絡用語的謾罵字詞增加至情緒字典

iv. 經查詢文章含有微博官方通知訊息並且屬於過濾訊息則加入表四. 1 四、由筆者主觀確定某文為雜訊文章

i. 按照「雜訊目標字」是否特殊,加入到下表四. 2 不同濾除的層級 ii. 搜尋所有含上特殊的雜訊目標字的文章,並再次檢視是否誤刪 iii. 若誤刪則增加文章內的其他字詞幫助判斷,上下調整邏輯與層級 五、持續上面步驟三與步驟四,直到步驟四之三僅剩下不到10 則42雜訊文 表四. 2 八個層級來濾除與維穩不相干文章,或是根據情況加回文章

資料來源:本文自行整理

如前所述已將雜訊文章濾除之後,進行一次斷詞動作。經過數次隨機顯示數則 文章以人工方式,再次來回數次觀看斷詞結果後,若是結巴斷詞結果依舊不理想則 繼續以上步驟,並優化斷詞的品質。最後如下表四. 3 為清洗後整體文本的前 40 多 字詞數表格,以及表四. 4 經斷詞後基本資訊與字典資訊。

42 按筆者斷詞經驗,總數達 200 萬以上維穩文本,起初可刪去數千文章,尤其是股市投機文章,

並持續往下收斂,可刪去數百文章,尤其是美容保養文章,最後球賽類型與網友自行引申維穩 意義的文章有數十則。最後只剩下不到10 則多的雜訊文章,繼續刪除的效益已不大。

濾除層級 範例 文章斷詞皆有出

{發起的投票,我投給了,這個選項,你也快來表態吧},{原油價格,天然氣,期貨價 格,價格},{抖音,代購,美妝,眼影}

文章斷詞一半以 上有出現

{出名,這款,評分,推薦,攜帶,搭配,效果},{完美,天秤,巨蟹,征途,雙魚,白羊,水瓶, 星座,金牛,雙魚,獅子,處女},{免費,圍觀,回答,問題,價值,快來,一起}

有任四個 {朋友圈,代購,回饋,美妝,福利},{散戶,穩住,機構,撤,發新股,上漲}

有任三個 {預計,支撐,上市新低,壓力,後市,震盪,下跌,上市新高,上市},{產品,關注,品牌, 招牌,私信,打折,活動,試用,優惠,推薦,分享,熱門},{調控,波動,探底,震盪,穩定}

有任兩個 {賠率,球迷,比賽, 彩民},{變速箱,底盤, 發動機},{尾盤,跳水, 利率,加息,市 場},{二手房,房地產,投資,炒房客}

有任一個 第一理財網,投資中國網,籃網陣容,煤炭股,爆冷取勝,眼部精華,俄羅斯代購,裸 妝,離岸人民幣匯率,護盤力量,航空板塊,公開市場,日本央行

邏輯關係 央行 ∩(市場 ∪ 投資 ∪ 出手 ∪ 資金)

因誤刪補回 {維穩獎},{貪腐獎},{信訪獎},{駙馬,小姐,永不上訪,保證書,地方,衙門,小說,上 京,銀兩,以身相許,書生}

表四. 3 經清洗後,前 40 斷詞的數量與次序

資料來源:本文自行整理

表四. 4 資料清洗後的各種字典與斷詞的數量

資料來源:本文自行整理

本節資料清洗目的在於濾除雜訊以及優化斷詞的作業。經整理後,本文可以得 知在清洗後貼文剩下1503431 篇,仍有 546694 篇屬於雜訊貼文(大多為廣告投機 文),佔總文的「26.6」百分比。