• 沒有找到結果。

因此在本研究問題⼀:台灣與中國各個媒體平台之報導與貼⽂在數量變化上是 否具有相關性?其隨時間之歷時性趨勢為何? 研究結果顯⽰研究對象中僅有 ShareCourse 與聯合新聞網的報導數量變化具有正相關且顯著。

⽽在視覺化初步結果,以中研院斷詞系統(CKIP)處理之斷詞與詞頻統計列 出前 30 名詞頻,以及利⽤網路⽂字雲產⽣平台(https://timdream.org

/wordcloud/)之⽂字雲呈現視覺結果。社群媒體部分各平台業者皆是以平台報名 課程註冊時的課程為主體,兩岸的社群媒體使⽤「課程」兩字皆在詞頻統計前段。

整體觀之微博使⽤較靈活多樣,「晚安」、「學堂菌」等類似粉絲專業⼩編經營的 個⼈化⽤語較多,Facebook 上則是以整體的「我們」、「⼤家」等詞彙來稱呼使⽤

者。兩岸傳統媒體對於 MOOC 之報導⽤語皆以「教育」、「學習」、「課程」為 主。以⼈民網為例,在 CKIP 的斷詞系統使⽤,尚符合中⽂使⽤的斷詞規則,尤其 本研究領域之專有名詞「慕課」、「在線」仍能⾃動辨別,但對於⼀些關聯單詞「的」、

「在」、「和」則如常出現在前幾名詞頻統計中。⽂字雲的呈現則⾃動去除⾼頻率 的單字詞。⽂字雲視覺化結果在其他平台的⽂字內容表現並不佳,出現「http」、

「https」等其他眾多標點符號等⾮中⽂字詞雜訊。以下對於九個研究對象個別列 出斷詞結果以及⽂字雲。

表 6

⼈民網 CKIP 斷詞結果

圖 11:⼈民網⽂字雲

表 7

聯合新聞網 CKIP 斷詞結果

1~10 , 的 。 課程 「 」 大學 學習 上 是

11~20 學生 在 有 一 與 教育 也 讓 個 教學

21~30 人 了 能 不 網路 就 都 這 平台 )

圖 12:聯合新聞網⽂字雲

1~10 , 的 在 教育 是 和 课程 有 学习 大学

11~20 学生 我 等 线 来 慕课 学 平台 教学 者

21~30 就 国 发展 能 地 大 到 这 要 用

表 8

ShareCourse CKIP 斷詞結果

1~10 , 的 / 。 、 與 : : 是 課程

11~20 http 在 [ ] . ( ) 教授 大學 開課

21~30 有 一 網路 」 「 本 瞭解 進一

也 讓

圖 13:ShareCourse ⽂字雲

表 9

eWant CKIP 斷詞結果

1~10 的 , / ! : 、 http ? 課程 :

11~20 與 = 是 ? 老師 . 有 一 大學 )

21~30 「 」 ( 。 《 》 來 在 ─ …

圖 14:eWant ⽂字雲

表 10

台⼤ MOOC CKIP 斷詞結果

1~10 , 的 / : 課程 : 、 。 ! 與

11~20 NTUMOOC 『 』 【 】 將 老師 https 有 在

21~30 「 」 一 - . 是 於 教學 中 2016

圖 15:台⼤ MOOC ⽂字雲

表 11

Openedu CKIP 斷詞結果

1~10 , 的 / 。 課程 : : 與 學習 https

11~20 是 ! ? 本 有 在 ─ = 一 http

21~30 id ~ 設計 您 ? 「 」 來 大學 MOOCs

圖 16:Openedu ⽂字雲

表 12

中國⼤學 MOOC CKIP 斷詞結果

1~10 , 的 ! 你 是 。 一 ? 中 有

11~20 了 在 、 大学 → 《 》 不 我 和

21~30 来 】 【 们 课程 “ ” : ~ 都

圖 17:中國⼤學 MOOC ⽂字雲

表 13

學堂在線 CKIP 斷詞結果

1~10 , 的 : 。 在 你 是 学堂 一 、

11~20 ? ! http 有 《 》 了 和 中 不

21~30 【 】 “ ” 线 我 : 来 @ 课程

圖 18:學堂在線⽂字雲

表 14

MOOC 學院 CKIP 斷詞結果

1~10 , 的 : ? MOOC : 你 】 【 !

11~20 http 了 一 。 是 在 、 @ 有 和

21~30 课程 不 “ ” 中 新课 学 学习 《 》

圖 19:MOOC 學院⽂字雲

CKIP 斷詞系統使⽤以及⽂字雲呈現,給予本研究資料初步的概觀。唯斷詞之 呈現結果常包含標點符號以及如「MOOC 學院」卻可能被斷成「MOOC」和「學 院」,屬於研究範圍內平台業者名稱的專有名詞卻被分開成兩詞統計,此情況也可 能發⽣在「中國⼤學 MOOC」或是「線上」與「在線」兩詞被拆分成「線」單單 ㄧ字。故有必要以其他斷詞⽅法更精進分析結果。⽽⽂字雲之視覺呈現資訊較為單 薄,缺乏對於各⾃詞彙間之彼此關係,或進⼀步的數字統計。接續將以操作 R 軟 體以及軟體內相關套件,如 Rwordseg、tm 等,可⾃定義專有詞庫,界定字詞間關 係。

第⼆節、TF-IDF 斷詞後詞頻統計結果

在中⽂世界的⽂字探勘(text mining)領域中,各種斷詞(word segmentation)

的⽅式兼⽽有之,上⼀⼩節使⽤ CKIP 的即是其⼀,另外常⾒的有結巴(jieba),

以及建⽴在 R 軟體介⾯上,本研究中使⽤的 Rwordseg。⽂字資料經過⾃建⽴詞庫 的斷詞後,其詞彙的完整度提升不少,mooc、網路等詞彙的排序經 Rwordseg 斷詞 後出現(詞庫建⽴請⾒附錄⼆,斷詞⽐較結果⾒下表 15)。Rwordseg 的斷詞結果 僅列出⼈民網為⽐照範例,本節研究重點在於運⽤ weightTfidf 函數計算出斷詞後 的 TF-IDF 字詞權重結果,可以⽐起單純的詞彙出現頻率統計更具有鉅量資料範圍 內的分析意義。以下列出以 R 軟體內以 tm 套件內 tfidfweight 函數計算後之字詞權 重排序統計結果。

表 15

⼈民網 Rwordseg 斷詞與 CKIP 斷詞排序結果⽐較

CKIP 斷詞排序

1~10 , 的 在 教育 是 和 课程 有 学习 大学

11~20 学生 我 等 线 来 慕课 学 平台 教学 者

21~30 就 国 发展 能 地 大 到 这 要 用

Rwordseg 斷詞排序

1~10 的 在 教育 是 和 了 課程 學習 學生 大學

11~20 有 與 教學 上 為 等 於 慕課 對 不

21~30 mooc 網路 也 將 發展 中 平臺 中國 就 資訊

表 16

表 20

ShareCourse TFIDF 權重結果 1~10 sharecourse 物聯

Openedu TFIDF 權重結果 1~10 share 中

表 23

⽂件在整體語料庫(corpus)中之 log 值為分母,得到之乘積再將之排序,可以觀 察到⽐起強調⾼詞頻出現程度卻有可能只是在⽂件群集廣泛地出現的無意義字詞,

排除⼀些字詞如:「的」、「是」、「課」在整體資料範圍內的頻繁出現的統計狀 況。MOOC 學院之「⽪鞭」,學堂在線、中國⼤學 MOOC 之「晚安」,在 TFIDF 的計算⽅式下在整體字詞統計排序更為前⾯,代表之意義為「⽪鞭」、「晚安」這 些⽤詞雖然在整體語料庫統計中整體詞頻頻次相較不⾼, 卻會固定出現在出現在

特定的貼⽂中,在少部分貼⽂的出現頻次⾼。台灣平台業者則以 eWant 和 ShareCourse 的「⾏銷」、「消費者」和「物聯網」等課程相關字詞最為突出。⽽

傳統媒體中台灣聯合新聞網同樣強調「物聯網」、「程式」,中國⼈民網則以「部 隊」、「建設」、「培訓」、「官兵」等以國家教育政策⾯的相關字詞最為強調。

接續研究結果分析皆接續建⽴在此 Rwordseg 斷詞⽅式以及 TF-IDF 衡量權重的字 詞計算上。

第三節、SVD 語意分析散佈圖

使⽤上⼀節⾃定義斷詞詞庫以及 TFIDF 權重衡量⽅式形成的字詞矩陣,透過 語意分析技術中的奇異值分解(Singular Value Decomposition, SVD)⽅式,再加上 R軟體內 ggplot 繪圖套件繪製出各個平台業者與傳統媒體的語意分析散佈圖,以 每則貼⽂或新聞為單位,可以快速地瀏覽得知哪幾則貼⽂或新聞,其敘述之⽂字內 容或整體主題較其他貼⽂與新聞不同。此部分的分析結果,其座標象限圖之正負值 為相對⽐較⽽來,是利⽤該定義之資料範圍中的字詞先求得⼀個主題,⽽每個字詞 再與之⽐較得出,因此其位置只有在該定義資料範圍內來觀察才有意義,不能夠跨 資料群集來⽐較。在本研究數千則的社群媒體貼⽂中,可以快速得知哪⼀則貼⽂偏 離主題,⼜或者是每個平台或媒體,其對於 MOOC 的⽤語詞彙多樣化或敘述之主 題之分散程度,可以有初步的視覺概念。

相關文件