• 沒有找到結果。

第五章 結論與建議

第二節 研究建議與未來展望

占所有變異之比例為 111.1721/496.3637=22.4%,表取到 100 維時可解釋全部變異 的 22.4% ; 在語意空間為 300 維的情況下,300 個主成分占所有變異之比例為

在現今社會裡無論是在政府機關、金融業、社群經營上等,皆重視個人化服務 及與客戶溝通互動上的滿意度,經本研究結果發現可以透過潛在語意分析(Latent Semantic Analysis)的運用,利用其餘弦值用來做為回覆者是否有回應建言者的重 要依據指標,可以幫助各企業及機關來評斷客服部門及社群管理者,是否有以積極 的誠意及態度且詳細的回覆客戶所提出的建議及問題。再者,利用 情緒分析

(Sentiment Analysis)可得知管理者與客戶間是否具有良性的互動溝通。

透過以上種種的文字探勘分析,從質化資料中挖掘可用的資訊。最後,再結合 上量化資料,利用數字及文字資料間彼此的互動,如在本研究中就可以結合情緒分 析與提交時間,探討夜深時學生們的脾氣是否比較不佳等等。這將使得我們未來在 挖掘企業或機關在處理與客戶互動關係中,不僅可以分析數值型資料外,還可透過 解了大量的文件資料,從中獲取與客戶相關的知識及需求,這將使得各企業及機關 運作上有更好的發展。

參考文獻 [英文參考文獻]

1. Gantz J. & Reinsel D. (2012).The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. IDC Report. Published by International Data Corporation, sponsored by EMC Corporation.

7. Frawley,W. J., Paitetsky-Shapiro, G., & Matheus, C.J. (1991). Knowledge Discovery in Databases: An overview. Communication of the ACM, 39, 1-34.

8. Grupe, F. H., & Owrang, M. M. (1995). Database mining discovering new knowledge and cooperative advantage. Information systems management, 12, 26-31.

9. Fayyad, U. M., Piatetsky,S. G. & Padhraic, S. (1996). From data mining to knowledge discovery in databases. American Association for Artificial Intelligence, 11(5), 20-25.

10. Berry, M.J.A., & Linoff, G.S. (1997).Data mining techniques: For marketing, sales, and customer support. John Wiley & Sons, Inc. New York, NY, USA.

11. Sholom M. Weiss & Nitin Indurkhya (1998). Predictive data mining: a practical guide. Morgan Kaufmann Publishers Inc. San Francisco, CA, USA.

12. Kleissner, C.(1998). Data Mining for the Enterprise. Proceedings of the 31st Annual Hawaii International Conference On System Sciences, 295-304.

13.Hand , D. J., Blunt, G., Kelly, M. G., & Adams, N. M. (2000). Data mining for fun and profit. Statistical Sci., 15,111-131.

14. Shaw,M. J., Subramaniam, C., Tan, G. W. E.(2001).Knowledge management and data mining for marketing. Decision Support System, 31(1),127-137.

17. Burges, C.J.C. (1998).A tutorial on support vector machines for pattern recognition.

Data Mining and Knowledge Discovery, 2, 121-167.

86

18. Berson, A., Smith, S., & Therling, K. (1999). Building Data Mining application for CRM. McGraw-Hill Companies, New York, NY, USA.

19. Hearst, M.A.(1999).Untangling text data mining. Proceeding ACL '99 Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics Pages 3-10. College Park, Maryland.

20. Dan Sullivan(2001).Document Warehousing and Text Mining: Techniques for Improving Business Operations, Marketing, and Sales. John Wiley & Sons, Inc. New York, NY, USA.

22. Yuen-Hsien Tseng, Yeong-Ming Wang, Dai-Wei Juang, Chi-Jen Lin(2005). Text Mining for Patent Map Analysis. Proceedings of IACIS Pacific 2005 Conference.

Taipei, Taiwan.

28. Sproat,R. and Shih,C. (1990). A statistical method for finding word boundaries in chinese text. Computer Processing of Chinese and Oriental Languages, Vol. 4No. 4, 336-351.

42. Martin, D.I., & Berry, M. W.(2007). Mathematical foundations behind latent semantic analysis. In T. K. Landauer, D. S. McNamara, S. Dennis, & W. Kintsch (Eds.), Handbook of Latent Semantic Analysis. (pp. 35-55). Mahwah, NJ: Lawrence Erlbaum Associate.

45. Berry, M.W., & Browne, M. (2005). Understanding search engines: Mathematical Modeling and Text Retrieval. Philadelphia: SIAM, 2,12-14.

46. Dumais, S. (1991). Improving the retrieval of information from external sources.

Behavior Research Methods, Instruments, and Computers, 23, 229–236.

47. Letsche, T., & Berry, M. W. (1997). Large-scale information retrieval with latent semantic indexing. Information Sciences, 100, 105–137.

48. Landauer, T.K., Foltz, P. W., & Laham, D. (1998). An introduction to latent semantic analysis. Discourse Processes, 25, 259-284.

49. Berry, M.W., Dumais, S., & O’Brien, G. (1995). Using linear algebra for intelligent information retrieval. SIAM Review, 37, 573–595.

50. Witter, D., & Berry, M. W. (1998). Downdating the latent semantic indexing model for conceptual information retrieval. The Computer Journal, 41, 589–6

51. Landauer, T. K., & Dumais, S. T. (1997). A solution to Plato’s problem: The latent semantic analysis theory of the acquisition, induction, and representation of knowledge.

Psychological Review, 104, 211–240.

52. Cooley, W. W. & Lohnes, P. R. (1971) .Multivariate Data Analysis. Wiley, New York, NY.

56. Yang, Changhua, Lin, Kevin Hsin-Yih, & Chen, Hsin-Hsi. (2007). Emotion Classification Using Web Blog Corpora. Proceeding WI '07 Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence , 275-278. Washington, DC, USA.

57. Lin, Hao-Chiang Koong, Chen, Nian-Shing, Sun, Rui-Ting, & Tsai, I. Hen.(2012).

Usability of affective interfaces for a digital arts tutoring system. Behaviour &

Information Technology, Volume 33, Issue2, 1-12.

[中文參考文獻]

2. 姚力維(2014)。國立台灣大學校務會議及校務建言系統資料之分析研究。國立 台灣大學農藝學系未發表碩士論文。臺北,臺灣。

4. 胡世忠(2013)。雲端時代的殺手級應用:Big Data 海量資料分析。臺北市:天下 雜誌。

15. 黃勝崇(2000)。資料探勘應用於醫療院所輔助病患看診指引之研究。南華大 學資訊管理研究所未發表碩士論文。嘉義,臺灣。

88

[網頁]

3. Here’s What Happens in 60 Seconds on the Internet。Accessed date: March 05,2016.

http://smallbiztrends.com/2015/12/60-seconds-on-the-internet.html 5. 劃時代的掏金術 Big Data。Accessed date: March 05,2016.

http://www.moneydj.com/topics/bigdata/

31.GitHub - fxsjy/jieba: 結巴中文分詞。Accessed date: March 30,2015.

https://github.com/fxsjy/jieba

32. JIEBA 結巴中文斷詞。Accessed date: March 30,2015.

https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci 33. jiebaR 中文分词。Accessed date: March 30,2015.

http://doc.qinwf.com/jiebaR_v0_7/index.html

34. 國立台灣大學統計教學中心-統計軟體介紹。Accessed date: April 03,2016.

http://www.statedu.ntu.edu.tw/lab/%E7%B5%B1%E8%A8%88%E8%BB%9F%E9%

AB%94%E7%B0%A1%E4%BB%8B.asp

35. R 講題分享–SpideR--用 R 自製網路爬蟲收集資料。Accessed date: April 05,2015.

http://programmermagazine.github.io/201311/htm/article6.html 36. 維基百科:大五碼(Big5)。Accessed date: April 10,2015.

https://zh.wikipedia.org/wiki/%E5%A4%A7%E4%BA%94%E7%A2%BC 37. 維基百科: UTF-8。Accessed date: April 10,2015.

90

https://zh.wikipedia.org/wiki/UTF-8

38. 台大-校總區及其他校區之主要建築物逐棟編碼地理位置對照。

Accessed date: April 15,2015.

https://www.google.com.tw/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rj a&uact=8&ved=0ahUKEwiJ8r2Li9HMAhXFjJQKHe0hDHoQFggbMAA&url=http

%3A%2F%2Fhomepage.ntu.edu.tw%2F~cpo%2Fenactment%2F991102.pdf&usg=A FQjCNGIg1iMoavfKXirggQyklJloRreSw&sig2=rJ2f0efNEnceGsU5TxCDVA 39. 院系所課程-台大課程地圖。Accessed date: April 15,2015.

http://coursemap.aca.ntu.edu.tw/course_map_all/map.php.htm 40. 國立臺灣大學-行政組織。Accessed date: April 15,2015.

http://www.ntu.edu.tw/administration/administration.html

55. 維基百科:文本情感分析。Accessed date: February 16,2016.

https://zh.wikipedia.org/wiki/%E6%96%87%E6%9C%AC%E6%83%85%E6%84%9 F%E5%88%86%E6%9E%90

59. 資料科學實驗室: 情緒分析(Sentiment Analysis)的作法與商業價值。

Accessed date: February 16,2016.

http://dataology.blogspot.tw/2015/04/sentiment-analysis.html

附錄一、詞性對照表

N Ncd Ncda, Ncdb /*位置詞*/

EXCLAMATIONCATEGORY /* 驚嘆號 */

PARENTHESISCATEGORY /* 括弧 */

PAUSECATEGORY /* 頓號 */

PERIODCATEGORY /* 句號 */

QUESTIONCATEGORY /* 問號 */

SEMICOLONCATEGORY /* 分號 */

SPCHANGECATEGORY /* 雙直線 */

附錄二、專有詞庫表

建築與城鄉研究所館 育成中心 A 棟 男六舍

男四舍 萬霖館 生農學院

化學系 分子醫學研究所 動物科學技術學系

管理學院高階公共管理組 基因體與系統生物學學位學程 經營管理組

作業管理組 博碩士

附錄三、校務建言原始資料

本研究使用「國立台灣大學校務建言系統」民國 94 年 1 月至民國 101 年 12 月校務建言系統,共 4622 筆建言資料。原總檔案共 9716 Kilobyte(KB),全部 鍵入置 Microsoft Excel 中,詳細資料可見光碟。

附錄四、測試資料之相似結果

本附錄為計算 925 篇的測試資料,在四種不同語意空間,其分別為詞彙權重 計採用 TF-IDF 並降維至 100 維、詞彙權重計採用 TF-IDF 並降維至 300 維、詞 彙權重計採用 Log-Entropy 並降維至 100 維、詞彙權重計採用 Log-Entropy 並降 維至 300 維。計算建言與回覆間的相似性(餘弦值)的結果,所有值皆取到小數

27 248 0.38 0.27 0.33 0.22

64 509 0.7 0.63 0.73 0.7

101 758 0.46 0.42 0.38 0.38

138 969 0.67 0.54 0.44 0.43

175 1211 0.76 0.67 0.72 0.69

212 1469 0.64 0.59 0.66 0.64

249 1730 0.9 0.83 0.88 0.84

286 1931 0.39 0.35 0.35 0.32

323 2214 0.44 0.3 0.36 0.32

360 2448 0.71 0.61 0.77 0.72

397 2671 0.78 0.74 0.72 0.69

434 2884 0.71 0.65 0.6 0.57

471 3048 0.54 0.47 0.46 0.43

508 3333 0.59 0.52 0.46 0.43

545 3563 0.83 0.76 0.8 0.77

582 3758 0.68 0.62 0.66 0.61

619 3964 0.82 0.8 0.88 0.85

656 4214 0.68 0.61 0.65 0.61

693 4435 0.55 0.43 0.59 0.42

730 4676 0.35 0.35 0.28 0.27

767 4850 0.36 0.31 0.29 0.27

804 5076 0.23 0.16 0.17 0.16

841 5303 0.75 0.7 0.73 0.7

878 5515 0.34 0.28 0.36 0.32

915 5716 0.82 0.74 0.83 0.79 916 5717 0.84 0.78 0.74 0.71 917 5719 0.66 0.61 0.46 0.48

918 5726 0.7 0.68 0.59 0.58

919 5732 0.71 0.65 0.62 0.57

920 5733 0.49 0.44 0.4 0.39

921 5750 0.66 0.6 0.62 0.58

922 5755 0.72 0.66 0.62 0.6

923 5756 0.62 0.55 0.55 0.52

924 5775 0.57 0.45 0.5 0.44

925 5777 0.66 0.64 0.72 0.69

附錄五、LSA 與人工標記結果

本附錄從 925 篇的測試資料中,取前 432 篇做人工標記,且列出其對應的 100 維 Log-Entropy 種類一、100 維 Log-Entropy 種類二、300 維 Log-Entropy 種 類一、300 維 Log-Entropy 種類二的所得餘弦值,其依等級畫分。

29 259 3 2 3 2 3

66 534 3 3 3 3 3

103 775 3 2 3 2 3

140 982 3 3 3 3 3

177 1215 2 3 3 3 3

214 1486 3 3 3 3 3

251 1732 3 3 3 3 3

288 1936 3 3 3 2 3

325 2218 2 3 3 3 3

362 2458 3 2 3 2 3

399 2679 3 3 3 3 3

相關文件