gram 斷詞工具

第三章研究架構與方法

N- gram 斷詞工具

以下將逐個詳述。

N-gram 斷詞工具

本研究使用多套不同的斷詞工具來做分析，第一個使用的方法是利用N-gram 斷詞來做分析，再利用研究者根據營養學字辭精要作為詞庫來設計的詞庫式斷詞工具。N-gram斷詞，是一種統計式的斷詞法，利用一個文本中，以 N 個字為單位

例如將「營養資訊使用詞彙與可讀性」利用N-gram來分析，將會跑出「營養」、

「養資」、「資訊」、「使用」、「詞彙」、「可讀性」、「使用詞」、「營養資」、「營養資訊」、「使用詞彙」、「與可讀性」...等如此的結果。接著，

在計算各個詞組的出現頻率，正確的詞例如「營養」、「資訊」的頻率會相較於比不正確的詞彙（例如「養資」）來的多，排列之後即可萃取文章的常用詞彙

（Timdream，2011）。本研究的N-gram斷詞演算法來源是其作者為了製作中文文字雲所改進的演算法，此演算法在搜尋詞彙時不會有既定的詞長設定，也沒有利用任何既有的詞庫來做切詞的根據（Timdream, 2011）。根據齊夫定律，在詞語中，詞彙的出現次數排名會呈冪定律機率分布，表示少數的字會大量的出現，但大多是代名詞等較無意義之詞彙，因此使用次數中等的詞，才是較重要的詞彙

（Croft,Metzler,and Strohman, 2010）b，因此本研究在比較常用詞彙時，也將最高出現頻率與最低出現頻率的字去除，再進行下一步的分析。

詞庫式斷詞工具

研究者個人所發展的詞庫斷詞，是利用華杏出版機構所出版之營養學字辭精要，總校閱為台北醫學大學保健營養學系名譽教授謝明哲老師，作為詞庫的來源，

字典的本身是一本英翻中的查找型字典，並附有每個字的定義（圖3-4.1），本研究將此字辭精要中，中文詞彙部分全數鍵入系統，並且利用程式設計語言python 來進行程式設計，此斷詞工具之使用為，將以收集好的文件做為分析的樣本，並將建立好的詞庫作為一句，利用python處理並比對詞庫中的詞在樣本中是否有曾出現，若有則加一計數，每再出現在樣本中，則再加一，以此類推，因此便可以得知有哪些詞庫中的詞曾被使用，並且其被使用的頻率為何。陳光華（2001）在進行資訊檢索系統之改善時，曾利用斷詞系統建構一個同義詞的詞典，並且發現部分字串比對的表現較好，由於該原始查詢問句的檢索詞彙字串較短或詞義較廣，

用詞長較短的字如「生物價」來代替高生物價蛋白質，會更容易找到相關的詞彙，

因此本研究在建立詞庫式斷詞工具時，也參考了這個特點，並將營養學字詞精要中的部分詞彙縮短、拆解，但維持其意義，以期有更多的比對結果能夠比較，最終的詞庫共計1466個營養專有詞彙。

圖3-4.1營養學字詞精要圖片

圖3-4.2詞庫內1466字內容(部分)

圖3-4.3詞庫式斷詞工具編碼

營養詞彙測驗

營養詞彙測驗是根據詞庫式的斷詞分析結果進行轉化，將分析出來的字詞製作成一個營養專有詞彙表，在1466個在詞庫的詞彙中，有153個曾出現在孕產婦關懷網的文本當中，研究者去除在不同脈絡可能有不同意義之字詞如:酸、鹼後，

有108個詞彙可以設計測驗，但再進行預試之後發現，有些題目並不適合，因此最後保留104題，其中有16個字是同義詞，因此實際詞彙一共88個字。測驗設計邏輯於下，採用雙階層式設計，第一階層是受試者對此字詞彙自覺的理解程度，

根據李克特五級法來詢問受試者對於個別詞彙的理解程度分別為：１.聽過，２.

略知其代表意義，３.一般程度知道，４.比一般程度更知道，５.很清楚該詞之症狀與一般醫療處理程序。來呈現受試者自覺其個人對於這些營養字詞彙的理解程度為何。第二階層則是四個陳述，其中只有一個會是題目中字詞彙的正確定義，

其餘選項則從其他的詞彙定義挑選三個併成一題。如此一來受試者便不需要判斷敘述本身的真假，而只需比對詞彙與定義之間的關係。本測驗的結果除了能夠得知受試者對於哪些詞彙的理解程度比較高或比較低之外，也可以藉此此作為本研究的營養素養分數表現，若受試者在詞彙分數的得分越高，則其本身的營養素養越高。

雙階層測驗為一種診斷工具，用以確定受測者對某一概念是否有真正的了解，

在雙階層式的測驗中，實驗者不需要真正進行晤談，卻可以得到受測者對於概念是否真正瞭解的一種測驗（林靜雯，2011）。其測驗設計之兩階層為，第一階層確定受測者的正確性，而第二階層則可以瞭解對的理解正確與否。此研究方法常用在科學性教育中，迷思概念的判斷，但也有利用此研究來進行倫理實驗的例子

（Chou, 2007）。在本研究中，雙階層測驗的結果將直接代表閱讀理解性的指標。

但雙階層測驗亦有其限制，Caleon與Subramaniam （2010）便認為答題者回答錯誤時，此種測驗無法區別學生究竟是因為缺乏知識，或是根深蒂固的既有概念導致了他的答題錯誤；當學生答題正確時，亦無法區別學生究竟是真的理解還是猜題。但這樣的限制幾乎出現於所有的選擇題型，因此便不是本研究所探討的問題，

題目設計的宗旨，是盡量保持1.題目清晰易懂 2.一個題目只有一個中心主題 3.

避免模糊的陳述 4.避免雙重否定 5.用詞簡短扼要，避免太冗長6.盡量避免使用負向字。以下利用蛋白質作為範例。

第二部分、營養知能調查

詞彙知能調查分為兩階段，第一是對專有名詞的熟悉程度，第二是敘述的正確性判斷。以下會有 104 個營養專業詞彙請依照對其熟悉的程度為其評分。

1~5 分代表如下：

1:沒聽過

2:聽過但不知其代表意義 3:聽過略知其代表意義 4:字面與涵義稍了解 5:完全了解

以阿斯匹林為例 1:我沒聽過阿斯匹林

2:我聽過阿斯匹林但不知道是甚麼 3:我只知道阿斯匹林是一種藥物 4:我知道阿斯匹林是一種止痛藥 5:我完全了解阿斯匹林的藥理特性若有發現有相似的題目請繼續正常作答!

19-1 請問覺得你對下列的營養詞彙瞭解程度為何?1-5 分蛋白質

得分:□

19-2. 關於蛋白質的敘述下列何者正確？

□ 1）含三個苯環與一個戊烷的特定化學結構，如膽固醇及其衍生物 2）由碳氫氧所組成的化合物，化學式為（CH2O）n

3）有六個碳的醣類，可由澱粉、肝醣等物分解而來 4）由胺基酸所組成的有機分子

本題的答案若受試者選擇4）由胺基酸所組成的有機分子，則受試者在此題將會得分。得分將再根據其第一階段的自我認知加權得分的結果，若受試者在答題時，第一階層選擇1則得分乘以1，若第一階層選擇自我認知最高的5則得分乘以5，依此類推。

在第一階段答1或2沒聽過或聽過但不知其代表意義，即表示在此字詞彙上，

該名受試者並不理解此專有名詞且沒有得到這一題的分數。通常雙階層測驗會分

別對第一階段和第二階段來評分，然而本研究想探討的，是受試者營養素養的程度，第一階段會是針對民眾自我認知的素養進行檢測，其正確性會由第二階段的名詞解釋測驗來確認。兩部分的加權將做為此詞彙被受試者所熟悉與理解的評值並利用Cronbach’s α係數進行測驗的信度考驗。

簡易健康量表

簡易健康量表是根據蘇哲能等人（2008）所建構的成人健康知能量表中的選題，研究者為了建立知能量表，其健康知能量表係由五位專家從衛生署國民健康網站抽取125個常用健康詞彙，採李克特法5分法測量民眾對於健康詞彙的了解程度。最後以屏東地區某醫院門診病人、三所學校學生、公園與社區居民為樣本，

最後從結果中選出高鑑別度以及獨立樣本t-檢定據明顯差異之詞彙，最後選出66 項健康詞彙，分為藥名、重病名、一般疾病、器官、生理、檢查步驟、治療處置、

症狀、表徵等九組，而在其中又有十題。每組的內部一致性信度都在0.89以上。

增加健康知能的因素有教育程度、性別為女性、家人有中風者、照顧病人的經驗及醫護相關職業等。利用健康知識效標來檢驗健康知能量表之效度，從36題健康認知與健康知識的問題縮減為10 題，其發展之健康知能量表旨再測量民眾對於健康詞彙的了解程度，與本研究詞彙測驗之第一階層相似。因此本研究根據其設計之效標，作為本研究知效標建立，並與簡易營養詞彙測驗之結果兩項得分的總和定為效標，可為營養閱讀理解測驗的同時效標，並以皮爾森相關係數檢定之。

營養閱讀理解測驗

本研究的營養閱讀理解測驗是根據衛服部的孕產婦關懷網站，孕乳婦的一般飲食指導原則（http://mammy.hpa.gov.tw/kbcontent.asp?f=atmk&cid=19）而設計。

選取此篇文章有幾個重要之處，一、本研究需要一個具有可靠性與公正性的專業文本來進行更改。二、根據詞彙測驗時，孕產婦關懷網站獲得資訊。三、根據詞彙測驗的結果，研究者歸納出了受試者較為不熟悉的詞，如生物價、維生素

的飲食參考，對於初次懷孕的媽媽來說也相當重要，在給予測驗時同時也能進行基本的衛教，因此決定採用此篇文章來進行改寫。改寫的邏輯與內容如下:

i.根據營養詞彙測驗結果，若有自我認知程度或實際認知程度較高的詞，則在實驗組中，以認知程度較高，也就是受試者較為熟悉或是知曉的詞來呈現，如:維生素與維他命，皆由維生素做為控制字彙呈現。

在文檔中網路營養資訊的使用詞彙與可讀性分析-以初次懷孕婦女為例 (頁 52-66)

第三章 研究架構與方法

N- gram 斷詞工具

第三章研究架構與方法