第三章 研究架構與方法
N- gram 斷詞工具
以下將逐個詳述。
N-gram 斷詞工具
本研究使用多套不同的斷詞工具來做分析,第一個使用的方法是利用N-gram 斷詞來做分析,再利用研究者根據營養學字辭精要作為詞庫來設計的詞庫式斷詞 工具。N-gram斷詞,是一種統計式的斷詞法,利用一個文本中,以 N 個字為單位
例如將「營養資訊使用詞彙與可讀性」利用N-gram來分析,將會跑出「營養」、
「養資」、「資訊」、「使用」、「詞彙」、「可讀性」、「使用詞」、「營養 資」、「營養資訊」、「使用詞彙」、「與可讀性」...等如此的結果。接著,
在計算各個詞組的出現頻率,正確的詞例如「營養」、「資訊」的頻率會相較於 比不正確的詞彙(例如「養資」)來的多,排列之後即可萃取文章的常用詞彙
(Timdream,2011)。本研究的N-gram斷詞演算法來源是其作者為了製作中文文 字雲所改進的演算法,此演算法在搜尋詞彙時不會有既定的詞長設定,也沒有利 用任何既有的詞庫來做切詞的根據(Timdream, 2011)。根據齊夫定律,在詞語 中,詞彙的出現次數排名會呈冪定律機率分布,表示少數的字會大量的出現,但 大多是代名詞等較無意義之詞彙,因此使用次數中等的詞,才是較重要的詞彙
(Croft,Metzler,and Strohman, 2010)b,因此本研究在比較常用詞彙時,也將最高 出現頻率與最低出現頻率的字去除,再進行下一步的分析。
詞庫式斷詞工具
研究者個人所發展的詞庫斷詞,是利用華杏出版機構所出版之營養學字辭精 要,總校閱為台北醫學大學保健營養學系名譽教授謝明哲老師,作為詞庫的來源,
字典的本身是一本英翻中的查找型字典,並附有每個字的定義(圖3-4.1),本研 究將此字辭精要中,中文詞彙部分全數鍵入系統,並且利用程式設計語言python 來進行程式設計,此斷詞工具之使用為,將以收集好的文件做為分析的樣本,並 將建立好的詞庫作為一句,利用python處理並比對詞庫中的詞在樣本中是否有曾 出現,若有則加一計數,每再出現在樣本中,則再加一,以此類推,因此便可以 得知有哪些詞庫中的詞曾被使用,並且其被使用的頻率為何。陳光華(2001)在 進行資訊檢索系統之改善時,曾利用斷詞系統建構一個同義詞的詞典,並且發現 部分字串比對的表現較好,由於該原始查詢問句的檢索詞彙字串較短或詞義較廣,
用詞長較短的字如「生物價」來代替高生物價蛋白質,會更容易找到相關的詞彙,
因此本研究在建立詞庫式斷詞工具時,也參考了這個特點,並將營養學字詞精要 中的部分詞彙縮短、拆解,但維持其意義,以期有更多的比對結果能夠比較,最 終的詞庫共計1466個營養專有詞彙。
圖3-4.1營養學字詞精要圖片
圖3-4.2詞庫內1466字內容(部分)
圖3-4.3詞庫式斷詞工具編碼
營養詞彙測驗
營養詞彙測驗是根據詞庫式的斷詞分析結果進行轉化,將分析出來的字詞製 作成一個營養專有詞彙表,在1466個在詞庫的詞彙中,有153個曾出現在孕產婦 關懷網的文本當中,研究者去除在不同脈絡可能有不同意義之字詞如:酸、鹼後,
有108個詞彙可以設計測驗,但再進行預試之後發現,有些題目並不適合,因此 最後保留104題,其中有16個字是同義詞,因此實際詞彙一共88個字。測驗設計 邏輯於下,採用雙階層式設計,第一階層是受試者對此字詞彙自覺的理解程度,
根據李克特五級法來詢問受試者對於個別詞彙的理解程度分別為:1.聽過,2.
略知其代表意義,3.一般程度知道,4.比一般程度更知道,5.很清楚該詞之症 狀與一般醫療處理程序。來呈現受試者自覺其個人對於這些營養字詞彙的理解程 度為何。第二階層則是四個陳述,其中只有一個會是題目中字詞彙的正確定義,
其餘選項則從其他的詞彙定義挑選三個併成一題。如此一來受試者便不需要判斷 敘述本身的真假,而只需比對詞彙與定義之間的關係。本測驗的結果除了能夠得 知受試者對於哪些詞彙的理解程度比較高或比較低之外,也可以藉此此作為本研 究的營養素養分數表現,若受試者在詞彙分數的得分越高,則其本身的營養素養 越高。
雙階層測驗為一種診斷工具,用以確定受測者對某一概念是否有真正的了解,
在雙階層式的測驗中,實驗者不需要真正進行晤談,卻可以得到受測者對於概念 是否真正瞭解的一種測驗(林靜雯,2011)。其測驗設計之兩階層為,第一階層 確定受測者的正確性,而第二階層則可以瞭解對的理解正確與否。此研究方法常 用在科學性教育中,迷思概念的判斷,但也有利用此研究來進行倫理實驗的例子
(Chou, 2007)。在本研究中,雙階層測驗的結果將直接代表閱讀理解性的指標。
但雙階層測驗亦有其限制,Caleon與Subramaniam (2010)便認為答題者回答錯 誤時,此種測驗無法區別學生究竟是因為缺乏知識,或是根深蒂固的既有概念導 致了他的答題錯誤;當學生答題正確時,亦無法區別學生究竟是真的理解還是猜 題。但這樣的限制幾乎出現於所有的選擇題型,因此便不是本研究所探討的問題,
題目設計的宗旨,是盡量保持1.題目清晰易懂 2.一個題目只有一個中心主題 3.
避免模糊的陳述 4.避免雙重否定 5.用詞簡短扼要,避免太冗長6.盡量避免使用負 向字。以下利用蛋白質作為範例。
第二部分、營養知能調查
詞彙知能調查分為兩階段,第一是對專有名詞的熟悉程度,第二是敘述的正確 性判斷。以下會有 104 個營養專業詞彙請依照對其熟悉的程度為其評分。
1~5 分代表如下:
1:沒聽過
2:聽過但不知其代表意義 3:聽過略知其代表意義 4:字面與涵義稍了解 5:完全了解
以阿斯匹林為例 1:我沒聽過阿斯匹林
2:我聽過阿斯匹林但不知道是甚麼 3:我只知道阿斯匹林是一種藥物 4:我知道阿斯匹林是一種止痛藥 5:我完全了解阿斯匹林的藥理特性 若有發現有相似的題目請繼續正常作答!
19-1 請問覺得你對下列的營養詞彙瞭解程度為何?1-5 分 蛋白質
得分:□
19-2. 關於蛋白質的敘述下列何者正確?
□ 1) 含三個苯環與一個戊烷的特定化學結構,如膽固醇及其衍生物 2)由碳氫氧所組成的化合物,化學式為(CH2O)n
3)有六個碳的醣類,可由澱粉、肝醣等物分解而來 4) 由胺基酸所組成的有機分子
本題的答案若受試者選擇4) 由胺基酸所組成的有機分子,則受試者在此題 將會得分。得分將再根據其第一階段的自我認知加權得分的結果,若受試者在答 題時,第一階層選擇1則得分乘以1,若第一階層選擇自我認知最高的5則得分乘 以5,依此類推。
在第一階段答1或2沒聽過或聽過但不知其代表意義,即表示在此字詞彙上,
該名受試者並不理解此專有名詞且沒有得到這一題的分數。通常雙階層測驗會分
別對第一階段和第二階段來評分,然而本研究想探討的,是受試者營養素養的程 度,第一階段會是針對民眾自我認知的素養進行檢測,其正確性會由第二階段的 名詞解釋測驗來確認。兩部分的加權將做為此詞彙被受試者所熟悉與理解的評值 並利用Cronbach’s α係數進行測驗的信度考驗。
簡易健康量表
簡易健康量表是根據蘇哲能等人(2008)所建構的成人健康知能量表中的選 題,研究者為了建立知能量表,其健康知能量表係由五位專家從衛生署國民健康 網站抽取125個常用健康詞彙,採李克特法5分法測量民眾對於健康詞彙的了解程 度。最後以屏東地區某醫院門診病人、三所學校學生、公園與社區居民為樣本,
最後從結果中選出高鑑別度以及獨立樣本t-檢定據明顯差異之詞彙,最後選出66 項健康詞彙,分為藥名、重病名、一般疾病、器官、生理、檢查步驟、 治療處置、
症狀、表徵等九組,而在其中又有十題。每組的內部一致性信度都在0.89以上。
增加健康知能的因素有教育程度、性別為女性、家人有中風者、照顧病人的 經驗 及醫護相關職業等。利用健康知識效標來檢驗健康知能量表之效度,從36題健康 認知與健康知識的問題縮減為10 題,其發展之健康知能量表旨再測量民眾對於健 康詞彙的了解程度,與本研究詞彙測驗之第一階層相似。因此本研究根據其設計 之效標,作為本研究知效標建立,並與簡易營養詞彙測驗之結果兩項得分的總和 定為效標,可為營養閱讀理解測驗的同時效標,並以皮爾森相關係數檢定之。
營養閱讀理解測驗
本研究的營養閱讀理解測驗是根據衛服部的孕產婦關懷網站,孕乳婦的一般 飲食指導原則(http://mammy.hpa.gov.tw/kbcontent.asp?f=atmk&cid=19)而設計。
選取此篇文章有幾個重要之處,一、本研究需要一個具有可靠性與公正性的專業 文本來進行更改。二、根據詞彙測驗時,孕產婦關懷網站獲得資訊。三、根據詞 彙測驗的結果,研究者歸納出了受試者較為不熟悉的詞,如生物價、維生素
的飲食參考,對於初次懷孕的媽媽來說也相當重要,在給予測驗時同時也能進行 基本的衛教,因此決定採用此篇文章來進行改寫。改寫的邏輯與內容如下:
i.根據營養詞彙測驗結果,若有自我認知程度或實際認知程度較高的詞,則在實 驗組中,以認知程度較高,也就是受試者較為熟悉或是知曉的詞來呈現,如:維生 素與維他命,皆由維生素做為控制字彙呈現。
i.根據營養詞彙測驗結果,若有自我認知程度或實際認知程度較高的詞,則在實 驗組中,以認知程度較高,也就是受試者較為熟悉或是知曉的詞來呈現,如:維生 素與維他命,皆由維生素做為控制字彙呈現。