新科技應用：語言環境分析系統

第二章文獻探討

第三節新科技應用：語言環境分析系統

近年來，隨著人工智慧技術的發展，在硬體基礎、演算法和技術方面的進步，產生許多人工智慧相關產品。眾多發展的科技中，自動化語音信號處理（Speech signal processing）已在語言研究和實務應用中佔有一席之地（Greenwood, Schnitz, Irvin, Tasi, & Cartaa, 2018），

LENA 即是自動化語音信號處理的研究工具，近十年來，國外越來越多研究採用 LENA 作為研究工具，為幼兒語言研究帶來不同的視野。

本節主要針對 LENA 進行介紹及說明。

壹、LENA 緣起

LENA 緣起於 Hart 和 Risley（1995）之研究，此為嬰幼兒早期語言學習歷程之重要研究，其研究結果指出，孩子從出生到 3 歲時，所聽到成人說話的數量，幾乎預測了兒童語言能力的變化，以及他們在幼兒園時的智商。家中成人和幼兒對話互動越多，幼兒的日後的語言和認知能力表現也越好，同時證實幼兒早期語言發展，對其日後發展的重要性。研究也發現，幼兒所接觸到的語言刺激量，因家庭背景而有巨大的差異，因而影響幼兒語言和認知能力的發展；換言之，幼兒早年的家庭語言經驗，已決定幼兒語言和認知能力發展的幅度。為了縮小幼兒之間，語言輸入量的鴻溝，降低幼兒語言能力發展的落差，

後續研究致力於增進父母和幼兒的語言互動。為達此目的，父母需要具體且客觀的回饋，來增強其和孩子的語言互動，但以 Hart 和 Risley 研究採用人工錄音和轉錄的方式，不僅耗費人力、時間和經費，更未能及時給予父母回饋，因此，促使 LENA 基金會研發自動化語音處理

的分析技術，針對親子語言互動，期能提供快速、便利及科學化之回饋，提升父母與幼兒的語言互動頻率，也仰賴電腦分析技術，擴大語言分析效能，服務更多的家庭。這些原因開啟了 LENA 的研發及發展其應用。

貳、 LENA 組成及應用範圍

LENA 是一種新的錄音及分析科技，結合可穿戴錄音機與自動語音分析軟體，可用來蒐集自然環境中的對話。LENA 分為兩部分，第一部分，為數位語音處理器（Digital Language Processor, DLP），是小型錄音器，錄音時間長達 16 小時，可裝入特製背心的口袋內，收錄幼兒周圍 6 到 10 英尺範圍內 16000 赫茲的聲音（Pae et al., 2016）。第二部分，為語音分析軟體，用於分析錄音資料。分析軟體除了能自動分析出成人說話字數（AWC），幼兒發聲計數（CVC）和成人幼兒對話輪替數（CTC）、自動發聲評估（Automatic Vocalization Assessment, AVA），還能分析兒童一天當中所處的聽覺環境（AE），如：噪音電子聲音、有意義話語和沈默的時間百分比等，並以報表圖方式呈現

（LENA Research Foundation, 2012）。

LENA 能夠提供關於幼兒環境中各種不同面向的語音訊息，可用於研究一般兒童語言習得或特殊兒童，常被用來調查自然情境中，各種語言習得的語言樣本，應用範圍包括聽損幼兒相關研究（Ambrose, VanDam, & Moeller, 2014 ; Aragon & Yoshinaga-Itano, 2012 ; Caskey &

Vohr, 2013 ; Sacks et al., 2014 ; VanDam , Ambrose, & Moeller, 2012 ; Vohr, Topol, Watson, Pierre, & Tucker, 2014）、自閉症幼兒相關研究

（Burgess, Audet, & Harjusola-Webb, 2013 ; Irvin, Hume, Boyd, McBee,

& Odom, 2013 ; Dykstra et al., 2012 ; Rankine et al., 2017 ; Warren et al.,

2010 ; Woynaroski et al., 2016 ; Yoder, Oller, Richards, Gray, & Gilkerson, 2013）、遲緩兒相關研究（Xu, Richards, & Gilkerson, 2014）、聽常幼兒親子談話互動（Gilkerson et al., 2017 ; Greenwood, Thiemann- Bourque, Walker, Buzhardt, & Gilkerson, 2011 ; Ko, Seidl, Cristia, Reimchen, &

Soderstrom, 2016 ; Weisleder & Fernald, 2013）、電視情境（Christakis et al., 2009 ; Zimmerman et al., 2009），雙語情境（Jackson & Callender, 2014 ; Marchman, Martinez, Hurtado, Gruter, & Fernald, 2017 ; Ramirez-Esparza, Garcia-Sierra, & Kuhl, 2017 ）、幼兒語言環境比較

（Soderstrom & Wittebolle, 2013）、幼兒語言能力的評估或篩檢方面

（Gilkerson, Richards, Greenwood, & Montgomery, 2017 ; Richards et al., 2017），以及介入研究（Gilkerson, Richards, & Topping, 2017; Pae et al., 2016 ; Suskind et al., 2013, 2016; Zhang et al., 2015）等等。

參、 LENA 分析原理及軟體信效度

LENA分析原理，主要根據Xu等人（2008）發表之技術報告。幼兒環境聲音頗為複雜，幼兒環境聲音由DLP錄製後，錄音資料須經由特定軟體分析。處理的第一步，是根據聲學特徵將聲音分類及定位，

將錄音中所有聲音都歸入8類：主要兒童，成年男性，成年女性，其他小孩，電視（包括收音機和其他電子媒體聲音），噪音，沉默和重疊。

依著不同的目的，針對不同類別的聲學特徵聲音，採用不同的處裡模式，進行分割及分割標記(segmentation and segment-ID process)及計算。例如：識別說話者採用最小持續時間高斯混合模型（Minimum Duration Gaussian Mixture Model , MDGMM)；語音分段處理及估算採用「知覺最小變異無失真響應 (Perceptual Minimum Variance Distortionless Response , PMVDR)」來進行；成人說話字數估算方面，

使用音素解碼(phone-decoding)、具有元音和輔音計數的最小平方法線性迴歸 (Least-Squares linear regression) 及其非線性變體 (nonlinear variants)進行。

在 LENA 的信度方面，Xu 等人（2008）以人工轉錄了 70 天的英文錄音，將其結果與軟體分析結果比較，LENA 分析結果和人類編碼之相同比率，在成人說話字數為 82%，兒童發聲計數為 76％，顯示其一致性水準，其他研究也認同其水準（Christakis et al., 2009 ; Warren et al., 2010 ; Zimmerman et al., 2009）。LENA 應用在不同語言上的信效度也獲得驗證，而華語也在 Gilkerson 等人（2015）在上海進行的研究中獲得驗證，此研究對象為 22 名，3 到 23 個月嬰幼兒家庭，從 LENA 提供一天的家庭錄音，隨機選取一段 15 分鐘的錄音，由一位華語母語人士，聽取標記說話區域，並為成人之話語提供華語字，與 LENA 提供的數值比較。結果，LENA 和人類編碼相同比率，在成人說話字數為 79%，兒童發聲計數為 81％的，另外，在對話輪替計數方面，去除 3 位異常值後，其計數結果與成人說話字數表現相似。不同國別語言，

應用 LENA 之自動化指標分析效度也被驗證，如成人說話字數和對話輪替數量在法文之信度（Canault, Le Normand, Foudil, Loundon, &

Thai-Van, 2015）、對話輪替數量在越南語之信度（Ganek & Eriks-Brophy, 2018a）。

肆、運用 LENA 研究之變項分析

根據 LENA 基金會公布的資料，採用 LENA 做作為研究工具而發表的期刊文章、會議論文和會議海報等，已超過 300 篇（LENA Research Foundation , 2018）。近期有三篇文獻回顧的研究（Ganek & Eriks-Brophy, 2018b; Greenwood et al., 2018 ; Wang et al., 2017），此三篇文章依各自

研究目的設定選取研究文章之條件，所擇取之文獻皆採用 LENA 作為研究工具，且經過同儕審查後發表。Greenwood 等人選取 53 篇文章，

從個別差異、跨語言、特殊幼兒及情境等角度，檢視 LENA 分析不同族群和語言環境所呈現出的結果，也檢視家庭背景差異導致語言輸入的鴻溝，是否因使用 LENA 作為回饋工具而縮小。Ganek 與 Eriks-Brophy 選取 44 篇文章，其研究目的，在於讓語言研究人員和語言病理學家熟悉 LENA 如何運用於研究。Wang 等人（2017）則選取了 38 篇，其目的在分析使用 LENA 的研究及對象、了解 LENA 技術上的挑戰，以及探討 LENA 的實務應用和未來研究。其中 Ganek 與 Eriks-Brophy，及 Wang 等人的研究分析符合本小節之主題，因此根據此兩篇研究，說明運用 LENA 時，研究之相關變項如下：

（一）研究設計

LENA 的研究設計應用主要分為三方面：兩種群體以上的比較研究、縱貫研究和橫斷研究。

（二）運用 LENA 軟體之數據

研究中最常被運用的數據，為成人說話字數（AWC）、兒童發聲計數（CVC）和成人幼兒對話輪替數量（CTC），有些研究也採用自動發聲評估（AVA）。

（三）研究對象

研究對象的生理狀況方面，研究對象多為一般兒童，LENA 也被運用於特殊兒童，例如：聽障兒童、自閉症兒童及唐氏症兒童等。年齡範圍方面，大多數研究之對象年齡，介於 2 個月到 48 個月，其次為年齡超過了兩歲的兒童，還有少數幾名年長者。年長者的語料，透過人工編碼處理，並未運用 LENA 數據。

（四）使用語言

大多數研究對象為英語之單語使用者，其他語言研究如：西班牙語、華話、法語和韓語。雙語包括英語和西班牙語之雙語兒童，使用三種語言則為英語、西班牙語和德語的使用者。

（五）錄音情境

由於研究對象大多數是嬰幼兒，因此蒐集語料的環境多在家庭。

此外，也有學校課堂的錄音，以評估幼兒在不同環境下的語言刺激輸入。

（六）錄音時間方面

錄音時間陳述方式皆非一致，有些研究陳述了平均錄音時間，少數研究說明總錄音時數。大多數的研究只記錄了一天的錄音，錄音時間長度在 10 到 16 小時之間。

（七）附加資料和軟體：

LENA 軟體分析的數據，不能夠滿足所有研究人員的需求。有些研究開發了自己的演算法，以符合其研究目的，如：分析聲音起始時間、每個發音的輔音和元音計數、分析音高和語速等等。

（八）人工轉錄與編碼：

轉錄語言文本進行分析，有助於深入研究語言議題，但 LENA 沒有自動將錄音轉錄成文字的功能。許多具有轉錄的研究，並沒有說明所使用的轉錄工具。Ganek 與 Eriks-Brophy 分析的 44 篇文章中，約有四分之一的研究沒有轉錄，只是簡單地編碼錄音與標記，更沒有完整的轉譯資料。

伍、LENA 挑戰與限制

雖然 LENA 的演算法在兒童自動語音分析中取得了巨大的突破，

目前 LENA 的演算法仍有其限制存在。以下從設計本質、語音收錄及分析、研究對象和環境因素方面說明。

LENA 設計本質的先天限制方面，LENA 只有收錄語音沒有錄影，

因此透過手語溝通之對象並不適用 LENA（Dykstra et al., 2012），運用在幼兒教室中也未具有自動識別環境位置的能力（Irvin et al., 2017）。

軟體分析效度方面，要求錄音時間時至少需 10 小時，才具有效度，

Dykstra 等人（2012）則指出，若要將 LENA 應用到教室環境，但幼兒每天待在教室的時間可能不足 10 小時，因此無法達到其錄音時數的要求。LENA 設計的穿搭裝備方面，儘管 LENA 的特製服裝，經過嚴格的測試，但織物吸聲率也可能影響準確性（ Xu,Yapanel, ＆ Gray, 2009）。

語音收錄及分析方面，LENA 無法區分說話者是對幼兒說話，或是對別人說話，即 LENA 無法處理周圍環境中屬於偷聽（或稱跨聽）

的言語（Canault, Le Normand, Foudil, Loundon, & Thai-Van, 2015 ; Greenwood, Schnitz, Irvin, Tasi, & Cartaa, 2018）。從語音內容意義分析來看，LENA 的數據結果是運用演算法分析語音而得，並無法分析語言意義的部分，如詞彙多樣性、語法複雜度、溝通意圖等等，對於人

在文檔中聽力損失幼兒之語言環境與其語言能力關係：LENA系統之應用 (頁 86-99)

第二章 文獻探討

第三節 新科技應用：語言環境分析系統