聲音的一些特質

(1)

1.

聲音的一些特質相關的參數併成向量

把 random vector 投影 => 把聲音特性區分出來第九份投影片

把聲音的一堆參數用較少量的參數表示

本來需要很多 dimension 來表示現在可以用比較少的 dimension 去表示投影之後要分的越開越好

找投影 variance 最大的

為甚麼他可以馬上做 adaptation?

我講話他還是會認得，很快就可以調整，比較少的資料就可以分辨出相對特質。資料量需要比較少

2.

最後一句：解釋一下，所以看一下講義就好了，

如果第二題講一下問參數什麼意思的話就 10.0 打開就是了講義第十份第一面越亂越不重要小比較重要

3.

第 13 份 LDA

找個維度讓兩個 data 分的最開 sw 越小越好一群的聚集程度 sb 越大越好各群的分散程度

4.

像是說"紐約受到恐怖攻擊的新聞"

就要列出"美國總統布希..."

"賓拉登..."

等等有相關意義的 document 出來 performance measures 講的是

如果我要求字出現的次數的最低標準很高的話(像是出現 100 次以上才列入相關) 則自然我 recall(對應到的)的 relevant document 就少，反之亦然

其中又分成以 word(字)為單位、subword(音節)為單位、關鍵字為單位做 retrive(檢索)等等。

answer:

而這題問題就是在問說

如果我採用 subword 為單位，利用 vector space model 去做檢索搜尋，為什麼很有用？如何實作呢？

好處是我們將每個 document(像是剛剛說的"賓拉登...")跟 query(像是要查"紐約受到恐怖攻擊的新聞") 都用一個 vector 去呈現他，

很普遍使用、簡單清楚(我們可以想像利用 class[100]來代表 100 個 class 會比 class1,class2,...來的省力)，

如以下假設：

將每個 query 跟 document 都設為一個 vector j，

則我們可以找到這個 vector 對個別 term(類似字串)的關係如下：

Zjt = (1 + ln[Ct])* ln(N/Nt)

(2)

Ct 代表這個 term 在 query 或 document 的出現次數 N 代表 document 總數

Nt 代表有這個 term 的 document 總數

其中 ln(N/Nt)又稱為 IDF，表示此 term 的重要性。

而至於為什麼用在 subword 而非 word?有什麼好處？

因為 subword 可以避免掉 word 會產生的 OOV 問題，並且可以支援多國語言，也較不佔空間。

然後我們就可以利用此頁最下方那個關係式描述某個 document 跟某個 query 的相似度(懶的打了 xD)，

然後下頁就告訴我們範例，

像是 Blind Relevance Feedback 就是利用 vector space model 先找出第一批相關 documents，然後再從裡頭找出更相關的 documents、...

query expansion by term association 先建一個 matrix，把所有 term 之間的關係都描述出來，

在同一個 document 出現的 term 相關度就較高，

我們可以試著把一個 query"紐約受到恐怖攻擊的新聞"拆成多個 term，

1.紐約 2.恐怖攻擊 3.新聞

然後重新修正 query 使得 relevance(1,2) relevance(2,3) relevance(1,3) 為最高代表我問的問題中的字串彼此相關程度比較高

像是 relevance(吃飯,恐怖攻擊) = 0.8 relevance(牛肉麵,恐怖攻擊) = 0.01

則就不建議 query 問"當我吃牛肉麵被恐怖攻擊"的新聞，而找"當我吃飯被恐怖攻擊"的新聞，即使你是比較關心牛肉麵。

5.

EM

目標：根據某種標準(可以自己定)，估計出機率模型的參數。

two steps:

(1)E-step(expectation):

給定一個目標函式，例如可能性函式(likelihood fuction) 、P(x|θ)，和觀察資料(observation data)，

機率模型的參數(θ)，藉由一些潛在性資料(latent data)，例如 HMM problem 3 裡的 state sequence，去求出此目標函式的值。

給兩個 model，θ和θk，θk 是第 k 個 iteration 的參數，θ是我們要估計的參數，將兩個 model 帶入目標函式，算出估計值。

(2)M-step(maximization):

用 E-step 算出一系列的估計值，比較出最大的，此θ即為的 k+1 個 iteration 的參數θk+1，我們要保證 P(x|θk+1)>=P(x|θk)(單項遞增)。

6.

參考答案：15.0 page 2 likelihood ratio test

if P(X|H0)/P(X|H1) > P(H1)/P(H0) = th then choose H0

else

choose H1

(3)

其中 H0,H1 為二個假設，根據這二個假設和已知可以求出事前機率 P(H0),P(H1)，

當有一個現象產生時，將此現象套用這二個假設，即 P(X|H0),P(X|H1)，

並將此二機率相除，若大於 th，則表示 H0 假設較吻合，反之表示 H1 假設較吻合。

在 DSP 應用上，有 utterance verification、frame-level、confidence score(可延伸至 phone、word、multi 等 level)

在 utterance verification 部分，可把二個假設換成是二個 model，

一個是 word 的 model wi，一個是 anti-model(主要是背景、雜音) wi'，

當有 observation 時，就放進兩個 model 去算機率，然後相除，

當 P(X|wi)/P(X|wi') > th 時，表示這個 observation 是一個 word 的機率較高，

反之這個 observation 是雜音或其他干擾聲音的機率較高，如此一來就可辨認某時刻的 observation 是人所發出的聲音還是雜音。

7.

what&how

Xn:使用者第 n 次的對話輸入

Fn:將 Xn 翻譯出的語意 (類似達叔說的機器的 input?)

Sn:到對話目前為止(第 n 個部分)的語意 (應該是機器到第 n 步驟的理解狀況) An:第 n 次對話後,系統的回應 (像是重複使用者說的話,或是進行確認等等) three key elements:

1.語音辨識和理解-將 Xn 轉換成 Fn

2.前文累積知識的分析-根據所有的 Fn,將 Sn-1 轉換成 Sn 3.對話處理-根據 Sn 選擇當時最佳的 An

link

(感覺是把講義上那兩行公式打上去?)

我覺得

Sn 改成像是 FSM 的 state 解釋比較恰當，Xn 是使用者講出的一串連續的話 (第 n 次應該就是用講話的停頓來分開的)

Xn 經由系統轉換成系統看的懂得 Fn，Fn 可能有許多個語意包含在裡面 (ex: 我想要訂七點到巴黎的飛機 => 1.七點 2.巴黎兩個 information) 所以公式裡面有一個 sum，把第 n 次的所有 Fn 合起來

這樣的 Fn 集合當作一個 FSM 的 input 形式，來產生下一個 state

8.

這節的重點就像第 2 頁下面那張圖那樣，可以從 Client(這裡比較偏向討論 hand-held device，因為還要考慮 Wireless Network)送出服務要求，經由無線網路傳 Server。

接收與解析語音分成三個部份：

Client-Only Model：：：：

接收語音在 Client(廢話，說話的人是 Client)，解析的工作也在 Client 執行(就是手機內建整個語音處理系統)，再把最後解析出來的結果送到 Server。這個模式會受限於 hand-held device 的等級

Client-Server Model：：：：

(4)

先在 Client 做好 Feature Extraction & Feature Compression，簡單說就是解析語音的各種特色 (MFCC ?)，再經由無線網路送到 Server，在 Server 做剩下解析語音的工作。此舉動可以節省頻寬但是聲音會變奇怪，不好聽，影響講電話的品質(not compatible to existing wireless voice communications)在 Server，沒辦法從 MFCC 轉回原始的聲音

Server-Only Model：：：：

送原始的聲音到 Server，再做處理。因為傳輸的都是原始的聲音，所以會比較好聽可是因為一般電話傳輸的不是全部的聲音，比較傾向人耳會聽的部份，所以會失真。

need to find recognition efficient feature parameters out of perceptually efficient feature parameters 這個我掛了 Orz

recognition efficient feature parameters(轉 MFCC) perceptually efficient feature parameters(CELP)

找兩者參數的對應關係,但兩者所需參數因為不同需求,已經有所差異,因此參數之間無法完全對應因為轉換時會刪掉相對不重要的部份,但刪去的部份可能是另一個方法的參數所需要的部分

server-only 應該不是送原始聲音?用 CELP encode 之後不會失真,但送到 server 轉 MFCC 去解析會使正確率下降