緒論 - 高效能管線化架構之快速競爭式學習系統

而言，可能就會變成一種侷限了。

高計算成本的缺點或可藉由加速搜尋過程的方式來避免，比方說，在原有或轉換後的域上使用部分距離搜尋(PDS) [4, 13]。PDS 演算法因僅計算部分距離，

只需少量乘法運算便能淘汰不需要的神經元。當一個神經元的部分距離大於現有最相配神經元的全距離(full distance)時，這個神經元便會被判淘汰。但這些軟體方法僅能達到普通程度的加速效果。因此便有學者選擇使用VLSI 來實現搜尋引擎 [19, 21]，把原有為了 VQ 編碼器所設計的各式心脈陣列(systolic arrays)拿來進行平行搜尋。相較於軟體實現，硬體電路提供了較高的產量(throughput)。然而這些提出的電路架構並不滿足競爭式學習演算法中很重要的即時神經元更新 (online neuron updating)。在 [18] 中所提出的基於部分距離搜尋法之競爭式學習系統，其硬體架構雖能滿足即時神經元更新的要求，但在一個時間點上，只能針對一個輸入向量做運算，因此在競爭式學習法則的訓練上其產量是有限的。

第一章緒論

1.2 研究目的

有鑒於上節所述之情況，本論文提出一個快速贏家通吃競爭式學習法的新硬體架構。此架構可以快速完成訓練，並以現場可程式邏輯陣列(field programmable gate array，FPGA)為實現平台 [5, 10]，因此可在重複規劃後套用到不同的競爭式網路上。基於 FPGA 的可重組硬體幾乎可像軟體般來進行程式設計，且相較於傳統的ASIC 硬體實現，它最吸引人的地方莫過於彈性佳、成本低。另外，FPGA 的硬體實現可對競爭式學習法的演算進行平行處理，從而降低訓練時間。

除了使用FPGA，我們還提出一個全新的管線化(pipeline)架構，以求達到高產量的特性。此架構針對於即時神經元更新使用了神經元交換(swapping)機制，

透過此機制，不同的訓練向量之間在同一個時間點上能平行化的進行神經元競爭的運算，除此之外，訓練向量更能帶著其贏家候選神經元一同在管線化層級裡推進，直到最後一個管線化層級選出最後的贏家神經元。而落選的神經元，在失去競爭之後也能夠馬上參與下一個訓練向量的競爭。因此交換機制的運作，能夠大大提升本論文提出的管線化架構效能。

當訓練向量從最後一個管線化層級離開來到了神經元更新單元時，以硬體電路為基礎的神經元更新程序便會隨之啟動，此程序包含了學習率(learning rate)運算以及贏家神經元權重向量調整。為了加速此程序的執行時間，我們運用了以查表式為基礎的有限精度除法(lookup table based finite precision division)電路，能夠有效降低運算時間並具有低面積成本的優點。

第一章緒論兩大特色，我們有效的加速了競爭式學習法則的訓練速度，並將本論文所提出的硬體架構成為客製化的邏輯電路，以 FPGA 為基礎的可程式化系統晶片設計 (System On a Programmable Chip，SOPC)做為我們實現的效能測試平台。在實現此管線化架構，我們必須保證此架構必須擁有快速的計算能力以及優異的產能表現，因此在實驗部分與數據的蒐集上，我們利用了Altera 的 Cyclone III 開發板來做為模擬與驗證。

第一章緒論

1.3 全文架構

本篇論文總共分為五章，各章的內容安排如下：

【第一章】緒論

說明本論文的研究背景與動機目的。

【第二章】基本理論介紹

介紹本論文主要使用的基礎理論與技術背景。

【第三章】 Fast CL 之架構與硬體實現

說明本論文提出的交換機制、查表式除法以及設計新電路時所依據的基礎電路架構。

【第四章】實驗數據與效能比較

呈現本論文所提出的電路設計成果數據、以及討論。

【第五章】結論

說明本論文的貢獻。

第

mpetitive ph 出贏家 yj*。

D(x, yj)

rning phase 上一個學習

在文檔中高效能管線化架構之快速競爭式學習系統 (頁 11-16)