• 沒有找到結果。

第三章 方法論

3.2 蛋白質結構語言定義

蛋白質共同結構元的表達語言定義目前並無統一規定,過去的研究提出了好 幾種不同的表達語言。例如:PROSITE 資料庫中定義的語法,簡潔又容易辨認,

但記載資訊較少;以 Matrix 格式來記載較多資訊的表達方式,較複雜且不好直 覺辨認;或是以轉換過之二級結構序列來記載。其中,以PROSITE 定義之相似 結構元表達語言最為熟知且接受,且符合本研究要找尋相似結構元類型的要求,

因此遵循PROSITE 所定義的表達語言,作為本研究之相似結構元表達語言的標 準。

3.2.1 相似結構元語言定義

RPOSITE 定義相似結構元的表達語言極為簡單,在 PROSITE 網站中提供的 porsuser.txt 檔案中有詳細的說明,如下:

1. 使用 IUPAC one-letter codes 來表達 20 個慣用的胺基酸。

2. 符號 'x' 表示該位置接受 20 個胺基酸中的任一種。

3. 符號 '[ ]' 表示該位置接受括號中所包含的所有 IUPAC one-letter 表示的 胺基酸。例如:[ALT] 表示該位置可以是 Ala、Leu 或是 Thr。

4. 符號 '{ }' 表示該位置不接受括號中所包含的所有 IUPAC one-letter 表 示的胺基酸。例如:{AM}表示該位置不可以為 Ala 和 Met,意即可以 是Ala 和 Met 以外的任何胺基酸。

5. 符號 '-' 來區隔相似結構元中相鄰的位置。

6. 符號 '( N)' 或 '( N1, N2)' 中所包含的 N 數字,表示其前面相連相似結構 元該位置型態重複的次數或重複次數的範圍。例如:x(3) 表示 x-x-x,

x(2,4)表示 x-x、x-x-x、x-x-x-x。

表3-1 為實際例子,表的下欄部分為符合相似結構元的胺基酸序列:

Motif [AT]-O(2)-[KIJHG]-{LPQAVNM}-x(1,2)-D

TOOKIPPD TOOHGJJD AOOIGWID

TOOGDMND TOOKUFED AOOJCAWD Possible A.A. Sequence

TOOJPWD TOOGUHHD AOOHIJKD

表3-1 相似結構元 s 定義語言及其合法之胺基酸序列

3.2.2 相似結構元在系統中之語言定義

上述遵循PROSITE 的相似結構元表達語言,並無法直接編碼為系統可 辨認且執行的語言,因此另外定義了系統可執行的語言方式,以利整個模型 的操作。

本研究採用樹狀結構(Tree)的資料結構來編譯相似結構元,樹狀結構中 的節點(node)記載了相似結構元之結構及胺基酸型態。節點又可分為中間節 點(internal node)及末端節點(terminal node),各記錄著不同資訊。表 3-2 為不 同節點分別可記錄的資訊:

Node Types 可記錄之資訊

Internal Node '[ ]'、'{ }'、'&' Terminal Node IUPAC alphabet

表3-2 相似結構元系統定義語言的樹狀結構中,不同節點所記載的資訊

定義的相同,最後一個則是連接各個位置的相似結構元及樹的結構。另外,不論 是紀錄哪種資訊的中間節點,皆有兩支腳來連接其下一層的子結點,且中間節點 可以接中間節點或末端節點,末端節點已位在樹的底部所以不能再接子節點。圖 3-2 為舉例說明:

R-K [RK] R-D-K 圖3-2 中間節點連接子結點示意圖

轉換樹狀結構語言至PROSITE 相似結構元表達語言的方法,遵守 Pre-Order 的規則,從樹的左下角節點開始,由左至右,由下至上,結束於樹的最右下方節 點,非常直覺且可以輕鬆在兩種系統語言和相似結構元語言中自由轉換。圖3-3 為解碼樹結構的相似結構元的示意圖:

圖3-3 樹狀結構的相似結構元語言轉譯為正規相似結構元語言

3.2.3 語言的優點

本研究所定義的相似結構元表達語言遵循 PROSITE 訂定的標準表達語言 (Standard Expression Method),不但廣泛被使用也非常容易被人理解,使用者能 非常迅速理解本研究的結果。

另外以樹狀結構為基礎的系統中相似結構元表達語言,擷取了樹狀結構非常 彈性的優點,巧妙地利用不同的樹狀結構,可以發展出結構較為複雜的相似結構 元,相較於以其他資料結構編譯的相似結構元,例如:堆疊(Stack)、串連(Link List) 等有著更大的可發展性及變化性。此也為本研究能較過去非序列排比方式 (sequence alignment)找尋相似結構元的方法,例如 TRILOGY、I-sites 等,更有能 力找到較為複雜相似結構元的重要原因。

相關文件