• 沒有找到結果。

在行程長度編碼字串中序列比對問題之研究

N/A
N/A
Protected

Academic year: 2021

Share "在行程長度編碼字串中序列比對問題之研究"

Copied!
21
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 成果報告

在行程長度編碼字串中序列比對問題之研究(第 3 年) 研究成果報告(完整版)

計 畫 類 別 : 個別型

計 畫 編 號 : NSC 97-2221-E-011-158-MY3

執 行 期 間 : 99 年 08 月 01 日至 100 年 09 月 30 日 執 行 單 位 : 國立臺灣科技大學資訊管理系

計 畫 主 持 人 : 王有禮

計畫參與人員: 碩士班研究生-兼任助理人員:李毓婷 大專生-兼任助理人員:邱羽姍

博士班研究生-兼任助理人員:郭俊麟 博士班研究生-兼任助理人員:張舜傑

報 告 附 件 : 出席國際會議研究心得報告及發表論文

公 開 資 訊 : 本計畫可公開查詢

中 華 民 國 100 年 11 月 01 日

(2)

中文摘要: 在許多應用上,度量兩字串的相似性與相異性是十分重要的問 題。為了此一目的,定義出許多的度量單位。在字串處理上,

最大共同字序列與編輯距離即是最普遍的問題。而在處理這些 數位資訊時,我們需要快速且彈性的方法來完成這些計算。

另一方面,資訊內容在近年快速成長,並藉由資料壓縮技術以 有效率地儲存大量的資料,並同時能減少記憶體、傳輸與計算 上的需求。然而,它的缺點卻是必須在使用時,先將已壓縮的 資料解壓縮。因此,本計劃希望直接針對壓縮的資料做處理,

如:在壓縮的字串上處理字串比對,則我們可以在計算時同時 兼具節省時間及空間的優點。

給定任兩筆長度分別為 m 和 n 的字串 X 和 Y,及在經由行程長 度編碼後的長度分別為 M 和 N。我們曾提出時間複雜度為 O(min{mN,Mn})的演算法來計算最大共同子序列與編輯距離。

本研究計劃的第一年,我們繼續深入了解更多性質。在這個研 究已獲得的成果有:我們將編輯距離問題推而廣之,針對具有 權重的編輯距離問題上(Weighted Edit Distance)做研究,並提出 O(min{mN,Mn})時間複雜度的演算法。

除了研究計劃第一年的成果外,我們也開始進一步研究其它字 串比對問題在行程長度編碼上的特性。希望藉此能指引我們在 計劃的第二年將時間複雜度提升至 O(MN)。

英文摘要: Measuring the similarity of difference between two strings is a fundamental problem to many applications. For this propose, many measures are defined. The longest common subsequence and edit distance are the most popular problems in string processing. We need fast and flexible techniques to perform computations while processing electronic documents in hug sequence databases.

On the other hand, information contents increase rapidly in recent years, and an economical way to store massive data is via data compression which can be used to simultaneously reduce memory, communication and computation requirements. However, the

drawback is, in the conventional way that one has to decompress the packed data before really using it. In this project, we want to process compressed data directly, such as performing string comparison on compressed strings, we would get both advantages in saving time and space for computation.

For any two strings X and Y with length m and n, respectively, and run-length encoded lengths M and N, respectively. We proposed two O(min{mN, Mn}) time algorithms for finding the longest common subsequence and solving the edit distance problem. During the first year of the project, we surveyed many important

characteristics. The main result of the first year is that we focus on investigating the weighted edit distance problem and propose an O(min{mN, Mn}) time algorithm.

In the second year, we will survey more properties of the string

(3)

alignments with run-length encoding problems for the purpose of finding an O(MN) time algorithms for longest common

subsequence problem and edit distance problem.

(4)

行政院國家科學委員會補助專題研究計畫

▓成果報告

□期中進度報告

在行程長度編碼字串中序列比對問題之研究(3/3)

計畫類別:

個別型計畫 □整合型計畫 計畫編號:

NSC 97-2221-E-011-158-MY3

執行期間:

97 年 8 月 1 日至 100 年 7 月 31 日

執行機構及系所:

國立台灣科技大學資訊管理學系(所)

計畫主持人:

王有禮

共同主持人:

計畫參與人員:郭俊麟、張舜傑、李毓婷、邱羽姍

成果報告類型(依經費核定清單規定繳交):□精簡報告

完整報告

本成果報告包括以下應繳交之附件:

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式:除產學合作研究計畫、提升產業技術及人才培育研究計畫、列管計畫及 下列情形者外,得立即公開查詢

□涉及專利或其他智慧財產權,▓一年□二年後可公開查詢

中 華 民 國 100 年 10 月 12 日

(5)

一、 中英文摘要 (一) 中文摘要

在許多應用上,度量兩字串的相似性與相異性是十分重要的問題。為了此一目的,定義 出許多的度量單位。在字串處理上,最大共同字序列與編輯距離即是最普遍的問題。而在處 理這些數位資訊時,我們需要快速且彈性的方法來完成這些計算。

另一方面,資訊內容在近年快速成長,並藉由資料壓縮技術以有效率地儲存大量的資料,

並同時能減少記憶體、傳輸與計算上的需求。然而,它的缺點卻是必須在使用時,先將已壓 縮的資料解壓縮。因此,本計劃希望直接針對壓縮的資料做處理,如:在壓縮的字串上處理 字串比對,則我們可以在計算時同時兼具節省時間及空間的優點。

給定任兩筆長度分別為 m 和 n 的字串 X 和 Y,及在經由行程長度編碼後的長度分別為 M 和 N。我們曾提出時間複雜度為 O(min{mN,Mn})的演算法來計算最大共同子序列與編輯 距離。本研究計劃的第一年,我們繼續深入了解更多性質。在這個研究已獲得的成果有:我 們將編輯距離問題推而廣之,針對具有權重的編輯距離問題上(Weighted Edit Distance)做研 究,並提出 O(min{mN,Mn})時間複雜度的演算法。

除了研究計劃第一年的成果外,我們也開始進一步研究其它字串比對問題在行程長度編 碼上的特性。希望藉此能指引我們在計劃的第二年將時間複雜度提升至 O(MN)。

關鍵字:行程長度編碼、最大共同子序列、編輯距離

(6)

(二) 英文摘要

Measuring the similarity of difference between two strings is a fundamental problem to many applications. For this propose, many measures are defined. The longest common subsequence and edit distance are the most popular problems in string processing. We need fast and flexible techniques to perform computations while processing electronic documents in hug sequence databases.

On the other hand, information contents increase rapidly in recent years, and an economical way to store massive data is via data compression which can be used to simultaneously reduce memory, communication and computation requirements. However, the drawback is, in the conventional way that one has to decompress the packed data before really using it. In this project, we want to process compressed data directly, such as performing string comparison on compressed strings, we would get both advantages in saving time and space for computation.

For any two strings X and Y with length m and n, respectively, and run-length encoded lengths M and N, respectively. We proposed two O(min{mN, Mn}) time algorithms for finding the longest common subsequence and solving the edit distance problem. During the first year of the project, we surveyed many important characteristics. The main result of the first year is that we focus on investigating the weighted edit distance problem and propose an O(min{mN, Mn}) time algorithm.

In the second year, we will survey more properties of the string alignments with run-length encoding problems for the purpose of finding an O(MN) time algorithms for longest common subsequence problem and edit distance problem.

Keywords: Run-Length Encoding, Longest common subsequence, Edit distance

(7)

二、 報告內容

在最近十年間,分子生物目擊也參與一個資訊革命,即快速 DNA 定序(DNA Sequencing) 技術的發展。在序列分析上,成對序列比較是一個根本的工作,它提供資料庫搜尋演算法的 基礎,該演算法嘗試去決定序列是否具重大的“相似"及“相異"的程度,來判斷它們可能 是或不是具同源性。在字串序列比對的問題中,尤其以計算兩個字串序列間的最大共同子序 列與最小編輯距離為最常見且最普遍的問題。

在本計畫的第二年,我們提出了許多推估的求解方式,試著以常數次的計算一些不是很 精確的解,再進行調整,進而達到計算精確解的目地。而此一演算法目前仍需要更細膩的數 學方式來做最後正確性的證明。然而,在研究第三年,我們針對許多觀察結果進行細膩的數 學證明,但總會發現一些特殊狀況來推翻原來的假設。因此,我們將此問題轉向其它字串比 對的相關問題上。如:Mosaic Longest Common Subsequence Problem 及 Constrained Longest Common Subsequence Problem。

所謂的 Mosaic Longest Common Subsequence Problem,即是給定一個字串序列 T,及另 一個較小的字串序列集合 S,我們可以字串集合 S 中選取 k 個數目的字串 且可以重複的 選取,目的是得到一個 Mosaic Sequence … . 使得 T 與 C 兩字串的 Longest common subsequence 值為最小。針對此一問題,Huang[18]等學者曾提出兩種不同的演算法 來求算此一問題,第一個方法藉由 divide-and-conquer technique 技巧,這個問題可在

O(n

2

m|S|+n

3

log k)的時間複雜度內求得,其中 n,m 分別表示字串 T 的長度及 S 字串集合中

最長的字串長度,|S|為 S 字串集合的字串個數。並藉由改進第一個方法,第二個演算法則 將其時間複雜度進而提升至 O(n(m+k)|S|)。

藉由此研究計劃,我們得到許多有趣的研究結果,並適用於此問題上,如:

Given a subsequence T[i, j] of T

n

and C = C

1

C

2

, there exists a position r, i r j, in T[i, j]

such that L

C

(i, j) = L

C1

(i, r) + L

C2

(r + 1, j).

令 S1

=agcS

2

=actS

3

=aatgS

4

=ttcgT= agactagtc,原本我們若要求任意 T 的子序列 T[i,j]與 S

1

S

2

S

3

S

4之間的 Longest common subsequence 值,我們可以由以下 Table 來表 示。

S

1

=agc

j

S

2

=act

j

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9

L

S1

(1,j)

1 2 2 3 3 3 3 3 3

L

S2

(1,j)

1 1 1 2 3 3 3 3 3

L

S1

(2,j)

0 1 1 2 2 2 2 2 3

L

S2

(2,j)

0 0 1 2 3 3 3 3 3

L

S1

(3,j)

0 0 1 2 2 2 2 2 3

L

S2

(3,j)

0 0 1 2 3 3 3 3 3

(8)

L

S1

(4,j)

0 0 0 1 1 1 2 2 3

L

S2

(4,j)

0 0 0 1 2 2 2 2 2

L

S1

(5,j)

0 0 0 0 0 1 2 2 3

L

S2

(5,j)

0 0 0 0 1 1 1 2 2

L

S1

(6,j)

0 0 0 0 0 1 2 2 3

L

S2

(6,j)

0 0 0 0 0 1 1 2 2

L

S1

(7,j)

0 0 0 0 0 0 1 1 2

L

S2

(7,j)

0 0 0 0 0 0 0 1 1

L

S1

(8,j)

0 0 0 0 0 0 0 0 1

L

S2

(8,j)

0 0 0 0 0 0 0 1 1

L

S1

(9,j)

0 0 0 0 0 0 0 0 1

L

S2

(9,j)

0 0 0 0 0 0 0 0 1

S

3

=aatg

j

S

4

=ttcg

j

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9

L

S3

(1,j)

1 2 2 2 3 3 4 4 4

L

S4

(1,j)

0 1 1 1 1 1 2 2 3

L

S3

(2,j)

0 1 1 1 2 2 3 3 3

L

S4

(2,j)

0 1 1 1 1 1 2 2 3

L

S3

(3,j)

0 0 1 1 2 2 3 3 3

L

S4

(3,j)

0 0 0 1 1 1 2 2 3

L

S3

(4,j)

0 0 0 0 1 1 2 2 2

L

S4

(4,j)

0 0 0 1 1 1 2 2 3

L

S3

(5,j)

0 0 0 0 1 1 2 2 2

L

S4

(5,j)

0 0 0 0 1 1 2 2 3

L

S3

(6,j)

0 0 0 0 0 1 2 2 2

L

S4

(6,j)

0 0 0 0 0 0 1 1 2

L

S3

(7,j)

0 0 0 0 0 0 1 1 1

L

S4

(7,j)

0 0 0 0 0 0 1 1 2

L

S3

(8,j)

0 0 0 0 0 0 0 1 1

L

S4

(8,j)

0 0 0 0 0 0 0 1 2

L

S3

(9,j)

0 0 0 0 0 0 0 0 0

L

S4

(9,j)

0 0 0 0 0 0 0 0 1

, , 表示所有 2l個 mosaic sequences 與 T[i,j]之間的最佳 Longest common subsequence 值。舉例而言:

1,4 1,1 2,4 , 1,2 3,4 , 1,3 4,4 , 1,4

1 2,2 2,2 1,3 4

,

j

,

j

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9

1, 1 2 2 3 3 3 4 4 4 1, 1 2 3 4 5 5 5 5 6 2, 0 1 1 2 3 3 3 3 3 2, 0 1 2 3 4 4 5 5 6 3, 0 0 1 2 3 3 3 3 3 3, 0 0 1 2 3 4 5 5 6 4, 0 0 0 1 2 2 2 2 3 4, 0 0 0 1 2 3 4 4 5 5, 0 0 0 0 1 1 2 2 3 5, 0 0 0 0 1 2 3 3 4 6, 0 0 0 0 0 1 2 2 3 6, 0 0 0 0 0 1 2 3 4 7, 0 0 0 0 0 0 1 1 2 7, 0 0 0 0 0 0 1 2 3

(9)

8, 0 0 0 0 0 0 0 1 2 8, 0 0 0 0 0 0 0 1 2 9, 0 0 0 0 0 0 0 0 1 9, 0 0 0 0 0 0 0 0 1

藉由 Inverted Index 的手法,我們可以把上表以下面方式來表示。

,

h

1 2 3 4

1, 1 2 4 7 2, 2 4 5 0 3, 3 4 5 0 4, 4 5 9 0 5, 5 7 9 0 6, 6 7 9 0 7, 7 9 0 0 8, 8 9 0 0 9, 9 0 0 0

藉由此轉換過程,我們可以得到許多有用的特性,如下所示:

, 1 , 0,1 , for 1 1 and , 1, 0,1 ,

for

2

.

If b

0

=0, then

, 0 and , 0, for 1

.

If b

l

=0, then

, , and , , , for 1

, where

1

.

If b

l

=1, then

, , , 1,

, where

1

.

If b

l

=1, then

, 1 , where 1

.

, , , 1,

, where

1

.

(10)

一個 m*n 的陣列 M=(ci,j

)

m*n 我們稱之滿足 totally monotone 的性質,如果對任意的 i, r, j,

s 且 1i<rm1j<sn,皆能滿足以下兩個特性之一:

(1) ci,j

c

r,j implies ci,s

c

r,s (2) ci,j

c

r,j implies ci,s

c

r,s

我們藉由 totally monotone 的特性提出了以下的演算法 Algorithm Mosaic,並得將解決 Mosaic Longest Common Subsequence Problem 的時間複雜度進一步地提升到 O(nm|S|+nL

logk)。

(細節請參閱[15])

Theorem 1. Algorithm Mosaic solve the MLCS problem in O(nm|S|+nL logk) time.

接下來,我們討論 Longest Common Subsequence Problem 的另一個變形 Constrained Longest Common Subsequence Problem。

給定兩個字串 X 與 Y 及一個限制字串 P,我們要找一個最長的字串 Z,使得 Z 為 X 與 Y 的共同子字串且 P 必須為 Z 的一個子字串。在[8],Chin 等學者曾提出時間複雜度為 O(mnr) 的演算法來解決此一問題。而藉由此一研究計劃我們所推導出來的性質,我們將此一問題的 時間複雜度進一步地提升至 O(min{mN,Mn}*r),其中 m、n 與 r 為字串 X、Y 與 P 的長度,

M 與 N 則為字串 X 與 Y 經由行程長度編碼壓縮後所得到的長度。

Chin 等學者提出的演算法主要是得到以下的遞迴式:

(11)

其中 1

im,1jn,且 0kr。

令 X=ddaaadddd

Y=adaadddP=ddd,藉由上式遞迴式,我們可以求得 Constrained

Longest Common Subsequence Problem 的長度為 6,如下表所示。

Y Y

a d a a d d d a d a a d d d

X

d

0 1 1 1 1 1 1

X

d

- 1 1 1 1 1 1

d

0 1 1 1 2 2 2

d

- 1 1 1 2 2 2

a

1 1 2 2 2 2 2

a

- 1 2 2 2 2 2

a

1 1 2 3 3 3 3

a

- 1 2 3 3 3 3

a

1 1 2 3 3 3 3

a

- 1 2 3 3 3 3

d

1 2 2 3 4 4 4

d

- 2 2 3 4 4 4

d

1 2 2 3 4 5 5

d

- 2 2 3 4 5 5

d

1 2 2 3 4 5 6

d

- 2 2 3 4 5 6

d

1 2 2 3 4 5 6

d

- 2 2 3 4 5 6

Y Y

a d a a d d d a d a a d d d

X

d

- - -

X

d

- - -

d

- - - - 2 2 2

d

- - -

a

- - - - 2 2 2

a

- - -

a

- - - - 2 2 2

a

- - -

a

- - - - 2 2 2

a

- - -

d

- - - - 4 4 4

d

- - - 3 3

d

- - - - 4 5 5

d

- - - 5 5

d

- - - - 4 5 6

d

- - - 5 6

d

- - - - 4 5 6

d

- - - 5 6

藉由此研究計劃,我們得到許多有用的研究成果,並運用在此問題上,如:

If , then

, , , , , , ,

.

Assume that , , and

,

. if and either or

k=0, then

, , , ,

.

(12)

Assume that , , and

,

. if , then

, ,

, ,

, where

,

.

我們可以得到一個新的遞迴式如下:

最後藉由一連串的處理方式,我們有效率地將以上的遞迴式的每一個步驟控制在 O(1) amortized time 之內(細節請參閱[24]),將此一問題的時間複雜度進一步地提升至

O(min{mN,Mn}*r)

Theorem 1. Given strings X and Y, and a constrained sequence P, the CLCS for X and Y with

respect to P can be found O(min{mN,Mn}*r) time by Algorithm A where M and N are the numbers of runs in X and Y, respectively.

三、 參考文獻

[1] Alberto Apostolico, Gad M. Landau, and Steven Skiena, Matching for Run-Length Encoded Strings, Journal of Complexity, 15 (1)(1999) pp. 4-16.

[2] Hsing-Yen Ann, Chang-Biau Yang, Chiou-Ting Tseng, and Chiou-Yi Hor, A fast and simple algorithm for computing the longest common subsequence of run-length encoded strings, Information Processing Letters 108(2009) pp.360-364.

[3]O. Arbell, G. M. Landau, and J. S. B. Mitchell, Edit Distance of Run-Length Encoded Strings, Information Processing Letters 83(2002) pp. 307-314.

[4] Brenda S. Baker and Raffaele Giancarlo, Sparse Dynamic Programming for Longest Common Subsequence from Fragments, Journal of Algorithms, 42 (2002) pp. 231-254.

[5] Z. Bar-Yossef, T. S. Jayram, R. Krauthgamer, and R. Kumar, Approximating Edit Distance Efficiently, in: Proceedings of the 45th Annual IEEE Symposium on Foundations of Computer

(13)

Science, 2004.

[6] H. Bunke and J. Csirik, An Improved Algorithm for Computing the Edit Distance of Run Length Coded Strings, Information Processing Letters 54(1995) pp. 93-96.

[7] Y. J. Chen, J. J. Liu, and Y. L. Wang, An Optimal Rotation Distance Set, The Computer Journal, vol. 54(5), 2011, pp 824-830. (SCI) (NSC 97-2221-E-011-158-MY3)

[8] F.Y.L. Chin, A. De Santis, A. L. Ferrara, N. L. Ho, and S. K. Kim, A simple algorithm for the constrained sequence problem, Information Processing Letters 90 (2004) 175–179.

[9] Maxime Crochemore, Gad M. Landau, and Michal Ziv-Ukelson, A Subquadratic Sequence Alignment Algorithm for Unrestricted Scoring Matrices, SIAM Journal of Computing 32(6)(2003) pp. 1654-1673.

[10] M. Crochemore and W. Rytter, Jewels of Stringology, World Scientific, 2002.

[11] David Eppstein, Zvi Galil, Raffaele Giancarlo, and Giuseppe F. Italiano, Sparse Dynamic Programming I: Linear Cost Functions, Journal of the ACM, 39 (3) (1992) pp. 519-545.

[12] Valerio Freschi and Alessandro Bogliolo, Longest Common Subsequence between

Run-Length-Encoded Strings: a New Algorithm with Improved Parallelism, Information Processing Letters, 90 (4) (2004) pp. 167-173.

[13] Z. Galil and K. Park, Data Structures and Algorithms for Approximate String Matching, Journal of Comlexity 4(1988) pp. 33-72.

[14] Z. Galil and K. Park, An Improved Algorithm for Approximate String Matching, SIAM Journal on Computing 19(6)(1990) pp. 989-999.

[15] J. E. Go, Y. L. Wang, J. J. Liu, M. T. Ko, and Y. C. Lin, Resequencing Small Sequences Based on a Large Sequence, SIMA Journal on Computing, submitted. (SCI)

[16] D. Gusfield, Algorithms on Strings, Trees, and Sequences, Cambridge University Press, 1997.

[17] Daneiel S. Hirschberg, Algorithms for the Longest Common Subsequence Problem, Journal of the ACM, 24 (4) (1977) pp. 664-675.

[18] K. S. Huang, C. B. Yang, K. T. Tseng, Y. H. Peng, and H. Y. Ann, Dynamic programming algorithms for the mosaic longest common subsequence problem, Information Processing Letters, 102 (2007) pp. 99-103.

[19] James W. Hunt and Thomas G. Szymanski, A Fast Algorithm for Computing Longest Common Subsequences, Communications of the ACM, 20 (5) (1977) pp. 350-353.

[20] V. I. Levenshtein, Binary Codes Capable of Correcting, Deletions, Insertions and Reversals, Soviet Physics Doklady 10(1996) pp. 707-710.

[21] C. H. Lin, J. J. Liu, Y. L. Wang, and William C. K. Yen, The Hub Number of Sierpinski-like

(14)

Graphs, Theory of Computing Systems, vol. 49(3), 2011, pp 588-600. (SCI) (NSC 97-2221-E-011-158-MY3)

[22] Jia Jie Liu, Y. L. Wang, and R.C.T. Lee, Finding a Longest Common Subsequence between a Run-Length-Encoded String and an Uncompressed String, Journal of Complexity, 24(2008) pp.

173-184.

[23] Jia Jie Liu, G. S. Huang, Y. L. Wang, and R.C.T. Lee, Edit Distance for a Run-Length-Encoded String and an Uncompressed String, Information Processing Letters, 105 (2007) 12-16.

[24] Jia Jie Liu, Y. L. Wang, and Yu-Shan Chiou, The Constrained Longest Common Subsequence Problem with a Run-Length-Encoded String, Journal of Complexity, submitted. (SCI)

[25] W. J. Masek and M. S. Paterson, A Faster Algorithm for Comparing String Edit Distances, Journal of Computer System Sciences 20(1)(1980) pp. 18-31.

[26] K. Sayoood, E. Fow (Eds.), Introduction to Data Compression, second edition, Morgan Kaufmann, Los Altos, CA, 2000.

[27] J. Tarhio and E. Ukkonen, Approximate Boyer-Moore String Matching, SIAM Journal on Computing 22(2)(1993) pp. 243-260.

[28] E. Ukkonen, Algorithms for Approximate String Matching, Information and Control 64(1985) pp. 100-118.

[29] Y. L. Wang, C. J. Hsu, J. J. Liu, M. T. Ko, and F. H. Wang, A New Subclass of Integer Linear Programming Problems and Its Applications, IEEE Transactions on Computers, Accept(100/9/14).

(SCI) (NSC 97-2221-E-011-158-MY3)

(15)

四、 計劃成果自評

在 本 研 究 計 劃 中 , 與 計 劃 直 接 相 關 的 論 文 成 果 計 有 2 篇 , 分 別 為 "Resequencing Small Sequences Based on a Large Sequence"[15]及"The Constrained Longest Common Subsequence Problem with a Run-Length-Encoded String"[24]已分別投稿於"SIMA Journal on Computing"

與"Journal of Complexity"兩期刊中。與計劃間接相關的論文成果計有3篇,"An Optimal Rotation Distance Set”[7]、“The Hub Number of Sierpinski-like Graphs”[15]、”A New Subclass of Integer Linear Programming Problems and Its Applications”[29]分別發表於“The Computer Journal"、”Theory of Computing Systems”, 及“IEEE Transactions on Computers”(Accept)。因此,

我們認為本次的研究計劃結果非常的豐碩且成功。

(16)

1

國科會補助專題研究計畫項下出席國際學術會議心得報告

日期:100 年 10 月 18 日

一、參加會議經過

我於民國一百年九月六日至九月十日到泰國曼谷參加在RAMA Gardens Hotel舉行的“The

2011 International Computer Science and Engineering Conference”,研討會進行

期間為九月七日至九月九日。本次研討會是由 Kasetsart 大學工程學院的計算機工程

系所主辦。此研討會之目的為,使與會的學者互相認識,討論彼此的研究。進而希望能

整合不同領域的研究,而討論出創新的理論及架構。在此研討會所發表的論文共有51篇。

二、與會心得

計畫編號 NSC 97-2221-E-011-158-MY3

計畫名稱 在行程長度編碼字串中序列比對問題之研究(第 1 年)

出國人員

姓名 張舜傑 服務機構

及職稱 台灣科技大學資管系博士班學生 會議時間 100 年 9 月 7 日至

100 年 9 月 9 日 會議地點 RAMA Gardens Hotel, Bangkok,THAILAND

會議名稱

(中文)2011 國際計算機科學與工程研討會

(英文) The 2011 International Computer Science and Engineering

Conference

發表論文 題目

(中文)p 中心點問題在圖上的實用變型

(英文)Practical Variations of the p-Center Problem on Graphs 附件四

(17)

2

有幸參與在計算機科學研究領域中的國際學術會議,見識到許多精闢的研究工作。

此外,研討會的規模、知名度、與參與者,開闊了學生的眼界,在國外可以接觸到

不同國家的研究人員、學生,了解不同的思考方式,對於學生來說是增加國際觀與

學術歷練的一個很好機會。

而關於此次的會議地點,發覺還是有許多地方值得我們借鏡,首先是場地安排的問

題,此次的會議是在曼谷北部的 RAMA Gardens Hotel 舉辦,旅館的設備很好,但

是該區的交通實在不方便,從最近的捷運站坐計程車也要 20 分鐘才到旅館,加上泰

國有一些不肖計程車司機會藉機抬高車資,造成一些國外與會人員的困擾。

三、考察參觀活動(無是項活動者略)

四、建議

五、攜回資料名稱及內容

1.The 2011 International Computer Science and Engineering Conference 摘要

論文集。

2.收錄 The 2011 International Computer Science and Engineering Conference

論文全文的 4G 卡片式隨身碟

六、其他

(18)

國科會補助計畫衍生研發成果推廣資料表

日期:2011/10/31

國科會補助計畫

計畫名稱: 在行程長度編碼字串中序列比對問題之研究 計畫主持人: 王有禮

計畫編號: 97-2221-E-011-158-MY3 學門領域: 計算機理論與演算法

無研發成果推廣資料

(19)

97 年度專題研究計畫研究成果彙整表

計畫主持人:王有禮 計畫編號:97-2221-E-011-158-MY3 計畫名稱:在行程長度編碼字串中序列比對問題之研究

量化

成果項目 實際已達成

數(被接受 或已發表)

預期總達成 數(含實際已

達成數)

本計畫實 際貢獻百

分比

單位

備 註 質 化 說 明:如 數 個 計 畫 共 同 成 果、成 果 列 為 該 期 刊 之 封 面 故 事 ...

期刊論文 0 0 100%

研究報告/技術報告 0 0 100%

研討會論文 0 0 100%

論文著作

專書 0 0 100%

申請中件數 0 0 100%

專利 已獲得件數 0 0 100%

件數 0 0 100%

技術移轉

權利金 0 0 100% 千元

碩士生 0 0 100%

博士生 0 0 100%

博士後研究員 0 0 100%

國內

參與計畫人力

(本國籍)

專任助理 0 0 100%

人次

期刊論文 3 3 100%

研究報告/技術報告 0 0 100%

研討會論文 0 0 100%

論文著作

專書 0 0 100% 章/本

申請中件數 0 0 100%

專利 已獲得件數 0 0 100%

件數 0 0 100%

技術移轉

權利金 0 0 100% 千元

碩士生 0 0 100%

博士生 0 0 100%

博士後研究員 0 0 100%

國外

參與計畫人力

(外國籍)

專任助理 0 0 100%

人次

(20)

其他成果 (無法以量化表達之成 果如辦理學術活動、獲 得獎項、重要國際合 作、研究成果國際影響 力及其他協助產業技 術發展之具體效益事 項等,請以文字敘述填 列。)

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程/模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動/競賽 0

研討會/工作坊 0

電子報、網站 0

目 計畫成果推廣之參與(閱聽)人數 0

(21)

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價 值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)、是否適 合在學術期刊發表或申請專利、主要發現或其他有關價值等,作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■達成目標

□未達成目標(請說明,以 100 字為限)

□實驗失敗

□因故實驗中斷

□其他原因 說明:

2. 研究成果在學術期刊發表或申請專利等情形:

論文:■已發表 □未發表之文稿 □撰寫中 □無 專利:□已獲得 □申請中 ■無

技轉:□已技轉 □洽談中 ■無 其他:(以 100 字為限)

3. 請依學術成就、技術創新、社會影響等方面,評估研究成果之學術或應用價 值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)(以 500 字為限)

在本研究計劃中,與計劃直接相關的論文成果計有2篇,分別為’Resequencing Small Sequences Based on a Large Sequence’ [15]及’The Constrained Longest Common Subsequence Problem with a Run-Length-Encoded String’[24]已分別投稿於’SIMA Journal on Computing’與’Journal of Complexity’兩期刊中。與計劃間接相關的論 文成果計有3篇,’An Optimal Rotation Distance Set’[7]、’The Hub Number of Sierpinski-like Graphs’[15]、’A New Subclass of Integer Linear Programming Problems and Its Applications’[29]分別發表於’The Computer Journal’、’Theory of Computing Systems’, 及’IEEE Transactions on Computers’(Accept)。因此,我 們認為本次的研究計劃結果非常的豐碩且成功,並可藉由此次的研究成果能進一步地能有 更好的成果發展。

參考文獻

相關文件

• Examples of items NOT recognised for fee calculation*: staff gathering/ welfare/ meal allowances, expenses related to event celebrations without student participation,

We have made a survey for the properties of SOC complementarity functions and theoretical results of related solution methods, including the merit function methods, the

We have made a survey for the properties of SOC complementarity functions and the- oretical results of related solution methods, including the merit function methods, the

Then, we tested the influence of θ for the rate of convergence of Algorithm 4.1, by using this algorithm with α = 15 and four different θ to solve a test ex- ample generated as

Particularly, combining the numerical results of the two papers, we may obtain such a conclusion that the merit function method based on ϕ p has a better a global convergence and

Then, it is easy to see that there are 9 problems for which the iterative numbers of the algorithm using ψ α,θ,p in the case of θ = 1 and p = 3 are less than the one of the

In section 4, based on the cases of circular cone eigenvalue optimization problems, we study the corresponding properties of the solutions for p-order cone eigenvalue

We investigate some properties related to the generalized Newton method for the Fischer-Burmeister (FB) function over second-order cones, which allows us to reformulate the