• 沒有找到結果。

二、 系統技術探討

2.4 語料庫

2.4.6 CLEC實例說明

表 2-4 的作文是 CLEC 樣本中的 ST2 類型,我們可以很清楚的看到,所有 CLEC 中的句子都是使用 XML 語法來標記,XML 它是一九八六年國際標準組 織(International Standards Organization, ISO)公佈的一個名為「標準通用標示 語言」(Standard Generalized Markup Language, SGML)的精簡版/子集合。

XML 掌握了 SGML 其延展性、文件自我描述特性、以及其強大的文件結構化

功能,但 XML 卻摒除了 SGML 過於龐大複雜以及不易普及化的缺點。字面上

來看 XML 是一種標示語言,但嚴格來說它和 SGML 一樣是一種「元語言」

性別不詳,<SCH GDWYWMDXFSWYXX >就讀學校使用代號,<TITLE A Shop>代表本篇的作文題目是 A Shop,其餘部份 03~11 列就是考生主要的作

文內容了。標示問號的部分代表沒有作者的該項資訊;另外由於 ST2 類型的學

<ST 2> <SEX ?><Y ?> <SCH GDWYWMDXFSWYXX> <AGE ?>

<WAY ?><DIC ?> <TYP 2> <TITLE A Shop>

There is a fruit shop near my home. its [fm3, 1-] name is Many [fm1,-]

fruit shop. It's not very big, but it's clean and bright. There is [vp3,-2] two women working in it. The women are very friendly [wd2, 1-] and busy.

Every buyer comes to the shop, they both give them smiles and say.

[sn9, s] Hello. Can I help you? So every buyer comes to here are very satisfy. [sn8,s]The shop has many different kinds of fruit. There are apples [sn9, s]oranges bananes [fm1,-]pears bananas many [wd6].

[sn8,s] So it aways [fm1,-] give [vp3, 1-] the buyers a good time. I like the shop very much.

以下是 CLEC 中錯誤標記的方式,分為錯誤位置、錯誤類型與錯誤範圍標

記。錯誤位置是在句子當中使用方括號標記在錯誤單字的後方,括號中左邊標 示錯誤類型,右邊則標示出錯誤範圍,如03 列後方:its [fm3, 1-] name is Many [fm1,-] fruit shop.,即表示此句中 its、Many 兩個字是錯誤位置,而錯誤類型 分別是 fm3(大小寫錯誤)、fm1(拼字錯誤)。

至於針對錯誤範圍標示部分,有以下幾種分類,分別說明如下(詳細請參閱

[19]):

1. 錯誤字前方導致錯誤:

05 列:The women are very friendly [wd2, 1-] and busy.

括號中錯誤範圍標示的 1 在-號前,表示是 friendly 是錯誤,是因為往前

數一個字的位置的字導致該字發生錯誤,也就是因為 very 也是副詞,而導

致錯誤。

2. 錯誤字後方導致錯誤:

04 列:There is [vp3,-2] two women working in it.

括號中錯誤範圍標示的 2 在-號後,仍表示是 is 發生錯誤,但原因是後方

的兩個字two women 所導致的。

3. 本身錯誤:

03 列:its [fm3, 1-] name is Many [fm1,-] fruit shop.

此句所示的第二個括號,在-號前後並沒有任何數字標示,此即表示並沒

有其他的字導致 Many 發生錯誤,是這個字本身就拼錯,並非原本作者所

要使用的字。

4. 句中結構或標點錯誤:

08 列:There are apples [sn9,s] oranges bananes [fm1,-] pears…

此句的第一個錯誤標示範圍僅用一個 s 表示,此代表是句中的結構或標點

發生錯誤,因此這裡發生錯誤的原因,在於表示多個名詞的時候,需要用 逗點分開。

了解錯誤的標記方式與相關資訊之後,在下一章將會詳細的介紹如何利用 這些分類資訊,以設計實作系統。

相關文件