• 沒有找到結果。

─データの収集および電子化と作成技術を中心に─

2.  データの収集

「台湾人日本語学習者コーパス」に格納されている作文データは、

2003 学年度より収集が開始された。本稿では 2008 学年度までに 集められた作文のデータについて報告を行う。

2008 学年度までに集められた作文は、2003 学年度分データ2と して 53 名 408 篇、2006 学年度前期分データとして 269 名 269 篇、2006 学年度後期分データとして 268 名 268 篇、2007 学年 度前期分データとして 195 名 195 篇、2007 学年度後期分データ として 171 名 171 篇、2008 学年度前期分データは 172 名 172 篇、

2008 学年度後期分データは 52 名 80 篇、延べ作文数計 1,563 篇 である。

2006 から 2007 年度にかけてのデータの収集は地域の均衡を考 えて、台湾の北部、中部、南部にある 8 つの大学を対象に調査し た3。なお、2006 〜 2007 学年度のデータを収集する際、なるべく 同一被験者に対して2年間続けて調査を行うように心掛けた。表 3、表 4、と表 5 の重複人数は、同一被験者に対する調査結果を表し、

2006 学年度の前期と後期の重複人数が 214 名 214 篇、2006 学 年度の前期・後期と 2007 学年度の前期の重複人数が 103 名 103 篇、2006 学年度の前期・後期と 2007 学年度の前期・後期の重複 人数が 68 名 68 篇となっている。

作文を収集する際、調査日、学校名、学級、学習時間、学校以外 での日本語学習歴(塾と日本在住経験)、出身校の種類(日本語専 攻かどうか)、日本語能力試験の試験結果(1,2,3,4 級あるいは未受

2 この期間のデータは黄・関(2005)および関口ら(2005)で収集されたもの である。

3 調査にあたり各校のクラスを担当している先生方から多大なるご協力を頂い た。ここに深く感謝の意を表したい。

験)、および母語などの基本データも同時に入手する。学習時間に 関しては、各校の毎週の日本語授業時間数の差が大きく、学習年数 をレベルの区分の基準にすることが出来ないため、「毎週の必修の 日本語の授業時間数 × 毎学期の週数 × 日本語を学習した学期数」

という計算式により学習時間を計算している。被験者の学習時間 は、日本語学習者の場合は 300 〜 2,100 時間と大きく異なっている。

また、中には高校で日本語を習ったことがある者や、日本へ交換留 学したことのある者、かつて日本に住んでいた者など、特殊な背景 があることがあり、その場合は、後続研究のために、すべて作成者 の基本データに注記を加えることにした。1 作文の長さについては 8 〜 78 文と開きがあり、1 文の長さは平均 8 〜 26.7 形態素となっ ている。作文の題目については、個人に関すものから社会に関する ものなどがあるので、詳細なデータの概要を以下に示す。

2.1 2003学年度分データ

2003 学年度に収集されたデータの詳細を以下に示す。

ⅰ . 収集期間

2003 年 9 月から 2004 年 6 月まで。

ⅱ . 収集の対象と方法

南台科技大学応用日本語学科に在籍する 2 年生 26 名(181 篇)

と 3 年生 27 名(227 篇)の学習者。どちらも作文の授業にお いて書かれたもので、計 53 名、408 篇の作文を集めた。

ⅲ . 作文のテーマ

作文のテーマは、a.「自己紹介」、b.「夏休みの生活」、c.「私の好 きな映画」、d.「私の実家」、e.「私のお気に入りの店」、f.「思い出 の旅行」、g.「うわさ話」、h.「高校時代の私」、i.「私の宝物」、j.「お すすめの料理と作り方」、k.「ニュースを見て考えたこと」、「私の夢」l. 、 m.「勉強について」の 13 種類である。詳細は以下の表 1 である。

表1. 2003学年度分データの詳細

作文テーマ 3年生 2年生

人数 調査日 人数 調査日 1 自己紹介 12 2003/9/17 20 2003/9/19 2 夏休みの生活 22 2003/10/15 21 2003/10/9 3 私の好きな映画 24 2003/10/22 21 2003/10/21 4 私の実家 22 2003/11/28 17 2003/11/18 5 私のお気に入りの店 23 2003/12/10 21 2003/12/9 6 思い出の旅行 18 2003/12/30 19 2003/12/18 7 うわさ話 5 2004/1/8 20 2004/2/19 8 高校時代の私 24 2004/3/9 18 2004/3/15 9 私の宝物 21 2004/3/23 24 2004/3/29 10 おすすめの料理と作り方 19 2004/5/4 未調査 11 ニュースを見て考えたこと 14 2004/5/18 未調査 12 私の夢 11 2004/6/15 未調査 13 勉強について 12 2004/6/18 未調査

2.2 2006学年度前期分データ

2006 学年度前期のデータの詳細を表 2 に示す。なお、表にお ける「採用人数」とは、調査に参加してくれた学習者の人たちの 人数ではなく、調査に参加し、かつコーパスでの利用に同意(承 諾書に署名)してくれた人たちの人数である(以下の表について も同様)。また作文のテーマは「思い出」である。

表2. 2006学年度前期分データの詳細

学校名 学級 採用人数 調査日

東海大学 3 22 2006/12/12 南台科技大学 3 21 2006/12/11

淡江大学 3 29 2006/10/5 3 32 2006/11/15 高雄第一科技大学 3 34 2006/12/6 文藻外語学院(四技) 3 37 2006/11/15

東呉大学 2 29 2006/11/16 2 25 2006/11/16 台湾大学 2 21 2006/11/21 義守大学 2 19 2006/12/7

合計人数 269人

作文数 269篇

2.3 2006学年度後期分データ

2006 学年度後期のデータの詳細を表 3 に示す。また作文につ いては、ストーリー・テリング4を行った。方法としては、Mercer Mayer(1969)の絵本 Frog, where are you? の一部を抜粋し、学習 者たちに抜粋部分のストーリーを自ら考え、その内容を書いて貰っ た5。また抜粋部分は絵本の中盤としたが(pp. 13-24)、ストーリー が分かるように、その前半部分と後半部分も資料として配布し た6

4 コーパスにおけるテーマ別のデータ抽出画面では、「ナラティブ(n a r r a -tive)」とした。

5 絵の中の未習と思われる語彙については、こちらから日本語の読み方と中国語 の意味を示した。

6 作文を書き始める前に、まずはストーリ全体に目を通してから書き始めるよう 説明した。

表 3. 2006 学年度後期分データの詳細7

学校名 学級 調査人数 重複人数7 採用人数 調査日 東海大学 3 9名 7名 9名 2007/5/22 南台科技大学 3 22名 21名 21名 2007/5/2

淡江大学 3 28名 27名 28名 2007/5/10 3 28名 22名 28名 2007/6/20 高雄第一科技大学 3 33名 30名 32名 2007/6/20 文藻外語学院(四技) 3 42名 30名 42名 2007/5/2

東呉大学 2 28名 24名 27名 2007/5/3 2 30名 25名 27名 2007/5/3 台湾大学 2 19名 19名 19名 2007/4/24 義守大學 2 37名 9名 35名 2007/5/28 合計人数 276人 214人 268人

作文数 276篇 214篇 268篇

2.4 2007学年度前期分データ

2007 学年度前期のデータの詳細を表 4 に示す。また作文のテー マは「○○は□□すべきだ」というものにした。この作文のテー マは社会や学校で問題となっていることについて、自らテーマを 設定して学習者たちに書いて貰ったものである。なお、具体的な テーマが思い浮かばない場合は、(a)台湾はビンロウの販売を禁 止するべきだ、(b)台湾は大学入試制度を変更するべきだ、(c)

警察は厳しく違法駐車を取り締まるべきだ、(d)私たちの学校は 卒業資格試験を行うべきだ、(e)台湾は野良犬を駆除すべきだ、(f)

台湾は徴兵制度を廃止すべきだ、の中から一つを選んで書いても よいものとした。

7 ここの重複人数とは、2006学年度前期調査分と重なっている人数のことであ る。

表4. 2007学年度前期分データの詳細8

学校名 学級 調査人数 重複人数8 採用人数 調査日 東海大学 4 3名 3名 3名 2007/12/10 南台科技大学 4 15名 13名 15名 2007/12/4

淡江大学 4 未調査

高雄第一科技大学 4 29名 27名 29名 2007/10/29 文藻外語学院(四技) 4 33名 11名 33名 2007/11/27 東呉大学 3 21名 20名 20名 2007/12/21 3 21名 12名 17名 2007/12/21 義守大學 3 21名 2名 21名 2007/12/3 台湾大学 3 19名 8名 19名 2007/11/29

3 38名 7名 38名 2007/12/25 合計人数 200人 103人 195人

作文数 200篇 103篇 195篇

なお表 4 の「淡江大学」については、当初は調査を依頼した担 当者から了解の返事を頂いていたが、調査当日に学内での急な催 事が入ったため、調査を行うことができなかった。

2.5 2007学年度後期分データ

2007 学年度前期のデータの詳細を表 5 に示す。また作文のテー マは、今の社会について不満に思うことを書いて貰った。その不 満についての具体的なテーマを設定して、考え方や解決方法につ いて書いて貰った。コーパスにおけるテーマ別のデータ抽出画面 では、「社会問題」とした。

8 ここの重複人数とは、2006学年度前期と後期調査分と重なっている人数のこ とである。

なお、2007 学年度後期のデータを収集する際、調査の対象と なるクラスを担当している先生方のご協力により、調査の終了後、

被験者の意向を聞いた上、中国語で訳文を書くことにも同意した 人に限り、作文の中国語訳も提出して貰った。

表5. 2007学年度後期分データの詳細9

学校名 学年 調査人数 重複人数9 採用人数 調査日 東海大学 4 3名 3名 3名 2008/4/15 南台科技大学 4 30名 11名 30名 2008/3/18

淡江大学 4 未調査

高雄第一科技大学 4 10名 8名 10名 2008/3/27 文藻外語学院(四技) 4 17名 1名 16名 2008/4/14 東呉大学 3 24名 19名 23名 2008/5/2

3 25名 12名 23名 2008/5/2 義守大學 3 19名 1名 18名 2008/3/31 台湾大学 3 28名 7名 28名 2008/4/29 3 21名 6名 20名 2008/5/1 合計人数 177人 68人 171人

作文数 177篇 68篇 171篇

2.6 2008学年度前期分データ

2008 学年度前期のテーマは「台湾と日本の違うところ」とした。

これを大きなテーマとし、そして更に「衣」「食」「住」「育」「楽」「そ の他」の中から自分で小さなテーマを一つ選んで書いて貰った。

9 ここの重複人数とは、2006学年度前期・後期調査分および2007学年度前期調 査分と重なっている人数のことである。

表6. 2008学年度前期分データの詳細

学校名 学年 調査人数 採用人数 調査日 静宜大学 3 27名 27名 2008/11/18 中国文化大学 3 37名 37名 2008/11/25 屏東商業技術学院 2 22名 22名 2008/11/12 2 22名 22名 2008/11/12 銘傳大学 2 34名 34名 2008/11/27 2 30名 30名 2008/11/27 合計人数 172人 172人

作文数 172篇 172篇

2.7 2008学年度後期分データ

表 7 に示したものは 2008 学年度後期に収集したデータである。

2008 学年度後期のデータは二種類に分けられる。中国文化大学 のデータは 2008 学年度前期分と同じ日本語学科のクラスを対象 に調査したものである。テーマは「地球温暖化について考えたこ と」というものにした。地球温暖化について、自分が読んだ記事 や、自分が観察した現象を例として挙げ、それに対して自分はど う思うか、また温暖化対策として自分が普段していること、など について書いて貰った。一方、成功大学のデータは 3 年間日本語 を第二外国語として履修した外国語文学科の学生 17 名を対象に 3

2008 学年度後期のデータは二種類に分けられる。中国文化大学 のデータは 2008 学年度前期分と同じ日本語学科のクラスを対象 に調査したものである。テーマは「地球温暖化について考えたこ と」というものにした。地球温暖化について、自分が読んだ記事 や、自分が観察した現象を例として挙げ、それに対して自分はど う思うか、また温暖化対策として自分が普段していること、など について書いて貰った。一方、成功大学のデータは 3 年間日本語 を第二外国語として履修した外国語文学科の学生 17 名を対象に 3