調査概要 3.1　データの詳細

第３章「台湾人日本語学習者コーパス」の量的分析　　─単一学校における縦断分析を中心に─

3.　調査概要 3.1　データの詳細

前章で 2008 学年後期までに集められた作文は、延べ 1,563 編と述べた。ここでは、まずそのうちの「原文」と「修正文」との

電子化作業が終わった 2003 学年度 26 名のデータについて、縦断分析を行ってみたい。

データの収集期間は 2003 年 9 月から 2004 年 6 月まで、収集対象は南台科技大学応用日本語学科に在籍する 2 年生 26 名と 3 年生 27 名、計 53 名の学習者である。作文のテーマは前章に述べた通りである。作文を収集する際、作文を研究目的に使うことについては、学習者本人から承諾書による同意を得るだけではなく、

学習者の個人データも記載してもらった。個人データには、学習者の学年、学習時間数、塾での日本語学習歴、出身学校の種類、

日本語検定のレベルなどが含まれる。53 名のうち、時間通りに提出しなかった被験者がいたり、承諾書に署名しなかった場合もあり、すべての作文が揃っていない被験者もすくなくない。それゆえ今回は、作文数が少なくとも 9 回揃っている被験者のみを分析の対象とし、それを下回る場合は、分析対象から除外した。よって、

本章の分析対象者は 26 名になる。

3.2　分析基準

本章は使用形態素数および誤用形態素数を検出するために、分析対象とする 26 名の作文についてChaSen⁷で形態素分析を行った結果のまとめである。被験者それぞれに関して個別的に形態素数の量的変化を見るため、一作文につき①異なり形態素数、②延べ形態素数、③異なり形態素数 ÷ 述べ形態素数（略称してKDT⁸）、

7 ChaSen は、奈良先端科学技術大学院大学の松本研究室で開発された形態素解析ツールである。第 3 章と第 4 章を作成した際、本コーパスにはこの解析ツールを組み込んでいた。

8 略称のK は異なり形態素のローマ字の頭アルファベットを表し、D は ÷ 記号を、

T は延べ形態素を意味する。

④文の数、⑤文の平均的長さ（略称してMLS⁹）、を出力した。また、2003 学年度のデータについては教師による添削をタグとして付加した「修正文」の電子作業が終わったため、タグの記号 < >

でマークされた誤用の部分に限って、⑥誤用異なり形態素数、⑦ 誤用延べ形態素数、というデータも出力した。さらに、以上の二つの出力データに基づいて、⑧誤用異なり形態素数 ÷ 異なり形態素数、⑨誤用延べ形態素数 ÷ 延べ形態素数、という二つの割合を計算した。なお、それぞれの作文に現れたタグの種類と回数についても出力した¹⁰。

ここで、本章で使用する指標とそれに関する用語について説明する。

（1）　形態素、異なり形態素、延べ形態素：

形態素とは固有の意味を持ち、かつそれ以上分解できない言語の単位である。例えば、「便りのないのはよい便り」は「便り / の / ない / の / は / よい / 便り」のように 7 つの形態素に分解できる。

そのうち、それぞれの形態素の出現頻度は「便り 2、の 2、ない 1、

は 1、よい 1」であるため、延べ形態素数が 7、異なり形態素数が 5 になる¹¹。

（2）　文の数：

「。」で陳述が終了するところまでを一文と計算する。すなわち、

一作文における句点の数が文の数になる。

9 松本（1999b：52）は１発話当たりの形態素数を MLU と称した。MLU は第一言語で使われる言語発達指標の一つとされたが、本章では第二言語の作文を分析対象として扱うので、文の長さの略称をMLS （Mean length of sentence）とする。

10 以上の①〜⑦およびタグに関するデータの出力は、成功大学情報工学系の大学院生陳威男氏の協力を受けている。ここに陳威男氏に深く感謝の意を表したい。

11 形態素の定義および例は中川裕志「自然言語処理入門」（ http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/）による。

（3）　MLS：

延べ形態素数を文の数で割ったものである。一文において形態素がいくつ使われているかを示す。作文の長さは人によって異なるため、延べ形態素と異なり形態素のほかに、文の長さを量的な増加を測る一指標として用いる。

（4）　異なり形態素数 ÷ 述べ形態素数（略称して KDT）：

一作文中に出現した異なり形態素数を述べ形態素数で割った数値で、この数値はどの程度形態素に多様性があるかの大まかな指標になると考えられる。

（5）　誤用：

作文の授業を担当していたネイティブの日本語教師¹²の認定による。電子化作業におけるタグの記号 < > でマークされた学習者の誤用の部分である。なお、「誤用異なり形態素数 ÷ 異なり形態素数」

は、一作文中に出現した誤用の部分のみを対象に計算した誤用異なり形態素数を、一作文全体を対象に計算した異なり形態素数で割った数値である。また、「誤用延べ形態素数 ÷ 延べ形態素数」は、

一作文中に出現した誤用の部分のみを対象に計算した誤用延べ形態素数を、一作文全体を対象に計算した延べ形態素数で割った数値である。この二つの数値は、言語発達の指標ではなく、一作文中に誤用の形態素が出現した比率になる。

12 2003 学年度における誤用例の添削は、堀伸一朗先生と関口要先生の協力を受けている。

3.3　2003学年度分データについての分析

在文檔中 The Construction & Research of Multilingual Corpora (頁 192-196)

調査概要 3.1 データの詳細

第３章「台湾人日本語学習者コーパス」の量的分析 ─単一学校における縦断分析を中心に─

3. 調査概要 3.1 データの詳細

3.3 2003学年度分データについての分析

第３章「台湾人日本語学習者コーパス」の量的分析　　─単一学校における縦断分析を中心に─

3.　調査概要 3.1　データの詳細

3.3　2003学年度分データについての分析