第3章「台湾人日本語学習者コーパス」の量的分析 ─単一学校における縦断分析を中心に─
3. 調査概要 3.1 データの詳細
前章で 2008 学年後期までに集められた作文は、延べ 1,563 編 と述べた。ここでは、まずそのうちの「原文」と「修正文」との
電子化作業が終わった 2003 学年度 26 名のデータについて、縦断 分析を行ってみたい。
データの収集期間は 2003 年 9 月から 2004 年 6 月まで、収集 対象は南台科技大学応用日本語学科に在籍する 2 年生 26 名と 3 年生 27 名、計 53 名の学習者である。作文のテーマは前章に述べ た通りである。作文を収集する際、作文を研究目的に使うことに ついては、学習者本人から承諾書による同意を得るだけではなく、
学習者の個人データも記載してもらった。個人データには、学習 者の学年、学習時間数、塾での日本語学習歴、出身学校の種類、
日本語検定のレベルなどが含まれる。53 名のうち、時間通りに提 出しなかった被験者がいたり、承諾書に署名しなかった場合もあ り、すべての作文が揃っていない被験者もすくなくない。それゆ え今回は、作文数が少なくとも 9 回揃っている被験者のみを分析 の対象とし、それを下回る場合は、分析対象から除外した。よって、
本章の分析対象者は 26 名になる。
3.2 分析基準
本章は使用形態素数および誤用形態素数を検出するために、分 析対象とする 26 名の作文についてChaSen7で形態素分析を行った 結果のまとめである。被験者それぞれに関して個別的に形態素数 の量的変化を見るため、一作文につき①異なり形態素数、②延べ 形態素数、③異なり形態素数 ÷ 述べ形態素数(略称してKDT8)、
7 ChaSen は、奈良先端科学技術大学院大学の松本研究室で開発された形態素解 析ツールである。第 3 章と第 4 章を作成した際、本コーパスにはこの解析ツール を組み込んでいた。
8 略称のK は異なり形態素のローマ字の頭アルファベットを表し、D は ÷ 記号を、
T は延べ形態素を意味する。
④文の数、⑤文の平均的長さ(略称してMLS9)、を出力した。ま た、2003 学年度のデータについては教師による添削をタグとし て付加した「修正文」の電子作業が終わったため、タグの記号 < >
でマークされた誤用の部分に限って、⑥誤用異なり形態素数、⑦ 誤用延べ形態素数、というデータも出力した。さらに、以上の二 つの出力データに基づいて、⑧誤用異なり形態素数 ÷ 異なり形態 素数、⑨誤用延べ形態素数 ÷ 延べ形態素数、という二つの割合を 計算した。なお、それぞれの作文に現れたタグの種類と回数につ いても出力した10。
ここで、本章で使用する指標とそれに関する用語について説明 する。
(1) 形態素、異なり形態素、延べ形態素:
形態素とは固有の意味を持ち、かつそれ以上分解できない言語 の単位である。例えば、「便りのないのはよい便り」は「便り / の / ない / の / は / よい / 便り」のように 7 つの形態素に分解できる。
そのうち、それぞれの形態素の出現頻度は「便り 2、の 2、ない 1、
は 1、よい 1」であるため、延べ形態素数が 7、異なり形態素数が 5 になる11。
(2) 文の数:
「。」で陳述が終了するところまでを一文と計算する。すなわち、
一作文における句点の数が文の数になる。
9 松本(1999b:52)は1発話当たりの形態素数を MLU と称した。MLU は第 一言語で使われる言語発達指標の一つとされたが、本章では第二言語の作文を分 析対象として扱うので、文の長さの略称をMLS (Mean length of sentence)とする。
10 以上の①〜⑦およびタグに関するデータの出力は、成功大学情報工学系の大学 院生陳威男氏の協力を受けている。ここに陳威男氏に深く感謝の意を表したい。
11 形態素の定義および例は中川裕志「自然言語処理入門」( http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/)による。
(3) MLS:
延べ形態素数を文の数で割ったものである。一文において形態 素がいくつ使われているかを示す。作文の長さは人によって異な るため、延べ形態素と異なり形態素のほかに、文の長さを量的な 増加を測る一指標として用いる。
(4) 異なり形態素数 ÷ 述べ形態素数(略称して KDT):
一作文中に出現した異なり形態素数を述べ形態素数で割った数 値で、この数値はどの程度形態素に多様性があるかの大まかな指 標になると考えられる。
(5) 誤用:
作文の授業を担当していたネイティブの日本語教師12の認定によ る。電子化作業におけるタグの記号 < > でマークされた学習者の 誤用の部分である。なお、「誤用異なり形態素数 ÷ 異なり形態素数」
は、一作文中に出現した誤用の部分のみを対象に計算した誤用異 なり形態素数を、一作文全体を対象に計算した異なり形態素数で 割った数値である。また、「誤用延べ形態素数 ÷ 延べ形態素数」は、
一作文中に出現した誤用の部分のみを対象に計算した誤用延べ形 態素数を、一作文全体を対象に計算した延べ形態素数で割った数 値である。この二つの数値は、言語発達の指標ではなく、一作文 中に誤用の形態素が出現した比率になる。
12 2003 学年度における誤用例の添削は、堀伸一朗先生と関口要先生の協力を受 けている。