コーパス言語学 3.1　コーパスとは何か

第１章　先行研究の概観

3.　コーパス言語学 3.1　コーパスとは何か

『応用言語事典』では、「コーパス」を次のように定義している。

言語学的研究を前提に収集された言語資料の集合体（斉藤・

中村・赤野　1998）。コンピュータ技術の発展・普及に伴い、コンピュータによる処理が可能な大量の言語資料の集合体、すなわち「電子化コーパス」が一般的となっている。（p.

608）

また、JACET SLA 研究会（2005）で述べられているコーパスとは「大規模な言語資料の総体」である。すなわち、現代の一般的な定義は「機械可読」となっており、電子化したデータベースとも言える。

3.2　コーパスの下位分類 3.2.1　収集方法に基づく分類

コーパスは言語資料の収集方法に基づいて、第 1 に、収集される言語資料の量が一定であるサンプル・コーパス（sample corpus）

と、常に新しい言語資料を追加して最新の言語情報を提供するモニター・コーパス（monitor corpus）とに分類される。第 2 に、地方言語や第 2 言語学習者など特定領域・話者の言語研究のために作成・利用される特殊目的コーパス（special purpose corpus）と、

総合的な言語研究を目的とした汎用コーパス（general purpose cor-pus）とに分類される（『応用言語事典』p. 608）。

3.2.2　バランスト・コーパスと学習者コーパス

応用言語学の分野で使用されているコーパスは大きく二種類に分けることができる。それについてJACET SLA 研究会（2005）

では次のように述べている⁴。

まず一つはBritish National Corpus（BNC）や Wordbanks のように、英語母語話者の話し / 書きことばを「大量に（通常数億語単位）」、「バランスよく」収集し、対象言語である英語が

「一般的に」どのように使用されているのかを調べるのに適した「サンプル・コーパス」、あるいは「バランスト・コーパス（balanced corpus）」が挙げられる。（中略）これら大規模な母語話者のコーパスに対して、特殊な研究目的のために作られた「特殊コーパス」の中には、古中英語を集めた歴史コーパス（Helsinki Corpus 他）、英語母語話者の子供の発話を集め言語習得の過程を観察することを目的としたコーパス（ CHIL-DES 他）、そして英語学習者の話しことばや書き言葉を集めた学習者コーパス [ICLE（International Corpus of Leaner English）

プロジェクトによる各学習者コーパス他 ] などがある。

その中でICLE は英語を母語としない 19 言語の大学生が書いた短文を収録対象としており、日本の国立国語研究所の日本語作文コーパスと性質を同じくしている。JACET SLA 研究会（2005）

においても述べられているように、これらのコーパスは横断的方法で資料を収集しているが、学習者コーパス全体の構成は縦断的性質を持っている（p. 239）。これは近年の学習者コーパスの画期的な特徴であり、従って今では長年に亘るコーパスの横断分析だ

4 JACET SAL研究会（2005: 237）による。なお「話しことば」「書き言葉」という表記の違いについてはママ。

けでなく、縦断分析も可能になっている。これはコーパス研究にとって非常に重要な点である。

3.3　日本と台湾におけるコーパスの発展状況 3.3.1　日本の場合

2005 年から、国立国語研究所は、現代日本語の書き言葉を収録したデータベース「書き言葉コーパス」の構築に乗り出した。

これは 2010 年までの 5 年計画で、約 5 億円の開発予算を盛り込み、イギリス英語を集めた世界最高水準と言われるBNC の１億語を上回る規模を目指しているという。この「書き言葉コーパス」は、

収録対象を 1970 年代から現在までに刊行された書籍や新聞・雑誌、法律、公文書とし、一部はインターネット上の文書にまで広げることで、バランスト・コーパスにする。この「書き言葉コーパス」は国立国語研究所の「コーパス整備計画KOTONOHA」（http://

www2.kokken.go.jp/kotonoha/ex_1.html）の一環で、もう一方の柱である「日本語話し言葉コーパス」（「CSJ」：Corpus of Spontaneous Japanese）はすでに 2004 年 5 月に公開されている。学会での研究発表や一般的なスピーチ、すなわちモノローグを中心とする現代日本語の自然な話し言葉のコーパスである。CSJ には 1,417 人、

計 662 時間、およそ 752 万語分の音声が記録されており、音声を提供する話し言葉コーパスとしては世界最大規模のコーパスとなっている。

また、通信・放送機構（TAO）は平成 10 年から「先端技術移転加速型研究開発」を行った。このプロジェクトにおいて、通信総合研究所（CRL）京阪奈情報通信融合研究センターでは、「適合型コミュニケーション技術の研究開発」と平成 12 年に開始した。日本人の英語を対象に 3 年間で 300 時間を目標として、SST

（Standard Speaking Test）コーパス、すなわち誤りを含む日本人の英語発話の言語情報付データベース（学習者発話コーパス）の作成と公開を行った。学習者の発話コーパスとしては現在、世界最大規模といわれ、言語研究の分野で注目を浴びている。

3.3.2　台湾の場合

上述のように、世界において英語に関するコーパスの構築は非常に盛に行われており、また日本語に関するコーパスも盛んになりつつあることが分かる。台湾におけるコーパスの製作数は中央研究所が最も多く、現代漢語均衡コーパス（現在 500 万語）、中文句結構樹データベース、台灣南島語數位典藏、近代漢語標記コーパス、先秦金文簡牘詞彙データベース、新世紀コーパス（口語語言）、語言座標、中英雙語知識本體詞網（http://Language Archives.

sinica.edu.tw）、および Chinese Wordsketch and Chinese Gigaword Corpus がある。

3.4　学習者コーパス

朝尾（1998: 238）では、「学習者コーパス」を「その言語を外国語として学んでいる学習者が書いたり、話したりしたものを、

コンピュータ可読な形式で大量に記録したもの」と定義している。

学習者コーパスの応用について、小池（2004: 319）では、次のように述べている。

この学習者コーパスを用いることで、単に学習者の誤りを分析するだけでなく、学習者の言語運用（performance）の全体像を探り、さらに学習言語の母語話者によるコーパスとの比較分析を通して学習者だけに見られる言語運用の特徴を明ら

かにすることもできる。そして、当然のことながら、そういった特徴をもたらす要因（例えば学習者の母語の影響によるもの等）についても研究することができる。

3.4.1　日本の場合

近年、誤用研究とコーパス研究の結合が重視されており、「日本語学習者の作文コーパス：電子化による共有資源化」（平成 8 年度

− 10 年度科学研究費補助金基盤研究（A）（1）、研究代表者：大曾美惠子）の研究がなされ、データは全面的に公開はされていないが、ホームページ上で研究成果の一部を見ることができた（http://

cookie.lang.nagoya-u.ac.jp/pub/）。

日本語作文コーパスの作成では、国立国語研究所の研究規模のものが最も大きい。国立国語研究所は、「作文教育改善のためのデータベース･ツール活用」の計画において、2002 年 12 月に「拡大研究会」を開催し、さらに、収集した作文資料を「日本語学習者による日本語作文と、その母語訳との対訳データベースver.2 正式公開版」としてCD-ROM に収め、教育研究者に提供している。そのコーパスは 2004 年よりインターネット上（http://www2.kokken.

go.jp/eag/）で、登録者向けに公開を始めた。CD-ROM 版の ver.2 は 10 種の言語資料を収集し、そのうち中国語資料は 89 篇あるが、

台湾人学習者の作文は 3 篇のみで、全体の僅か 3 パーセントを占めるにとどまっている。一方、名古屋大学の研究は 15 篇を公開しているが、全て英語圏の学生による作文であり、国立国語研究所のインターネット版コーパスには中国語対訳文もなく、中国語圏の学習者の作文も収録されていない。こういった現状は台湾の日本語教師および研究者にとっては、利用できる作文コーパスが非常に限られていることを意味する。したがって本稿の「台湾人

日本語学習者コーパス」の作成は、その必要に迫られて製作を開始したと言っても過言ではない。

3.4.2　台湾の場合

清華大学の劉顯親教授の指導のもと、英語教材コーパスの CAN-DLE が作成された。その他の言語に関しては、成功大学の盧慧娟教授がすでにスペイン語作文コーパスの作成に着手しており、技術面は同大学の情報工学系が支援を行っている。成功大学情報工学系の盧文祥助教授はコーパス構築が専門であり、コーパス構築での技術面に精通されている。

日本語の学習者コーパスについては、東呉大学において陳淑娟教授の指導のもと、東呉大学の学生約 30 人を対象に 4 年間（2004 年 3 月〜 2007 年 5 月）の作文データ（書き言葉）と、インタービューによって口頭表現（話し言葉）を集めた学習者コーパスLARP at SCU （Language Acquisition Research Project at Soochow University）

を構築し、縦断的データとして貴重なコーパスになった。ただし、LARP at SCU コーパスには添削が行われておらず、誤用タグは使用者に任せる形になっている。また、データを使用する際、

EmEditor をダウンロードしてから検索を行わねばならないので、

コンピュータ操作に慣れていない使用者にとっては練習が必要である。

本稿における「台湾人日本語学習者コーパス」の作成は、台湾における 13 の大学の日本語学習者が書いた作文を集め、誤用タ

在文檔中 The Construction & Research of Multilingual Corpora (頁 144-150)

コーパス言語学 3.1 コーパスとは何か

第１章 先行研究の概観

3. コーパス言語学 3.1 コーパスとは何か

第１章　先行研究の概観

3.　コーパス言語学 3.1　コーパスとは何か