• 沒有找到結果。

コーパス言語学 3.1 コーパスとは何か

第1章 先行研究の概観

3.  コーパス言語学 3.1 コーパスとは何か

『応用言語事典』では、「コーパス」を次のように定義している。

言語学的研究を前提に収集された言語資料の集合体(斉藤・

中村・赤野 1998)。コンピュータ技術の発展・普及に伴 い、コンピュータによる処理が可能な大量の言語資料の集合 体、すなわち「電子化コーパス」が一般的となっている。(p.

608)

また、JACET SLA 研究会(2005)で述べられているコーパス とは「大規模な言語資料の総体」である。すなわち、現代の一般 的な定義は「機械可読」となっており、電子化したデータベース とも言える。

3.2 コーパスの下位分類 3.2.1 収集方法に基づく分類

コーパスは言語資料の収集方法に基づいて、第 1 に、収集され る言語資料の量が一定であるサンプル・コーパス(sample corpus)

と、常に新しい言語資料を追加して最新の言語情報を提供するモ ニター・コーパス(monitor corpus)とに分類される。第 2 に、地 方言語や第 2 言語学習者など特定領域・話者の言語研究のために 作成・利用される特殊目的コーパス(special purpose corpus)と、

総合的な言語研究を目的とした汎用コーパス(general purpose cor-pus)とに分類される(『応用言語事典』p. 608)。

3.2.2 バランスト・コーパスと学習者コーパス

応用言語学の分野で使用されているコーパスは大きく二種類に 分けることができる。それについてJACET SLA 研究会(2005)

では次のように述べている4

まず一つはBritish National Corpus(BNC)や Wordbanks のよ うに、英語母語話者の話し / 書きことばを「大量に(通常数 億語単位)」、「バランスよく」収集し、対象言語である英語が

「一般的に」どのように使用されているのかを調べるのに適し た「サンプル・コーパス」、あるいは「バランスト・コーパ ス(balanced corpus)」が挙げられる。(中略)これら大規模な 母語話者のコーパスに対して、特殊な研究目的のために作ら れた「特殊コーパス」の中には、古中英語を集めた歴史コー パス(Helsinki Corpus 他)、英語母語話者の子供の発話を集め 言語習得の過程を観察することを目的としたコーパス( CHIL-DES 他)、そして英語学習者の話しことばや書き言葉を集めた 学習者コーパス [ICLE(International Corpus of Leaner English)

プロジェクトによる各学習者コーパス他 ] などがある。

その中でICLE は英語を母語としない 19 言語の大学生が書い た短文を収録対象としており、日本の国立国語研究所の日本語作 文コーパスと性質を同じくしている。JACET SLA 研究会(2005)

においても述べられているように、これらのコーパスは横断的方 法で資料を収集しているが、学習者コーパス全体の構成は縦断的 性質を持っている(p. 239)。これは近年の学習者コーパスの画期 的な特徴であり、従って今では長年に亘るコーパスの横断分析だ

4 JACET SAL研究会(2005: 237)による。なお「話しことば」「書き言葉」と いう表記の違いについてはママ。

けでなく、縦断分析も可能になっている。これはコーパス研究に とって非常に重要な点である。

3.3 日本と台湾におけるコーパスの発展状況 3.3.1 日本の場合

2005 年から、国立国語研究所は、現代日本語の書き言葉を収 録したデータベース「書き言葉コーパス」の構築に乗り出した。

これは 2010 年までの 5 年計画で、約 5 億円の開発予算を盛り込 み、イギリス英語を集めた世界最高水準と言われるBNC の1億語 を上回る規模を目指しているという。この「書き言葉コーパス」は、

収録対象を 1970 年代から現在までに刊行された書籍や新聞・雑 誌、法律、公文書とし、一部はインターネット上の文書にまで広 げることで、バランスト・コーパスにする。この「書き言葉コー パス」は国立国語研究所の「コーパス整備計画KOTONOHA」(http://

www2.kokken.go.jp/kotonoha/ex_1.html)の一環で、もう一方の柱で ある「日本語話し言葉コーパス」(「CSJ」:Corpus of Spontaneous Japanese)はすでに 2004 年 5 月に公開されている。学会での研 究発表や一般的なスピーチ、すなわちモノローグを中心とする現 代日本語の自然な話し言葉のコーパスである。CSJ には 1,417 人、

計 662 時間、およそ 752 万語分の音声が記録されており、音声 を提供する話し言葉コーパスとしては世界最大規模のコーパスと なっている。

また、通信・放送機構(TAO)は平成 10 年から「先端技術移 転加速型研究開発」を行った。このプロジェクトにおいて、通信 総合研究所(CRL)京阪奈情報通信融合研究センターでは、「適 合型コミュニケーション技術の研究開発」と平成 12 年に開始し た。日本人の英語を対象に 3 年間で 300 時間を目標として、SST

(Standard Speaking Test)コーパス、すなわち誤りを含む日本人の 英語発話の言語情報付データベース(学習者発話コーパス)の作 成と公開を行った。学習者の発話コーパスとしては現在、世界最 大規模といわれ、言語研究の分野で注目を浴びている。

3.3.2 台湾の場合

上述のように、世界において英語に関するコーパスの構築は非 常に盛に行われており、また日本語に関するコーパスも盛んにな りつつあることが分かる。台湾におけるコーパスの製作数は中央 研究所が最も多く、現代漢語均衡コーパス(現在 500 万語)、中 文句結構樹データベース、台灣南島語數位典藏、近代漢語標記コー パス、先秦金文簡牘詞彙データベース、新世紀コーパス (口語語 言)、語言座標、中英雙語知識本體詞網(http://Language Archives.

sinica.edu.tw)、および Chinese Wordsketch and Chinese Gigaword Corpus がある。

3.4 学習者コーパス

朝尾(1998: 238)では、「学習者コーパス」を「その言語を外 国語として学んでいる学習者が書いたり、話したりしたものを、

コンピュータ可読な形式で大量に記録したもの」と定義している。

学習者コーパスの応用について、小池(2004: 319)では、次の ように述べている。

この学習者コーパスを用いることで、単に学習者の誤りを分 析するだけでなく、学習者の言語運用(performance)の全体 像を探り、さらに学習言語の母語話者によるコーパスとの比 較分析を通して学習者だけに見られる言語運用の特徴を明ら

かにすることもできる。そして、当然のことながら、そういっ た特徴をもたらす要因(例えば学習者の母語の影響によるも の等)についても研究することができる。

3.4.1 日本の場合

近年、誤用研究とコーパス研究の結合が重視されており、「日本 語学習者の作文コーパス:電子化による共有資源化」(平成 8 年度

− 10 年度科学研究費補助金基盤研究(A)(1)、研究代表者:大 曾美惠子)の研究がなされ、データは全面的に公開はされていな いが、ホームページ上で研究成果の一部を見ることができた(http://

cookie.lang.nagoya-u.ac.jp/pub/)。

日本語作文コーパスの作成では、国立国語研究所の研究規模の ものが最も大きい。国立国語研究所は、「作文教育改善のためのデー タベース ・ ツール活用」の計画において、2002 年 12 月に「拡大 研究会」を開催し、さらに、収集した作文資料を「日本語学習者 による日本語作文と、その母語訳との対訳データベースver.2 正式 公開版」としてCD-ROM に収め、教育研究者に提供している。そ のコーパスは 2004 年よりインターネット上(http://www2.kokken.

go.jp/eag/)で、登録者向けに公開を始めた。CD-ROM 版の ver.2 は 10 種の言語資料を収集し、そのうち中国語資料は 89 篇あるが、

台湾人学習者の作文は 3 篇のみで、全体の僅か 3 パーセントを占 めるにとどまっている。一方、名古屋大学の研究は 15 篇を公開 しているが、全て英語圏の学生による作文であり、国立国語研究 所のインターネット版コーパスには中国語対訳文もなく、中国語 圏の学習者の作文も収録されていない。こういった現状は台湾の 日本語教師および研究者にとっては、利用できる作文コーパスが 非常に限られていることを意味する。したがって本稿の「台湾人

日本語学習者コーパス」の作成は、その必要に迫られて製作を開 始したと言っても過言ではない。

3.4.2 台湾の場合

清華大学の劉顯親教授の指導のもと、英語教材コーパスの CAN-DLE が作成された。その他の言語に関しては、成功大学の盧慧娟 教授がすでにスペイン語作文コーパスの作成に着手しており、技 術面は同大学の情報工学系が支援を行っている。成功大学情報工 学系の盧文祥助教授はコーパス構築が専門であり、コーパス構築 での技術面に精通されている。

日本語の学習者コーパスについては、東呉大学において陳淑娟 教授の指導のもと、東呉大学の学生約 30 人を対象に 4 年間(2004 年 3 月〜 2007 年 5 月)の作文データ(書き言葉)と、インタービュー によって口頭表現(話し言葉)を集めた学習者コーパスLARP at SCU (Language Acquisition Research Project at Soochow University)

を構築し、縦断的データとして貴重なコーパスになった。ただ し、LARP at SCU コーパスには添削が行われておらず、誤用タグ は使用者に任せる形になっている。また、データを使用する際、

EmEditor をダウンロードしてから検索を行わねばならないので、

コンピュータ操作に慣れていない使用者にとっては練習が必要で ある。

本稿における「台湾人日本語学習者コーパス」の作成は、台湾 における 13 の大学の日本語学習者が書いた作文を集め、誤用タ

本稿における「台湾人日本語学習者コーパス」の作成は、台湾 における 13 の大学の日本語学習者が書いた作文を集め、誤用タ