C-JASとは?
C-JASとは、Corpus of Japanese As a Second languageの略で、 日本で日本語を第二言語として学んでいる学習者の発話コーパスです。 このコーパスは、外国人の日本語習得に興味を持ち、研究する方々や日本語教師の方々に利用していただきたいと考えて作成しました。
このコーパスには、以下の通り3つの特徴があります。
- 2つの異なった母語の特定の学習者を約3年間調査して収集したデータである
- 文法習得の研究を目的として収集された自然な会話データである
- コーパス検索アプリケーション「中納言」で使用できる
第二言語習得研究は、母語とは別に学ぶ外国語・第二言語の学習・習得にかかわるさまざまな現象を研究する分野ですが、データが不可欠です。 このコーパスがその分野の研究や日本語指導の資料として少しでも貢献できればと思います。
なお、C-JASは、以前公開をしていた検索システムから、コーパス検索アプリケーション「中納言」での公開に移行しました。その際、データに以下の修正を加えています。
- 誤用タグを削除し、I-JAS(多言語母語の日本語学習者横断コーパス International Corpus of Japanese as a Second Language)と同様のタグを付与して再解析
- 第3者の話者記号を「NNS1」「NNS2」・・から「L2」「L3」・・に変更
- 個人情報の伏字表記を修正(I-JASの表記と統一)
- 文字化ミス・文字化漏れを修正
(2021年6月)
データの概要
C-JASのデータ概要は以下の通りである。
(1)学習者の概要
- 中国語母語話者3名(C1~C3:女性)
- 韓国語母語話者3名(K1~K3:女性1名、男性2名)
(2)環境
- 日本における教室環境学習者
- 1 年目
- 同日本語学校在籍
- 2 年目以降
- それぞれ進学(大学、専門学校、語学学校)
(3)調査時期
- 日本語学習約3ヵ月から約3年間(3~4ヶ月ごとに調査)
(4)データの内訳
- 調査
- 1人につき7~8回(1回約60分)
- データ量
- 47本(計約46時間30分 約57万語)
- 調査形式
- 日本語母語話者との自由会話形式(調査期ごとに共通の話題を設定)