C-JAS logo

C-JASとは?

C-JASとは、Corpus of Japanese As a Second languageの略で、 日本で日本語を第二言語として学んでいる学習者の発話コーパスです。 このコーパスは、外国人の日本語習得に興味を持ち、研究する方々や日本語教師の方々に利用していただきたいと考えて作成しました。

このコーパスには、以下の通り3つの特徴があります。

  1. 2つの異なった母語の特定の学習者を約3年間調査して収集したデータである
  2. 文法習得の研究を目的として収集された自然な会話データである
  3. コーパス検索アプリケーション「中納言」で使用できる

第二言語習得研究は、母語とは別に学ぶ外国語・第二言語の学習・習得にかかわるさまざまな現象を研究する分野ですが、データが不可欠です。 このコーパスがその分野の研究や日本語指導の資料として少しでも貢献できればと思います。

なお、C-JASは、以前公開をしていた検索システムから、コーパス検索アプリケーション「中納言」での公開に移行しました。その際、データに以下の修正を加えています。

  1. 誤用タグを削除し、I-JAS(多言語母語の日本語学習者横断コーパス International Corpus of Japanese as a Second Language)と同様のタグを付与して再解析
  2. 第3者の話者記号を「NNS1」「NNS2」・・から「L2」「L3」・・に変更
  3. 個人情報の伏字表記を修正(I-JASの表記と統一)
  4. 文字化ミス・文字化漏れを修正

(2021年6月)


データの概要

C-JASのデータ概要は以下の通りである。

(1)学習者の概要
(2)環境
1 年目
同日本語学校在籍
2 年目以降
それぞれ進学(大学、専門学校、語学学校)
(3)調査時期
(4)データの内訳
調査
1人につき7~8回(1回約60分)
データ量
47本(計約46時間30分 約57万語)
調査形式
日本語母語話者との自由会話形式(調査期ごとに共通の話題を設定)

ダウンロード

  1. テキストデータ
  2. データ概要

C-JASテキストデータは クリエイティブ・コモンズ 表示-非営利-改変禁止 4.0 国際 ライセンスの下に提供されています。
クリエイティブ・コモンズ・ライセンス

検索システム

  1. コーパス検索アプリケーション「中納言」

ご利用にあたって

『C-JAS』を利用した研究成果等を発表される際は、必ず『C-JAS』を利用したことを明示し、以下の文献の情報を明記してください。

  1. 迫田久美子・佐々木(木下)藍子・小西円・李在鎬(2014)『C-JAS (Corpus of Japanese as a second language) 構築に関する報告書』大学共同利用機関法人 人間文化研究機構 国立国語研究所 日本語教育研究・情報センター
    ※上記報告書は下記サイトよりダウンロードできます。
    https://www2.ninjal.ac.jp/jll/lsaj/pageid269.html

プロジェクト

国立国語研究所共同研究プロジェクト「多文化共生社会における日本語教育研究」(2009~2015年度)