日本語学習者会話データベース

データベース概要:「日本語学習者会話データベース」について

研究概要

背景

1990年の入管法の改正・施行以来,我が国に在留する外国人登録者数は増加の一途を辿り,家族を伴った外国人定住者の数も増えてきています。現在,多様な言語・文化背景を持った幅広い年齢層の人々が,地域社会のさまざまな場面で,日本人と多様なかかわりを持ちながら生活していますが,今後もこの状況は続くものと推測されます。こうした多様な価値観を持った人々が共存する社会を多文化共生社会とするならば,社会状況に応じた外国人受入れのための適切な方策が必要となってくるとともに,日本語の学習を必要とする住民(言語生活者)の需要に応じた言語教育の展開も,ますます期待されてくることでしょう。

目的

このデータベースは,こうした展開の充実へ向けた基礎資料として活用されるべく,以下の1.〜3.を目標として構築されるものです。

  1. 多文化共生社会に対応した日本語教育方法・内容の構築に向けた基礎資料を提供すること
  2. 多角的な観点からのデータベース作りを試み,成果を報告することによって,複合領域としての日本語会話研究や日本語教員養成の新たな展開に貢献すること
  3. 口頭能力テストの重要性や多義性について喚起するとともに,その評価の過程やフィードバック等を通じて得られる情報の有意義性に関する認識の深化を促すこと

今後の展望−この調査を通して得られる情報の有意義性など

これらの目標を掲げながら,国立国語研究所の本中期計画(2005〜2009年度)の間に,留学生・就学生をはじめ,地域で生活する外国人住民の日本語会話能力の状況について,できる限りその実態を探るべく,ACTFL-OPI(全米外国語教育協会認定の面接式口頭能力テスト)を活用して,調査を試みようとするものです。

この研究において,「日本語(で行う)コミュニケーション」を,仮に「ヒト,モノ,コトなどとの間に何らかの関係性を作るために,日本語(ことば・音声)そのものや,身体表現等を活用して,ある方向に働きかけをすること」と定義するならば,OPIという限られた会話場面ではあるにしても,日本語を用いた自然会話(に限りなく近い)場面でのコミュニケーションの実態を把握することができるものと考えます。

「日本語教育データベースの構築 日本語学習者会話データベースの方向性」 (2007.8 調査時説明資料より)

データ概要

1.データベースについて

 このデータベースは,学習者言語に関わるさまざまな研究に資することを目的としてACTFL-OPIの口頭能力試験の方式を利用して収集されたものです。以下に概要を示します。詳細については, 「日本語学習者会話データベースの利用手引き」(PDF)をご覧ください。

2.データ数と種類

 収集されたデータ数は合計390件,1データは約30分です。そのうち,339件の文字化データと215件の音声データを公開しています。

3.データ収集の方法と時期

 データの収集時期は以下の通りです。

データ番号001〜090  2007年2月〜4月
データ番号091〜186  2007年7月〜10月
データ番号187〜390  2007年11月〜2008年1月

4.個人情報の保護

 固有名詞等で個人の特定に結びつきそうな情報に関しては,文字化データはアルファベットに置き換え,音声にはホワイトノイズをかけてマスキングを行っています。また収集データの取り扱いに関しては,「国立国語研究所個人情報管理規定」に従っています。

5.文字化について

 文字化データはできうる限り音声を忠実に映すことを目標としましたが,ポーズの長さやイントネーション,あいづち,発話の重なり等,本来文字で表しにくい情報に加え,外国語母語話者の発音を日本語の文字に置き換えるという困難さがあり,以下に述べる手順を踏んだものの,完全とはいいがたい面があります。このデータベースでは,音声データも公開していますので,データの利用にあたっては,研究の目的に合わせて,必要情報を追加・修正しお使いください。

(1)文字化の原則

 文字化の原則は以下の通りです。

日本語学習者会話データベース文字化原則

行番号 :
表示しない
話者の表記 :
I:インフォーマント  T:テスター
改行 :
話者交替で改行。発話の主導権をどちらが持っているかをおおまかな原則とする
発話文の定義 :
文の単位は考慮しない。従って「。」は用いない
発話の重なり :
示さない
割り込み :
示さない
聞きとり不能箇所 :
おおよその音節数を*の数で示す
ポーズ・間 :
「,」で示す。長さは考慮しない
あいづち :
一般的にあいづちとみなされる発話は〈  〉で,相手の発話の中のおおよその位置に挿入
長音 :
ひらがなで表記されることが一般的な長音以外はその長さにかかわらず「ー」1つで示す。言い癖で文末語尾を延ばすような発音の場合は原則として表記していない
イントネーション :
表記しない
非言語行動等 :
笑いや発話に関係しそうな非言語行動は{ }で示す
引用発話 :
「 」で示す
書籍等のタイトル :
『 』で示す
表記(外来語・外国語) :
外来語も外国語も原則カタカナ。聞こえたようにカタカナ表記する
(2)時間情報,固有名詞,記号

 音声データと対応する時間情報や固有名詞の置き換えは以下の通りです。

音声時間情報 :
2分ごとに,文字化テキスト上に「★02★」「★04★」...のマークを挿入
固有名詞の処理 :
個人の特定に結びつくと思われる情報は以下の通りアルファベットへの置き換えを行っています。
テスター(T:)→ A
  例:
【姓名A】,【姓A】,【名A】  ニックネームは【名A】扱いとし,どちらかわからないときは【姓?名?A】 インフォーマントも同様
インフォーマント(I:)→ B
テスター,インフォーマント以外の情報の置き換えはカテゴリーにかかわらず「C」から順にアルファベットで示す。(例:大学名→ 【大学名C】,日本語学校名→【日本語学校名D】,会社名→ 【会社名E】,店名→ 【店名F】,地名→ 【地名I】,駅名→ 【駅名J】)
表記(複数)の読み方 :
漢字に複数の読み方がある場合は原則としてひらがなで示しています。など/等(とう),なん/何(なに),わたくし・あたし/私(わたし)のように,漢字とひらがなを使い分けている場合もあります。発話者が意味を把握していない場合もひらがなです。
補足 :
言い間違いや言いよどみなど,発音どおりに表記すると意味がわかりづらいと思われる場合等は,[ ]で当該の語を補足しています。

6.データ項目

 データ項目は(1)データ番号(2)OPIレベル(3)年齢(4)性別(5)出身国(6)母語(7)職業等(8)日本滞在期間(9)日本語学習期間(参考)(10)日本語能力試験合格情報(参考)です。インフォーマントの属性情報は原則として本人の記述のままとしていますが,不明や不確実な場合は「?」を付け加えました。
 (9)日本語学習期間については,年数等で測りにくい上,「日本での日本語学習期間」と誤解して申告した可能性のあるデータがあるので参考項目としています。(10)日本語能力試験合格情報も記載があった場合のみの参考項目です。合格年は情報を得ていません。

7.OPIレベル

 「OPIレベル」の判定は,テスター(試験官)によるファーストレイティング,別のテスター認定者によるセカンドレイティングを行いました。両者が一致しなかった場合は,さらにサードレイティングを行いました。その結果2つのレベルが付いたデータに関しては,下位のレベルを表示しています。

8.担当

このプロジェクトの担当者は以下の通りです。

 国立国語研究所日本語教育基盤情報センター整備普及グループ
  企画・総括 : 野山広(グループ長)
  データベース作成・整備担当 : 早田美智子,高橋悦子,塩谷由美子(非常勤研究員)
  データ収集・協力 : 日本語学習者会話コーパス研究会(鎌田修・嶋田和子・山内博之)

トップに戻る