1.データベースについて
このデータベースは,学習者言語に関わるさまざまな研究に資することを目的としてACTFL-OPIの口頭能力試験の方式を利用して収集されたものです。以下に概要を示します。詳細については, 「日本語学習者会話データベースの利用手引き」(PDF)をご覧ください。
2.データ数と種類
収集されたデータ数は合計390件,1データは約30分です。そのうち,339件の文字化データと215件の音声データを公開しています。
3.データ収集の方法と時期
データの収集時期は以下の通りです。
データ番号001〜090 2007年2月〜4月
データ番号091〜186 2007年7月〜10月
データ番号187〜390 2007年11月〜2008年1月
4.個人情報の保護
固有名詞等で個人の特定に結びつきそうな情報に関しては,文字化データはアルファベットに置き換え,音声にはホワイトノイズをかけてマスキングを行っています。また収集データの取り扱いに関しては,「国立国語研究所個人情報管理規定」に従っています。
5.文字化について
文字化データはできうる限り音声を忠実に映すことを目標としましたが,ポーズの長さやイントネーション,あいづち,発話の重なり等,本来文字で表しにくい情報に加え,外国語母語話者の発音を日本語の文字に置き換えるという困難さがあり,以下に述べる手順を踏んだものの,完全とはいいがたい面があります。このデータベースでは,音声データも公開していますので,データの利用にあたっては,研究の目的に合わせて,必要情報を追加・修正しお使いください。
(1)文字化の原則
文字化の原則は以下の通りです。
日本語学習者会話データベース文字化原則
- 行番号 :
- 表示しない
- 話者の表記 :
- I:インフォーマント T:テスター
- 改行 :
- 話者交替で改行。発話の主導権をどちらが持っているかをおおまかな原則とする
- 発話文の定義 :
- 文の単位は考慮しない。従って「。」は用いない
- 発話の重なり :
- 示さない
- 割り込み :
- 示さない
- 聞きとり不能箇所 :
- おおよその音節数を*の数で示す
- ポーズ・間 :
- 「,」で示す。長さは考慮しない
- あいづち :
- 一般的にあいづちとみなされる発話は〈 〉で,相手の発話の中のおおよその位置に挿入
- 長音 :
- ひらがなで表記されることが一般的な長音以外はその長さにかかわらず「ー」1つで示す。言い癖で文末語尾を延ばすような発音の場合は原則として表記していない
- イントネーション :
- 表記しない
- 非言語行動等 :
- 笑いや発話に関係しそうな非言語行動は{ }で示す
- 引用発話 :
- 「 」で示す
- 書籍等のタイトル :
- 『 』で示す
- 表記(外来語・外国語) :
- 外来語も外国語も原則カタカナ。聞こえたようにカタカナ表記する
(2)時間情報,固有名詞,記号
音声データと対応する時間情報や固有名詞の置き換えは以下の通りです。
- 音声時間情報 :
- 2分ごとに,文字化テキスト上に「★02★」「★04★」...のマークを挿入
- 固有名詞の処理 :
- 個人の特定に結びつくと思われる情報は以下の通りアルファベットへの置き換えを行っています。
テスター(T:)→ A
- 例:
- 【姓名A】,【姓A】,【名A】 ニックネームは【名A】扱いとし,どちらかわからないときは【姓?名?A】 インフォーマントも同様
テスター,インフォーマント以外の情報の置き換えはカテゴリーにかかわらず「C」から順にアルファベットで示す。(例:大学名→ 【大学名C】,日本語学校名→【日本語学校名D】,会社名→ 【会社名E】,店名→ 【店名F】,地名→ 【地名I】,駅名→ 【駅名J】) - 表記(複数)の読み方 :
- 漢字に複数の読み方がある場合は原則としてひらがなで示しています。など/等(とう),なん/何(なに),わたくし・あたし/私(わたし)のように,漢字とひらがなを使い分けている場合もあります。発話者が意味を把握していない場合もひらがなです。
- 補足 :
- 言い間違いや言いよどみなど,発音どおりに表記すると意味がわかりづらいと思われる場合等は,[ ]で当該の語を補足しています。
6.データ項目
データ項目は(1)データ番号(2)OPIレベル(3)年齢(4)性別(5)出身国(6)母語(7)職業等(8)日本滞在期間(9)日本語学習期間(参考)(10)日本語能力試験合格情報(参考)です。インフォーマントの属性情報は原則として本人の記述のままとしていますが,不明や不確実な場合は「?」を付け加えました。
(9)日本語学習期間については,年数等で測りにくい上,「日本での日本語学習期間」と誤解して申告した可能性のあるデータがあるので参考項目としています。(10)日本語能力試験合格情報も記載があった場合のみの参考項目です。合格年は情報を得ていません。
7.OPIレベル
「OPIレベル」の判定は,テスター(試験官)によるファーストレイティング,別のテスター認定者によるセカンドレイティングを行いました。両者が一致しなかった場合は,さらにサードレイティングを行いました。その結果2つのレベルが付いたデータに関しては,下位のレベルを表示しています。
8.担当
このプロジェクトの担当者は以下の通りです。
国立国語研究所日本語教育基盤情報センター整備普及グループ
企画・総括 : 野山広(グループ長)
データベース作成・整備担当 : 早田美智子,高橋悦子,塩谷由美子(非常勤研究員)
データ収集・協力 : 日本語学習者会話コーパス研究会(鎌田修・嶋田和子・山内博之)