一貫処理プログラムは、漢字仮名混じり書きされた日本語の文章を自動的に分かち 書きし、漢字に読み仮名をつけ、語に品詞情報をつけるプログラムです。
プログラムは、それまでの研究の成果を受け、1980年に中野洋がPL/Iで作り、国際 会議COLING80で発表しました。次に国立国語研究所での特別研究「語彙調査の自動化 のための基礎的研究」により、1988年にパソコンで動くようにするために C言語で書 き替えました。この作業は山田雅一が行いました。詳しくは、中野洋「パソコンによ る語の認定処理」(国立国語研究所研究報告集12、1991)を参照してください。
標記プログラム・辞書を使用するには、次の条件を守らなければなりません。
1.使用料は、研究用には無料。その他の場合には、国立国語研究所に連絡すること。
2.第3者に複写、配布してもよい。ただし、このファイルを含むすべてのファイルを そのままの形で複写すること。
3.このファイルは、使用時に容易に参照できるようにしておくこと。
4.プログラムおよび辞書の内容について保証しない。またこれを使用して生じたいか なる損害についても責任を負わない。
5.アフタケアはしない。
6.著作権は、国立国語研究所に帰属する。
7.プログラム・辞書は予告なく改変される。その最新版は国立国語研究所の中野の ホームページ(http://www.kokken.go.jp/)から入手できる。
8.改良情報があれば、E-mailで国立国語研究所・中野洋に報告されたい。
9.このプログラムまたは辞書の使用によって得た研究成果の発表には、
国立国語研究所・中野洋「一貫処理プログラム・辞書」(1996.9.10)
を使用したことを明記すること。
東京都北区西が丘34
国立国語研究所 中野 洋
プログラム名 機能 KAIDOK EXE 漢字解読 KAIDOK1 EXE 漢字解読 KAN IDX 漢字解読字書索引 KAN TBL 漢字解読字書 KANARO TBL かなローマ字変換表 KNJ2ASC EXE 漢字ASCII変換 NAP EXE 一貫処理 NAPOUT EXE 一貫処理KWIC出力 OUTPUT EXE KWIC出力 PARTS0 EXE 品詞認定 PARTS2 EXE 品詞認定 POSTBL1 TBL 品詞認定接続テーブル POSTBL2 TBL 品詞認定接続テーブル PRTSTR TBL 品詞認定接続テーブル RAMREN TBL 終止形変換テーブル RENYOU TBL 終止形変換テーブル SEGMENT EXE 単語分割 SEGMENT TBL 単語分割文字列辞書 SUPER EXE 一貫処理詳しくは、文献中野(1991)を参照してください。辞書・テ−ブル類の増補・変更 によって精度が上がることがあります。
1. KAIDOK 読み仮名付け 操作法 kaidok ( < 入力ファイル名 > 出力ファイル名) 入出力ファイル 入出力ファイル名を省略すると、キーボード入力、画面出力となる。 キーボード入力の場合、入力データの最後は、(CTRL/Z)だけ。 出力結果は、1文字1行。固定長。 入力:2バイト, 文字種:1バイト, 読み:8バイト, 単位情報:1バイト 文字種記号は 漢字:L 平仮名:H 片仮名:K 記号:E。 -> は、プログラムが出す入力を促すための記号。 操作例 kaidok < kaidok.in > kaidok.out 入力データ例 kaidok.in 朝早く起きた。気持ちが良かった。学校での勉強もはかどった。 出力データ例 kaidok.out ここでは3段で示す。 朝Lあさ 気Lキ 0 学Lガク 早Lはや 0 持Lも 校Lコウ くH ちH でH 起Lお 0 がH のH きH 良Lよ 勉Lベン たH かH 強Lキョウ 。E っH もH たH はH 。E かH どH っH たH 。E 使用プログラムおよび辞書 kaidok.exe kan.tbl kan.idx 2. SEGMENT 単語分割 操作法 segment 入力ファイル 入力ファイル kaidokの出力と同じフォーマット。 出力結果は、kaidok結果の後に、品詞:1バイト、活用1:バイトがつく。 単位情報は、0:非分割、1:分割(その文字の直後で切るの意) 品詞情報 1 名詞 A 接続詞 B 感動詞 C 副詞 D 連体詞 E 動詞 M 形容詞 P 助動詞 Q 助動詞または助詞 R 助詞 Y 記号 X 数字 活用情報 8 未然形 9 連用形 # 未然形または連用形 H 終止形 I 連体形 + 終止形または連体形 Q 仮定形 R 命令形 操作例 segment < kaidok.out > segment.out 入力ファイル kaidok.out KAIDOK 参照 出力ファイル segment.out 朝Lあさ 気Lキ 0 学Lガク 早Lはや 0 持Lも 校Lコウ 1 くH 1 ちH 1 でH 1Q9 起Lお 0 がH 1R のH 1R きH 1 良Lよ 1 勉Lベン たH 1P+ かH 0R 強Lキョウ 1 。E 1 っH 1 もH 1R たH 1P+ はH 1R 。E 1 かH 1R どH 0 っH 1 たH 1P+ 。E 1 使用プログラム・辞書 segment.exe segment.tbl super.exe 単語分割・語形による品詞認定 3. PARTS0 品詞認定 語形による品詞認定 操作法 parts0 < 入力ファイル名 > 出力ファイル名 4. PARTS2 品詞認定 接続による品詞認定 操作法 parts2 < 入力ファイル名 > 出力ファイル名 入力ファイル segment の出力と同じフォーマット。 segment の結果を利用し、さらに語形および接続情報を用いて品詞認定をする。 操作例 parts0 < segment.out > parts0.out parts2 < parts0.out > parts2.out 入力ファイル segment.out SEGMENT 参照 出力ファイル parts2.out 朝Lあさ 気Lキ 0 学Lガク 早Lはや 0 持Lも 校Lコウ 11 くH 1E+ ちH 11 でH 1Q9 起Lお 0 がH 1R のH 1R きH 1E9 良Lよ 11 勉Lベン たH 1P+ かH 0R 強Lキョウ 11 。E 1Y っH 1E9 もH 11 たH 1P+ はH 11 。E 1Y かH 1R どH 0 っH 1E9 たH 1P+ 。E 1Y 使用プログラム・辞書 parts0.exe 品詞認定 語形による品詞認定 parts2.exe 品詞認定 接続による品詞認定 super.exe 単語分割・語形による品詞認定 postbl1.tbl 助詞辞書 postbl2.tbl 品詞辞書 prtstr.tbl 助詞・助動詞接続勿 以下省略。日本語研究用プログラム集MCLを用いた、一貫処理を用いた語彙 調査法などを文献に紹介している。 中野洋(1996)「パソコンによる日本語研究法入門」(笠間書院)第2章から引用 以上 (1996.9.12)