インタビュー

Vol.11

文字文献とコンピュータの橋渡し(後編)

高田智和

2013.11.05

超漢字マガジンインタビューは、前回に続き、国立国語研究所で日本語の文字表記や漢字の情報処理について研究されている、新進気鋭の日本語学者、高田智和先生です。
後半は、コンピュータでの文字の取り扱いに関するさまざまなプロジェクトについて、また現在研究中の文字資料についてお話を伺いました。

行政で使う文字を整備する二つの事業


――学生時代に「漢字字体規範史データベース」とJIS拡張の研究をされていて、国語研究所に来てからは「汎用電子情報交換環境整備プログラム」に携われたのですね。

「汎用電子情報交換環境整備プログラム」は、国立国語研究所が経済産業省の委託を受けてやっていた調査研究事業です。第1期と第2期があって、私が国語研究所に来たときは、第1期の4年目にあたる最終年度でした。そのあと第2期が3年続いて、それからさらにフォローアップがあって、結局私が一番長く関わりました。「汎用電子情報交換環境整備プログラム」は、「日本の行政で扱う、地名・人名にも使う漢字を調査して集積する」というのがミッションでした。扱ったのは「住民基本台帳ネットワークシステム統一文字」と「戸籍統一文字」と「登記統一文字」の三つです。この三つがあればだいたいところはカバーできるだろうという予測のもとで、都合7万字くらいになりました。

ただ、残念なことに実態がないんですよね。「住民基本台帳ネットワークシステム統一文字」と言っても、住民基本台帳ネットワークシステムで実際に使われている文字の総体ではありません。「戸籍統一文字」と言っても、戸籍で実際に使われている文字の総体ではない。「登記統一文字」もそう。結局、「住民基本台帳ネットワークシステム統一文字」は住基ネットのシステムを動かすための、システム用の文字集合で、そのために作った文字集合なんです。住民の名前や地名を実際に書いた文字の集まりではない。戸籍統一文字に至っては、「戸籍に書くことができる文字」の集合なので、その中にある文字だったら戸籍に書いていいよという話なんです。戸籍統一文字は5万字ということになっていますが、書いていいよという文字が全部戸籍に使われているわけがないので、日本の人の名前や土地の名前を書くのにこの5万字では足りないものもいらないものもあるでしょう。およそ漢和辞典にあれば戸籍に書けるというルールなので、戸籍統一文字には諸橋大漢和辞典の見出し字がほぼ全部入っているわけですが、でも諸橋大漢和辞典の見出し字が全部日本人の名前に使われているかといったら、そんなことはないわけですよね。諸橋大漢和辞典には、歴史上のどこかの文献に出てきた川の名前だったり、木の名前だったりとか、そういう典籍の文字もありますから。そういう典籍の文字は典籍を扱うときには必要でしょうけれど、現代の日本の行政を念頭に置いたときは、ちょっと違うかなと思います。だから7万字集めても、その中のどの文字がどのくらい使われているかは、結局わからないんです。そういう意味で「実態がない」ことが残念なところです。

――当時の資料や報告書を拝見すると、いろいろな漢字を集められていて、大変興味深かったのですが、現地にも行かれたのですか。

地名文字では現地に行ったことがあります。現地の自治体にお話を聞きに行ったりとか、資料館に行って過去の地籍を確認したりということが、ときどきありました。

――どのくらい、地方に文字を見に行かれましたか。

十数回だと思います。東北が多かったですね。福島県はよく行きました。福島は昔の地籍を残しているので、福島の資料館に行って地籍を見せていただいたりして、文字の同定をしました。福島の海岸のほうも……実際に調査に行ったところですから、調査に行ったあそこの自治体は大丈夫なのか心配です。

――印象に残っている漢字はありますか。

そうですね、いくつかありますが……最初のころに調査に行った「「與」の異体字」(「與」の異体字)ですかね。形も印象的ですし。実際に宮城県の自治体に行ったところ、まず役場の住民課で「今はこういう字は使っていないが、昔は使っていたみたいだ」と教えてもらいました。住民課の方も関心があったようで、現地に一緒についてきてくださって、現地にお住まいの方に聞いたら、「こんな字は見たことがない。これは嘘字だ」と言われて(笑)。それでご自身の健康保険証を見たら、その字で書かれていた、というようなことがあって印象に残っていますね。自治体さんでは「與」に変えて運用していますが、ほかの行政システムではまだ使われていたということのようです。どこかの調査の段階のものが残っていて、住基システムの統一文字に入ったようです。

――もともとは手書きでさらっと書いたものがそのまま残ってしまったんですね。こういう異体字はけっこう多いですよね。

手書き由来のものですね。私は扱いにパターンが二つあるように思うんです。こういうものの場合、「俺の字はこれだ」と何らかの主張をされる方と、「これは嘘字だから普通の字に変えてくれ」という方と、二通りの反応があります。それで「俺はこの字だ」というほうは声が大きいですから、皆さんそちらの主張に注目するわけですけれど、「これは通じないし、ほかの人が見ても変だと思うから直してくれ」という方も、実は相当数いるのではないかと、現地調査をしていて思いました。本人が気づいていないこともありましたし。「俺はこの字だ」「漢字は文化だ」「どんどん増やせ」みたいな方向に行きがちなのですが、そうじゃない意見も一方ではあるのだということも、本来は伝えないといけないのでしょう。どうも片方しか出ていないような気がします。だからこういう事業をやると、新聞報道などで「7万字もあって、渡辺の「辺」の異体字がこれだけあって……」という話になります。でも、地名・人名の異体字の問題では、異体字を使うことに主張のある方もいますが、一方で、「普通の字でいいです」という方も中にはいるんだよ、ということもきちんと伝えてほしいな、と思います。「漢字が足りない」ということだけが注目されがちなので。

――汎用電子の事業は2011年まで携わられていたのですよね。

最初は調査をしていて、その後はUCS(Universal multi-octet coded Character Set ISO/IEC 10646)への追加提案をしていました。UCS提案はまだ続いています。

――現在はUCSの提案にも関わられていらっしゃいますね。

そうなんですよ。私はJISで育ったんで、最初はUCSには良い印象がなくて、「あんなにたくさん文字を集めてどうするんだ」と思っていたんですが、どうもそういう時代ではなくなったので、UCSから日本のレパートリーを切り出して使うのがいいんだろうなと思うようになりました。最初は経済産業省の方に「釜山で会議があるので、ちょっと行ってみてはどうですか」と言われて行ったのが最初ですね。

今まで国立国語研究所の研究員がUCS提案に行くということはありませんでした。オブザーバーとして参加したことはあったそうですが、提案のための会議で日本の代表に加わったことはありません。異例なんですが、やり始めた以上は責任をとって見届けるか、ということでやっています。追加提案では「これは日本の電子行政システムで必要なのだ」という主張をして、「人の名前だ。土地の名前だ」というのは前面に出ていません。本当に人名・地名に使われているかどうかわからないわけですから、「これは行政システムを動かすのに必要なパーツなのだ、だから国際符号であることが望ましいのだ」と言いきかせて、会議に出ています。

――今は拡張Fくらいまで進んでいますよね。

「汎用電子情報交換環境整備プログラム」で集積したもののなかで、国際符号になっていない最後の部分が、日本からの拡張F提案です。これらは使用例をつけずに提案したものもあります。人名の場合は、個人情報に関わるので、行政も使用例は出せません。ISO(ISO/IEC 10646規格)のルールでは、提案のときにエビデンスを求められるので、普通だったらこういう提案は通りません。今回は「ある国や地域の行政システムに利用するデータベースに登録されている文字であれば、字書や文献の使用例がなくても、追加提案を認めることにしましょう」というようにエビデンスのルール変更を提案して、それが通ってから、文字の追加提案をしたという経緯があります。

――それはISOの委員会に参加しているからこそできたルール変更ですね。

日本からのルール変更提案が通るとは思いませんでしたけどね(笑)。説得力のある提案書を書いた優秀な方が、委員のなかにいたからルール変更ができました。でも拡張Fくらいまでくると、エビデンスが用意できない文字ばかりなんですよ。台湾でも人の名前をつけるときに、新しい漢字を作ることもあるようで、どんどん増えるわけですよね。そういう文字には従来のエビデンスをつけるのが難しいから、その点で、日本と事情が似ていると思います。

――提案はまだしばらくはかかりそうですね。また登録が決まってから、コンピュータで実際に使えるようになるまでには、さらにかかりますからね。

審議が終わって規格になってもすぐに実装されるわけではないですから、実装まで考えたら10年くらいかかるでしょうか。国が言っている電子政府も、業務システムだけではなくて、一般家庭の端末から利用できないと実現しません。そのためには、なんらかの公的な規格にしておかないと、どこも実装できないですから。ISO規格にして、Unicodeで扱えるようにしておくというのがよいのだろうと考えて、提案活動に協力しています。

――「汎用電子情報交換環境整備プログラム」を引き継ぐ形で、「文字情報基盤整備事業(MJ)」があって、IPAmj明朝フォントや収録漢字の一覧表が作られたりしていますが、そちらも中心的に関わられていらっしゃいますよね。

中心というか、これまでの経緯もあって、ワーキンググループの主査をしています。もはや自分で手を動かさなくなりました。実作業はIPA(独立行政法人 情報処理推進機構)さんがやるので、会議に出るくらいです。IPAmj明朝は瞬時にできあがってびっくりしました。あんなに短期間にフォント開発ができるのかな、と思っていたんですが、できるものなんですね。

MJは汎用電子の続きのような形でやっていますが、汎用電子は調査研究事業だったので、国立国語研究所として委託を受けて参加していました。MJのほうは実用に向けての事業なので、国立国語研究所としては関わっていません。私が個人で委員になっているだけで、関わり方が変わりました。UCS提案と文字情報基盤整備事業は、研究に関連した社会活動のひとつと考えています。

▲PAGE TOP