インタビュー

Vol.10

文字文献とコンピュータの橋渡し(前編)

高田智和

コンピュータにない文字との格闘


――コンピュータにない漢字をデータベースにして集計するのは大変だったのではないですか。

ええ、大変でした。当時はスキャナとデジタルカメラを使っていました。最初の池田先生の演習のときに、先生がノートパソコンとカメラを私に渡して、「さあデータベースを作ってみようか!」と。「データベースって何ですか?」というところから始まりましたから、ちょっと大変でしたね。

――先生がコンピュータを使ったのは大学に入ってからなんですか。

はい。大学に入って、池田先生からノートパソコンとカメラを渡されてからです。それまでは実はメールも書いたことがなかったんですよ。どうしようかと思いましてね。でもやればできるという感じで何とかなりました。だから、最初はデータベースソフトを使えても、Excelは使えなかったんです。

――必要最低限のソフトを使って研究されていたと。

最初はデジタルカメラの使い方を覚えて、データベースソフトの使い方を覚えて……写真を撮ってひとつずつ切り抜いて、データベースに画像として貼って保存する作業を延々とやっていました。コンピュータで記述できない文字ですから、画像でやるしかないんですね。当時はコンピュータの性能が今ほど良くないですから、画像を使うとすぐ止まるのが悩みの種でした。

論文を書くのも、画像をたくさん埋め込んだりするので、TeXを使っていました。コンピュータに出ない文字ばかりを論文に書くわけですから、Wordでは大変だったんです。ところが研究所に勤めるようになってから、仕事の文書がWordでくるので、ワープロソフトが使えないのはだめなんだと(笑)。最近はWordを使うようになりました。

――今はWordでも画像の埋め込みはいくらでもできますからね。

簡単になりましたよね。かつてはWordで画像を扱うのは大変でした。

――一般のパソコンでデータベースを扱えるようになった早い時期から取り組まれていたのですね。

インターネットがやっと普及してきたころですね。私は文学部でしたが、研究室の窓際で写真を撮っていました。「自然光がいいんだ」とか「この時間帯がいい」とか言って(笑)。あとは、画像のサイズをいかに小さくするかということも考えていました。判読できてさらにサイズを小さくする……今だったら鮮明に撮ってそのまま使っても大丈夫なので、そんなことは絶対にしないんですが、当時はいかに小さくしてそれでも見えるかというのを追求していました。今でもその画像は残っていますけれど、使えないですね。がんばって一文字ずつファイルを作りましたけれども、もう(それを)使おうと思わないです。

――できるだけデータを小さくして、フロッピーディスクで受け渡ししていたころですね。メールも大容量のデータを送れる時代ではありませんでした。

外部メディアに保存するのに一晩かかったりして処理ができないこともありました。

――当社ではBTRONを使った「超漢字」という製品を作っていますが、そのころTRONはご存知でしたか。

はい。坂村先生のTRONは聞いたことがありました。当時は漢字が足りないという話題で、注目されていたのが、Unicode、TRON、今昔文字鏡、e漢字などでしたね。Unicodeは国際規格だから、Unicodeにある漢字かどうかは、三国志のときも『国書総目録』のときも調べました。今昔文字鏡は文字コードではないのですが、特に文科系の研究には使いやすいツールでした。

――私たちもTRONコードを使って、JISにある漢字やない漢字を調べたりしていたので、そのときの苦労が偲ばれます。

今となっては昔話ですよね。今はコンピュータで使える漢字が増えたので、どれがJISかなんてわからないですからね(笑)。

――ご自身で集計のためのプログラムを書かれたりはされているのですか。

集計のためのプログラムはあまり書かないです。私は簡単な集計しかしないので、データベースソフトやExcelでできる範囲の集計ですね。文字を数えるための簡単なスクリプトを書くくらいです。

――情報処理学会にも所属されていらっしゃるので、そういうコンピュータを扱う作業もされているのかと思ったのですが。

いえいえ。私は糊とはさみがパソコンになっただけですから。もっと高度なことをされている方はたくさんいますけれど、私は一次資料を電子化するところです。数えるにしても一次資料を数えていますから、あんまり高度な処理は必要ないのですよ。情報処理は、できたコンテンツをなにかに繋げるとか、そういう部分なので、レイヤーがちょっと違うのですよね。

「漢字字体規範史データベース」の開発はデジタル化の黎明期


――JISの拡張のもとになる資料集めと平行して、「漢字字体規範史データベース(HNG)」の開発もされていらしたのでしょうか。

石塚先生の演習はずっとそれでした。もとは紙ベース……情報カードで、文献から一文字ずつ切り取って、同じ文字を集めてカードにペタペタと貼っていくということを、先生が20年以上ずっとやっておられて、私が大学院生になったころもやっていました。さすがにカードの保管も大変ですし、糊で貼っていますから、初期のころのカードは、用例がポロポロはがれてきて、補修をしなければいけない状態になっていました。そこで、カードをデジタル化して、インデックスをつけて引けるようにしましょう、と先生が決断されました。だから、最初は保存と活用のためでしたが、せっかくできたのだから公開しましょうということになっていきました。それから、だんだん資料の点数が増えていって、今はいろいろと使われているようで、うれしいかぎりです。

――もともとは先生の資料を整理するためのものだったんですね。

資料の整理がメインで、他の人も使えればいいなと。だから、最初はオンライン公開みたいなことはあまり考えていませんでした。ウェブアプリケーションで画像を撒くというのが、当時の私どもには考えられなかったので……画像をたくさん配信しても大丈夫なのだろうかと。途中で壊れないかと(笑)。

――データ容量も限られてましたし、画像を表示するにも時間がかかりましたよね。

どうやって画像を小さくするかを追求していたころですからね。今だったらそんなことは気にしませんが。

(ここで高田先生が、「所」の異体字をPC上で検索)

私はこの用例が好きなんですが……最初はこんなにたくさんの資料を公開していませんでした。私が北海道を出たときは16資料しか公開していませんでした。今はカラーで綺麗な用例もありますが、最初は情報カードをスキャンしたものばかりで、資料の中の代表的な用例だけを出して並べてあります。

一個一個の文字を誰が切ったのかわかりませんが、中には私が切ったのもあるんじゃないかな……情報カードの青い線が出ているのもありますね。生々しいでしょう(笑)。これはみんな情報カードの罫線ですよ。貼ってある紙の縁が写っているのもあります。涙が出てきますね。一つ一つが歴代の学生の切って貼っての作業です。一個一個の文字をはさみで切って情報カードに糊で貼っていたのを、今度は情報カードをスキャンして画像にして、画面の上で切って貼って。私の大学時代はそればかりでした。先生はご退官になるまで一貫して字体資料作りをやっておられました。

今は字体字書のように使われる方も多いんじゃないかと思いますが、本来は漢字字体の変遷を見る資料です。最初の16資料でおおよその変遷がわかってもらえるように公開資料を選びました。当初はここまで公開資料が増えて、こんなに大きなデータベースになるとは予想していませんでした。本当に、最初は16の資料だけ選んでスタートしました。これくらいならオンラインで公開しても負担がかからないだろうと。心配していたのは、しっかりと画像を配信できるかどうかということです。5、6年前だとまだところどころ黒くなって、画像が表示されないこともありましたから、その心配が絶えずあったんですが、今はそんなことも全然なくて、隔世の感があります。

――今でもデータベース化の作業は続いているんですか。

さすがに今は情報カード作りはやめて、大英図書館さんなどから許可を得た画像データを使って、HNGで用例を配信するやり方に変えました。HNGの欠点は、どの資料にどの字形が出てきたかはわかるんですが、その資料のどこにある文字かがわからないことです。文脈情報がないので詳細な分析ができないんですね。だから本来は、どこかの時点で文脈情報つきのものに変えておくべきだったなぁ、と今では思います。私が大学院生だったのは2000年ころなんですが、2000年にはもうその技術はあったんですよ。今思えばそのころに変えておけばよかったですね。紙カードをデータベースにしたものは無理ですが、原本をスキャンしたり撮影したりしたものを使っていたら、実はできたんですよね。私がもう少し北海道にいれば、やり方を変えていたかもしれませんが、あのころはそこまではできませんでした。

――今はどこで管理されているんですか。

今は上智大学の豊島正之先生が管理されています。豊島先生の下で用例の追加やメンテナンスがされています。このデータベースを最初に公開したときは、豊島先生が東京外国語大学のアジア・アフリカ言語文化研究所におられたので、そちらの技術を使って公開しました。北海道でせっせとデータを作って、東京で公開という分担になっていました。

結局のところ、私がやってきたのは電子化なんです。情報の流通から考えると、まず電子化。そのあとの戦略がネットワークで繋ぐという部分なので、それはそちらの専門の方の協力がないとできません。こういうデータベースのこの次の応用となると「どこかと繋ぐ」というのがあります。今の漢字字体規範データベースは自己完結しているので、これからの発展を考えるとそこが必要なところでしょうか。本当の意味で共有化するためには、ネットワークの中でどこかに繋ぐことが、これから必要でしょう。


高田 智和(たかだ ともかず)

国立国語研究所 理論・構造研究系准教授。

新潟県新潟市出身。専門は、国語学(文字・表記)、漢字情報処理。
論文に「漢字処理と『大字典』」(『訓点語と訓点資料』109輯、2002年)、「電子化辞書とねじれの漢字」(『計量国語学』23巻5号、2002年)、共著に『新しい外国人住民制度の窓口業務用解説―外国人の漢字氏名の表記に関する実務―』日本加除出版(2012年)、監修に『常用漢字・送り仮名・現代仮名遣い・筆順例解辞典 改訂新版』ぎょうせい(2010年)などがある。

あとがき

現在は、急激に通信環境やパソコン性能が向上してきていますが、20年近く前から文字文献のデータベース化に取り組まれていた先生方には、さまざまなご苦労や、機器・機能の制約の中で生み出した工夫があったのではないかと思います。今回の高田先生のインタビュー前半では、その片鱗をうかがわせるお話をお伺いすることができました。今では簡単に利用できるさまざまなデータは、数多くの方の努力が積み重なったものなんだと感じました。

高田先生のインタビュー後編は、国立国語研究所に入ってから取り組まれている文字文献の研究や、先生が関わられているさまざまな文字コード規格についてお伺いします。次回の超漢字マガジンインタビューをお楽しみに!

▲PAGE TOP