コード化された日本語の漢字が１万文字から６万文字へ

NHKのニュースサイトを見ていると、従来は１万文字しかコード化されていなかった日本語の漢字が６万文字へと拡張されるという報道記事がありました。これまで、IPA（情報処理推進機構）が平成14年から15年越しのコード割り付け作業の末、このたび関r評して国際規格として登録が行われたそうです。

IPAのニュースリリースによれば、文字コード国際規格の最新版である、ISO/IEC 10646 (Universal Coded Character Set) 第5版がISO（国際標準化機構）より発行されました。この発行によって、整備されてきた約6万文字の漢字全ての国際規格化が完了したことになります。ネットで情報を探してみると、半年前に発行されたUnicode 10.0のISO版が発行されたということのようです。

このニュースリリースを見ると、わかりやすく下記のように分類されていました。

常用漢字：2136文字

JISX0213漢字：10,050文字

住基台帳ネットワークシステム統一文字：19,563文字

戸籍統一文字：55,271文字

文字情報基盤（IPAmj明朝フォント）：58,861文字

この中で一番下の「文字情報基盤（IPAmj明朝フォント）」が今回規格化されたものです。この報道の真意はJISで規格化された10,050文字が文字情報基盤の58,861文字に拡張されたということのようです。

従来は規格に基づいた漢字は1万文字しかなかったため、これ以外の漢字をコンピュータで扱う際には「外字」を活用していました。この外字というのは、コードの外字領域で文字が割り当てられていない領域に対して、各メーカー等が独自に文字を割り当てたところになります。しかし、メーカーごとには互換性がありませんので、外字を異種コンピューター間で受け渡しを行った時に、外字領域の文字が化けてしまうような事象が発生していました。さらには、名前の漢字を独自に外字に割り当てて利用した場合と、コード化済みの似た漢字に割り当てて利用していた場合には、名寄せのときに同一人として判定できないようなデメリットも生じていました。

マイナンバーも導入されて、省庁間や自治体間で情報連携が開始されます。このとき、外字情報はそのまま連携しても相手方システムで正しくは表示されないので、このような世界規格が出来たことは非常に有意義なことだと思います。

以前はコンピューターの能力が低かったので、コード化して管理できる文字量にも限度があり全文字をコード化して登録することが困難でしたが、現在はコンピュータの能力も上がり、膨大な種類の漢字も取り扱うことが可能になりました。ただ、この漢字を全てひも解いて、一つ一つに重複しないようにコードを割り当てていく作業は、とても大変な作業だったのではないかと思います。

ただ、既にデータベースの中に外字として格納されてしまっている拡張部分の文字に関しては、今回、国際規格化された文字コードにマッピングしなおさないと、本来の力を発揮してくれません。今後、新たに作られた文字情報基盤が各省庁や自治体で本格的に利用されるようになるのが、どのタイミングからになるのか気になるところです。