TRON 仕様コードでは、 多国語文字を扱うことを考えるが、 国語によって 1 バイトコードで足りるものと、 足りないものがある。 このため、TRON 仕様では 1 バイトコードと 2 バイトコードを扱う。 しかし、 基本的には 1 バイトコードと 2 バイトコードを混在させて使うことは避け、 1 バイトコードで足りる国語については 1 バイトコードを使い、 不足する国語では 2 バイトコードを使用する。
従来、コードに割り当てられていない文字を外字として扱っていたが、 TRON 仕様コードではこの意味での外字はおこらないように、 全ての文字に対してコードを割り当てる方式を取る。 漢字の場合でも、45,000 文字程度で全てを網羅できる。 このようにして定めた、 一つの文字コードの集合を文字セットと呼ぶ。 会社のマークなどのパターンは、文字とは別扱いで、 イメージとして扱うようにする。 コードで区別すべき文字が必要となる場合は、新しく登録する。
本仕様書および JIS X 0208 で規定されていない独自の文字コードはデータの交換に用いてはならない。
同じ文字に対していくつかの書体が存在する。 例えばゴシックと明朝のような場合である。 これらは同じ文字コードを割り当て、 書体が異なってもデータベース検索の場合に同一文字として扱うことができるようにする。 同じ文字セットの中に存在する複数の書体の異なる文字集合を書体セットと呼ぶ。
JIS X 0201 では、7 ビットと 8 ビットの情報交換符号を規定している。 TRON 仕様コードでは 8 ビットおよび 16 ビットコード体系を取るので、 JIS X 0201 の 8 ビットコードの規定からの制限を考慮する。
8 ビットコード表で、C0 集合の 00/0 〜 01/15、 および 02/0、07/15 は制御コードとして使用する。 また、C1 集合の 08/0 〜 09/15、および 10/0、15/15 は制御コード用であるが未定義領域とする。
また、日本の場合は、漢字、仮名、ラテン文字のいずれも使用するので、 1 バイトコードと 2 バイトコードを頻繁に切り換えるのは不適当である。 従って、日本語は全て 2 バイトコードで扱い、1 バイトコードでは扱わない。
TRON 仕様では半角、全角の概念はなく、 これらは文字指定付箋を用いて扱う。 文字指定付箋については3.5.4文字指定付箋を参照のこと。
JIS X 0208 では、8,836 字の領域を確保し、 そのうち 6,877 字を割り当てている。 このうち漢字は 6,353 字である ( JIS X 0208-1983 )。
TRON 仕様コードは JIS X 0208 に定義されている文字を準用する。 またコードの位置もそのまま用いる。
TRON 仕様日本文字コード体系は、 2 バイトの文字コード体系であり、 JIS X 0208 のスーパーセットとする。
(00)(00)〜(00)(20),(00)(7F)のコードは制御コードとして割り当てる。 ( 制御コードの第 2 バイトは TRON 仕様 1 バイトコード系、 2 バイトコード系に共通である)
このうち、以下のコードは TRON 仕様で特別な意味を持ち、 無効コードを除き、特殊文字キーより発生可能なコードである。
(00) | 無効コード | このコードがあっても、あたかも無いように処理する
文字コードとしては無効であるが、
通常は文字列の終了を示す目的に使用する |
(09) | タブ | 次タブ位置または次フィールドへの遷移 |
(0A) | 改段落 | 通常の改行または段落替え 段落の概念を用いる場合、 段落内の改行は改行を用いる |
(0B) | 改コラム | |
(0C) | 改ページ | |
(0D) | 改行 | フィールド内の改行または段落内の改行 |
(20) | セパレータ | 語あるいは文節の区切れ |
フィールドの定義については3.5.3行書式指定付箋を参照のこと。
第1ブロック: | (21)(21)×(7E)(7E) | Aゾーン | 8,836文字 | |||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||
第2ブロック: | (80)(21)×(FD)(7E) | Bゾーン | 11,844文字 | |||||||||||||||||||||||||||||||||||||||||
第3ブロック: | (21)(80)×(7E)(FD) | Cゾーン | 11,844文字 | |||||||||||||||||||||||||||||||||||||||||
第4ブロック: | (80)(80)×(FD)(FD) | Dゾーン | 15,876文字 |
Aゾーンには、JIS X 0208 を対応付ける。
Bゾーンは、JIS X 0208 で不足している文字のうち、 利用頻度の高い文字を集める。 この中には、漢字以外に記号、他文字属の一部も含む。
C, D ゾーンは、A , B ゾーンよりも頻度の低い文字を集める。
言語指定コード (FE)(21)〜(FE)(7E)、(FE)(80)〜(FE)(FE)
言語および文字属の切り換え指定を行なう。
第 2 バイトが0xFE
の場合、
さらに言語指定コードが続くことを示す。
2 バイトで表現しうる言語指定数は 220 である。
TRON 仕様特殊コード (FF)(21)〜(FF)(7E) 94 文字
文章中に挿入される特殊コードとして用いる。
TRON 仕様エスケープ (FF)(80)〜(FF)(FE)
文書中に埋め込まれる指定付箋挿入等の区切り記号として用いる。 区切り記号の後に付箋情報が続く (付箋情報については 3.3TADデータ構成の概要を参照のこと)。
2 バイトで表現しうる TRON 仕様エスケープ数は 127 である。
0xFF
)/(0xFF
) は数値として見た場合の -1 であり、
EOF
として使用する。
NL
,HT
(TAB
),
SP
(3種),(NULL
)
は文字コードとしてテキストに混在して使用する。
日本語モードの場合: | ||
漢字固定ピッチ | SP (0x21 /0x21 ) |
− 空白キー |
英語モードの場合: | ||
英字固定ピッチ | SP (0x00 /0xA0 ) |
− 空白キー |
プロポーショナル | SP (0x00 /0x20 ) |
− 変換・逆変換キー |