JIS X 0201 - JIS X 0201

JIS X 0201
JIS-C-6220.svg
JIS X 0201 Pagina codice a 8 bit
MIME / IANA 8-bit : JIS_X0201
7-bit romana : JIS_C6220-1969-ro
7-bit Kana :JIS_C6220-1969-jp
Alias JIS C 6220
8 bit : csHalfWidthKatakana
Roman : ISO646-JP , iso-ir-14
Kana : iso-ir-13, x0201-7
Le lingue) giapponese (supporto di base), inglese
Standard JIS X 0201:1969
Classificazione ISO 646 , ISO 646 estesa
Preceduto da Codice Wabun , JIS C 0803
seguito da Maiusc JIS
Altre codifiche correlate Codice Hangul a N byte

JIS X 0201 , uno standard industriale giapponese sviluppato nel 1969 (poi chiamato JIS C 6220 fino alla riforma della categoria JIS), è stato il primo set di caratteri elettronici giapponese ad essere ampiamente utilizzato. È una codifica a 7 bit o una codifica a 8 bit, sebbene la codifica a 8 bit sia dominante per l'uso moderno. Il nome completo di questo standard è set di caratteri codificati a 7 e 8 bit per lo scambio di informazioni ( 7ビット及び8ビットの情報交換用符号化文字集合).

I primi 96 codici comprendono una variante ISO 646 , per lo più seguendo ASCII con alcune differenze, mentre i secondi 96 codici di caratteri rappresentano i segni fonetici katakana giapponesi . Poiché la codifica non fornisce alcun modo per esprimere hiragana o kanji , è solo in grado di esprimere un giapponese scritto semplificato. Tuttavia, è possibile esprimere, almeno foneticamente, l'intera gamma di suoni nella lingua. Negli anni '80, questo era accettabile per i media come terminali di computer in modalità testo, telegrammi, ricevute o altri dati gestiti elettronicamente.

JIS X 0201 è stato soppiantato da codifiche successive come Shift JIS (che combina questo standard e JIS X 0208 ) e successivamente Unicode .

Storia

Il Comite Consultatif International Telephonique et Telegraphique (CCITT) ha introdotto il codice International Telegraph Alphabet No.2 (ITA2) come standard internazionale, che era la codifica latina a 5 bit. La maggior parte dei paesi ha i propri standard nazionali basati su questo. In Giappone, l'Agenzia per la scienza e la tecnologia industriale (AIST) lo ha standardizzato come codici a 6 bit di caratteri di JIS C 0803-1961 ( layout di tastiera e codici per telescriventi ), che si combinavano con i caratteri katakana. Tuttavia, non corrispondeva ai requisiti del settore perché la mappa dei caratteri era piccola e il layout del codice non era pratico. L'AIST ha considerato una pratica codifica dei caratteri per sostituire vari codici utilizzati in Giappone.

Nel 1963, ISO ha introdotto una bozza di ISO R 646 ( set di caratteri codificati a 6 e 7 bit per lo scambio di elaborazione delle informazioni ). L'AIST ha affidato all'Information Processing Society of Japan (IPSJ) la congiunzione della ISO R 646 e della mappatura katakana . L'IPSJ ha formato il comitato per la standardizzazione del codice. Il comitato non ha adottato la forma a 6 bit della bozza dell'ISO perché il set katakana non poteva adattarsi alla sua mappa dei caratteri. La prima bozza di JIS mappava piccoli caratteri katakana accanto a ciascuno dei loro normali caratteri katakana. Era considerato conveniente per l'ordinamento per ordine di Gojūon . Alcuni membri del comitato hanno criticato che avrebbe complicato la meccanica delle tastiere che gestivano solo i normali caratteri katakana. La bozza successiva ha mappato piccoli caratteri katakana nelle posizioni 0xA7-0xAF. Nel 1966, la quarta bozza dell'ISO specificava il simbolo della valuta nazionale a 0x24 e il comitato JIS progettò di mappare il segno dello yen . La prima edizione della ISO 646 è stata pubblicata nel 1967. Specificava il simbolo del dollaro ASCII 0x24 come carattere invariante, quindi il comitato JIS decise di sostituire la barra rovesciata 0x5c dell'ASCII (uno dei caratteri varianti) con il segno dello yen. Tuttavia, la CCITT ha introdotto l'alfabeto internazionale n. 5 (IA5) nel 1968, che affermava che non era richiesto il simbolo del dollaro e che poteva essere sostituito con il segno della valuta internazionale (¤). La ISO 646 è stata rivista nel 1973 per conformarsi alla IA5.

JIS C 6220 ( Codici per lo scambio di informazioni , 情報交換用符号) è stato pubblicato nel 1969. Il suo numero è stato cambiato in JIS X 0201 a causa della riforma della categoria JIS nel 1987 e il nome è stato cambiato in codificato a 7 bit e 8 bit set di caratteri per lo scambio di informazioni (7ビット及び8ビットの情報交換用符号化文字集合) nell'edizione del 1990.

Il set di caratteri di JIS X 0201 era stato ampiamente utilizzato in Giappone. Il Nationwide Banking Data Communication System (全国銀行データ通信システム), il più grande sistema di trasferimento di fondi in Giappone, è stato istituito nel 1973. I messaggi di transazione tra le banche utilizzavano un sottoinsieme di JIS X 0201. Il sistema era stato utilizzato fino al 2018 ed era sostituito dallo ZEDI (The Nationwide Banking Electronic Data Interchange System, 全銀EDIシステム) che poteva gestire i caratteri hiragana e kanji. Nel 1978, il set di caratteri a 2 byte JIS C 6226 ( JIS X 0208 ) è stato sviluppato per esprimere i caratteri hiragana e kanji. Include i caratteri katakana, ma i loro codici e layout sono diversi da JIS X 0201. I produttori di computer hanno sviluppato le proprie estensioni di JIS X 0208 per mantenere la compatibilità con JIS X 0201. Nel 1982, lo schema di codifica Microsoft Kanji ( Codepage 932 di MS-DOS ) e SJC26 di Digital Research (per il giapponese CP/M-86 ) sono stati sviluppati per combinare la codifica a byte singolo JIS X 0201 e la codifica a byte doppio JIS X 0208 senza shift out e shift in caratteri. Si chiamavano Shift JIS , che divenne lo standard industriale per i personal computer.

Dettagli di implementazione

Set romano a 7 bit ( shift in )
Set Kana a 7 bit (shift out)

La prima metà (set romano) di JIS X 0201 costituisce una variante giapponese della ISO 646 , pari ad ASCII con barra rovesciata (\) e tilde (~) sostituite da yen (¥) e overline (‾), mentre la seconda metà (Kana set) consiste principalmente di katakana . I caratteri di controllo sono specificati in JIS X 0211 .

Nel formato a 7 bit, il carattere di controllo shift out (0x0E) passa al set Kana e shift in (0x0F) passa al set romano. Nel formato a 8 bit, riportato nella tabella sottostante, i byte con il bit più significativo impostato (es. 0x80–0xFF) vengono utilizzati per l'insieme Kana e i byte con esso non impostato (es. 0x00–0x7F) vengono utilizzati in caso contrario.

I nomi usati specificamente per il set romano a 7 bit includono "JISCII", "JIS Roman", "ISO646-JP", "JIS C6220-1969-ro", "Japanese-Roman", "Japan 7-Bit Latin" e "ISO-IR-14", mentre i nomi utilizzati specificamente per il set Kana a 7 bit includono "ISO-IR-13", "JIS C6220-1969-jp" e "x0201-7".

La sostituzione del simbolo yen per la barra rovesciata può rendere i percorsi su computer basati su DOS e Windows con supporto giapponese visualizzati in modo strano, come "C:¥Programmi¥", ad esempio. Un altro problema simile sono i caratteri di controllo del linguaggio di programmazione C dei letterali stringa , come printf("Hello, world.¥n");.

Layout della tabella codici

La tabella seguente è il set di caratteri codificati a 8 bit originale di JIS X 0201 (con il set di kana indicato da byte con il set di bit alto).

Forma a 8 bit di JIS X 0201-1997
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UN _B _C _D _E _F
0_
0
Codici C0
0000-001F
1_
16
2_
32
SP
0020
!
0021
"
0022
#
0023
$
0024
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
io
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_
80
P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
¥
00A5
]
005D
^
005E
_
005F
6_
96
`
0060
uno
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
ore
0068
io
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_
112
p
0070
q
0071
r
0072
s
0073
t
0074
tu
0075
v
0076
w
0077
x
0078
e
0079
z
007A
{
007B
|
007C
}
007D
~
203E
DEL
007F
8_
128
Codici C1 o Blocco vuoto
0080-009F
9_
144
A_
160
.
FF61

FF62

FF63
,
FF64
·
FF65

FF66

FF67

FF68

FF69

FF6A

FF6B

FF6C

FF6D

FF6E

FF6F
B_
176

FF70

FF71

FF72

FF73

FF74

FF75

FF76

FF77

FF78

FF79

FF7A

FF7B

FF7C

FF7D

FF7E

FF7F
C_
192

FF80

FF81

FF82

Ff83

FF84

FF85

FF86

FF87

FF88

FF89

FF8A

FF8B

FF8C

FF8D

FF8E

FF8F
D_
208

FF90

FF91

FF92

FF93

FF94

FF95

FF96

FF97

FF98

FF99

FF9A

FF9B

FF9C

FF9D

FF9E

FF9F
E_
224
F_
240

  Lettera  Numero  Punteggiatura  Simbolo  Altro  Non definito

Come parte di Shift JIS

Di seguito è riportata la mappatura utilizzata per JIS X 0201 come parte di Shift JIS , ovvero che mostra la forma a 8 bit di JIS X 0201 e mappando i caratteri Katakana al blocco Halfwidth e Fullwidth Forms (che a sua volta deriva il suo layout kana a mezza larghezza da JIS X 0201).

Set di caratteri a byte singolo di Shift JIS
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UN _B _C _D _E _F
0_
0
1_
16
2_
32
SP
0020
!
0021
"
0022
#
0023
$
0024
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
io
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_
80
P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
¥
00A5
]
005D
^
005E
_
005F
6_
96
`
0060
uno
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
ore
0068
io
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_
112
p
0070
q
0071
r
0072
s
0073
t
0074
tu
0075
v
0076
w
0077
x
0078
e
0079
z
007A
{
007B
|
007C
}
007D
~
203E
8_
128
9_
144
A_
160
.
FF61

FF62

FF63
,
FF64
·
FF65

FF66

FF67

FF68

FF69

FF6A

FF6B

FF6C

FF6D

FF6E

FF6F
B_
176

FF70

FF71

FF72

FF73

FF74

FF75

FF76

FF77

FF78

FF79

FF7A

FF7B

FF7C

FF7D

FF7E

FF7F
C_
192

FF80

FF81

FF82

Ff83

FF84

FF85

FF86

FF87

FF88

FF89

FF8A

FF8B

FF8C

FF8D

FF8E

FF8F
D_
208

FF90

FF91

FF92

FF93

FF94

FF95

FF96

FF97

FF98

FF99

FF9A

FF9B

FF9C

FF9D

FF9E

FF9F
E_
224
F_
240

  Le celle rosse indicano i primi byte dei caratteri Shift JIS a doppio byte.

Mappatura alternativa di katakana

Il profilo ISO-2022-JP di base non consente il set Kana di JIS X 0201, solo il set Roman e JIS X 0208 (sebbene lo stesso ISO 2022 / JIS X 0202 lo permetta). Di conseguenza, quando si converte JIS X 0201 katakana (o Unicode half-width kana , che utilizzano lo stesso layout) in ISO-2022-JP, viene spesso utilizzata la seguente mappatura o trasformazione. Ciò consente di convertire il kana in JIS X 0208.

In teoria, questa mappatura è ugualmente corretta, poiché JIS X 0201 stesso non specifica la larghezza di visualizzazione, sebbene in pratica (e specialmente in ambienti duospaced ) JIS X 0201 sia utilizzato per katakana a metà larghezza.

Per facilitare il confronto con il grafico sopra, la mappatura è mostrata di seguito sulla codifica katakana JIS X 0201 e con il set di bit alto.

Mappature compatibili JIS X 0208 per JIS X 0201 katakana
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UN _B _C _D _E _F
UN_ .
3002

300C

300D
,
3001
·
30FB

30F2

30A1

30A3

30A5

30A7

30A9

30E3

30E5

30E7

30C3
B_
30FC

30A2

30A4

30A6

30A8

30AA

30AB

30AD

30AF

30B1

30B3

30B5

30B7

30B9

30BB

30BD
C_
30BF

30C1

30C4

30C6

30C8

30ca

30CB

30CC

30CD

30CE

30CF

30D2

30D5

30D8

30DB

30DE
D_
30df

30E0

30E1

30E2

30E4

30E6

30E8

30E9

30EA

30EB

30EC

30ED

30EF

30F3

309B

309C
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UN _B _C _D _E _F

Varianti ed estensioni

Maiusc JIS

Le implementazioni di IBM

La code page 897 èl'implementazione IBM della forma a 8 bit di JIS X 0201. Include diversi caratteri grafici aggiuntivi nell'area dei caratteri di controllo C0 e i punti di codice in questione possono essere utilizzati come caratteri di controllo o caratteri grafici a seconda del contesto, concettualmente simile a OEM-US , ma con caratteri grafici diversi. Le righe C0 sono mostrate di seguito.

Code page 897, solo righe 0x00 e 0x10
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UN _B _C _D _E _F
0_
0
NUL
0000

2554

2557

255A

255D

2551

2550

FFEC
BS
0008

FFEE
LF
000A

303F
FF
000C
CR
000D

FFED

263C
1_
16

256C
DC1
0011

2195
DC3
0013

2593

2569

2566

2563
PU
0018

2560
/ FS
2591 / 001C

21B5
/ DEL
FFEA / 007F

FFE8

FFEB

FFE9

IBM implementa anche il set romano a 7 bit di JIS X 0201 come Code page 895 e il set Kana a 7 bit come Code page 896 per l'uso come set di codici ISO 2022 o EUC-JP . La code page 896, oltre alle assegnazioni JIS X 0201 standard, definisce cinque assegnazioni aggiuntive, mostrate di seguito. Sebbene l'uso di questi caratteri estesi non sia consentito dal CCSID 896 associato , sono consentiti dal CCSID 4992 alternativo.

Code page 896, solo riga 0x60
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UN _B _C _D _E _F
6_
96
¢
00A2
£
00A3
¬
00AC
\
005C
~
007E

La Code page 1041 di IBM è una versione estesa della Code page 897, che codifica questi cinque caratteri estesi IBM in posizioni alternative compatibili con Shift JIS (rispettivamente 0x80, 0xA0, 0xFD, 0xFE e 0xFF).

La Code page 903 di IBM è codificata per essere utilizzata come componente a byte singolo di alcune codifiche di caratteri cinesi semplificate . Nonostante ciò, segue ISO 646-JP / la metà romana di JIS X 0201, in quanto sostituisce la barra rovesciata ASCII 0x5C (piuttosto che il simbolo del dollaro ASCII 0x24 come in GB 1988 / ISO 646-CN ) con il segno yen/yuan . Utilizza anche la stessa grafica sostitutiva C0 della code page 897. È strettamente correlato aCode page 904 , che è codificata per essere utilizzata come componente a byte singolo di alcune codifiche di caratteri cinesi tradizionali e utilizza la stessa grafica sostitutiva C0, ma segue ASCII .

Altri

Note a piè di pagina

Riferimenti

link esterno