Personaggio precomposto - Precomposed character

Un carattere precomposto (in alternativa carattere composito o carattere scomponibile ) è un'entità Unicode che può essere definita anche come una sequenza di uno o più altri caratteri. Un carattere precomposto può tipicamente rappresentare una lettera con un segno diacritico , come é (lettera latina e minuscola con accento acuto ). Tecnicamente, é (U+00E9) è un carattere che può essere scomposto in una stringa equivalente della lettera base e (U+0065) e combinando l'accento acuto (U+0301). Allo stesso modo, le legature sono precomposizioni delle loro lettere o grafemi costituenti .

I caratteri precomposti sono la soluzione legacy per rappresentare molte lettere speciali in vari set di caratteri . In Unicode, sono inclusi principalmente per aiutare i sistemi di computer con supporto Unicode incompleto, dove i caratteri scomposti equivalenti possono essere visualizzati in modo errato.

Confronto tra caratteri precomposti e scomposti

Nell'esempio seguente, c'è un cognome svedese comune Åström scritto nei due metodi alternativi, il primo con una precomposta Å (U+00C5) e ö (U+00F6), e il secondo usando una lettera base scomposta A ( U+0041) con un anello combinatore sopra (U+030A) e un o (U+006F) con una dieresi combinatore (U+0308).

  1. Å str ö m (U + 00C5U + 0073 + 0074 U U + 0072U + 00F6U + 006D)
  2. ström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

Fatta eccezione per i diversi colori, le due soluzioni sono equivalenti e dovrebbero essere visualizzate in modo identico. In pratica, tuttavia, alcune implementazioni di Unicode hanno ancora difficoltà con i caratteri scomposti. Nel peggiore dei casi, i segni diacritici combinati possono essere ignorati o resi come caratteri non riconosciuti dopo le loro lettere di base, poiché non sono inclusi in tutti i caratteri . Per superare i problemi, alcune applicazioni possono semplicemente tentare di sostituire i caratteri scomposti con i caratteri precomposti equivalenti.

Con un carattere incompleto, tuttavia, anche i caratteri precomposti possono essere problematici, specialmente se sono più esotici, come nel seguente esempio (che mostra la parola proto-indoeuropea ricostruita per "cane"):

  1. Kuo n (U + 1E31 U + 1E77 U + 1E53U + 006E)
  2. ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)

In alcune situazioni, il verde precomposto k , u e o con segni diacritici può essere visualizzato come caratteri non riconosciuti o il loro aspetto tipografico può essere molto diverso dalla lettera finale n senza segni diacritici. Sulla seconda riga, le lettere di base dovrebbero almeno essere rese correttamente anche se i segni diacritici combinati non potevano essere riconosciuti.

OpenType ha il "tag di funzionalità" ccmp per definire i glifi che sono composizioni o scomposizioni che coinvolgono la combinazione di caratteri.

caratteri cinesi

In teoria, la maggior parte dei caratteri cinesi codificati dall'unificazione Han e schemi simili potrebbero essere trattati come caratteri precomposti, poiché possono essere ridotti (scomposti) ai loro tratti costitutivi e alle descrizioni ideografiche con le lingue di descrizione dei caratteri cinesi . Un tale approccio potrebbe ridurre il numero di caratteri nel set di caratteri da decine di migliaia a poche centinaia. D'altra parte, un set di caratteri così altamente scomposto introdurrebbe sfide per la ricerca e la modifica del software e richiederebbe più byte di codifica per documento.

Guarda anche

Fonti

link esterno