Che cosa è un formato UTF-8?

December 28

Il formato UTF-8 è una variante del sistema di codifica dei caratteri Unicode, sviluppato da Ken Thompson di Bell Laboratories nel 1992. In origine, era un Unicode, a larghezza fissa formato di codifica a 16 bit semplice, ma UTF-8 è stato sviluppato per i sistemi che trovato difficoltà a gestire le unità a 16 bit di dati. UTF sta per Unicode Transformation Format.

Che cosa è Unicode?

Unicode è stato originariamente sviluppato da un'organizzazione senza scopo di lucro, nota come Unicode Consortium, alla fine del 1980, nel tentativo di creare un unico set di caratteri, unificato. Unicode è progettato per supportare lo scambio, l'elaborazione e la visualizzazione dei testi in una vasta gamma di lingue, tra cui le versioni classiche e storiche di queste lingue. Ken Thompson voleva un formato di codifica per un nuovo sistema operativo, che avrebbe lavorato con personaggi di sette bit, ma potrebbe essere esteso a un set di caratteri più grande, e il risultato è stato UTF-8.

Scopo

software dipende tipicamente ogni carattere rappresentato da una sequenza di cifre binarie o bit - solitamente otto - noti come un byte. Molte applicazioni software si basano sulla American Standard Code for Information Interchange, o ASCII, il valore di ogni carattere essendo combinazioni costanti e certi di byte di essere associata a funzioni di controllo. UTF-8 è definito in termini di unità di codice a otto bit e rappresenta tutti i caratteri Unicode senza disturbare i valori di codice ASCII o di controllo. Ogni byte nel range ASCII si rappresenta in UTF-8 e codici di controllo ASCII appaiono solo se stessi e mai come parte di una sequenza che rappresenta qualsiasi altro carattere. In altre parole, UTF-8 è completamente compatibili con i ASCII.

Larghezza variabile

UTF-8 è ciò che è noto come un formato di codifica larghezza variabile. Esso utilizza unità di codice a otto bit ei bit di ordine a ciascuna unità indicano a quale parte della sequenza dell'unità codice ogni byte appartiene. Una serie di valori unitari codice è riservato per il primo, o leader, elemento in una sequenza di unità di codice e un completamente diverso intervallo di valori è riservato per gli elementi successivi, o finali,. Se il bit di ordine superiore è uno zero, i rimanenti sette bit nell'unità di codice vengono trattati come un carattere ASCII normale. Se un file contiene solo caratteri ASCII, è già in formato UTF-8.

usi

UTF-8 è in genere il formato di codifica di scelta per Hypertext Markup Language - il set standard di regole, o protocollo, per la formattazione e la visualizzazione di documenti su Internet - e altri protocolli simili. UTF-8 è già byte orientato, o byte serializzati, in modo UTF-8 funziona bene con C e altri linguaggi di programmazione. Allo stesso modo, interfacce dei programmi applicativi che funzionano con set di caratteri asiatici, come il cinese e il giapponese, in cui i personaggi possono essere rappresentati da uno, due o anche tre byte, può essere adattato per funzionare con UTF-8 con un minimo sforzo.