Unicode

Données clés
U+0000-0FFF	U+8000-8FFF
U+1000-1FFF	U+9000-9FFF
U+2000-2FFF	U+A000-AFFF
U+3000-3FFF	U+B000-BFFF
U+4000-4FFF	U+C000-CFFF
U+5000-5FFF	U+D000-DFFF
U+6000-6FFF	U+E000-EFFF
U+7000-7FFF	U+F000-FFFF
U+0000-FFFF	plan 0 (PMB/BMP)
U+10000-1FFFF	plan 1 (PMC/SMP)
U+20000-2FFFF	plan 2 (PSC/SIP)
U+30000-3FFFF	plan 3 (PST/TIP)
U+40000-DFFFF	plans 4 à 13 (réservés)
U+E0000-EFFFF	plan 14 (PCS/SSP)
U+F0000-FFFFF	plan 15 (privé A)
U+100000-10FFFF	plan 16 (privé B)

Caractéristiques
Version initiale	Octobre 1991, juillet 1996
Basé sur	Xerox Character Code Standard, ISO/CEI 10646, ISO/CEI 2022, ISO/CEI 8859, ISO/CEI 646
Site web	(en) unicode.org

Cet article est une ébauche. Vous pouvez m’aider à l'améliorer.

Le Standard Unicode®
Unicode et le logo Unicode sont des marques déposées d’Unicode, Inc. aux États-Unis et dans d’autres pays.
Caractéristiques
Version initiale
Octobre 1991, juillet 1996
Basé sur
Xerox Character Code Standard, ISO/CEI 10646, ISO/CEI 2022, ISO/CEI 8859, ISO/CEI 646
Site web
(en) unicode.org
modifier - modifier le code - modifier Wikidata

Unicode est un standard informatique qui permet des échanges de textes dans différentes langues, à un niveau mondial. Il est développé par le Consortium Unicode, qui vise au codage de texte écrit en donnant à tout caractère de n'importe quel système d'écriture un nom et un identifiant numérique, et ce de manière unifiée, quelle que soit la plateforme informatique ou le logiciel utilisé.

Ce standard est lié à la norme ISO/CEI 10646 qui décrit une table de caractères équivalente. La dernière version, Unicode 17.0, a été publiée le 9 septembre 2025^[1]^,^[2].

Totalement compatible avec le jeu universel de caractères (JUC) de l'ISO/CEI 10646, le standard Unicode l'étend en lui ajoutant un modèle complet de représentation et de traitement de textes, en conférant à chaque caractère un jeu de propriétés (qui peuvent être soit pour certaines, standardisées et stabilisées dans toutes les versions d'Unicode où le caractère a été encodé, soit informatives avec seulement une recommandation sur leur usage, qui peut évoluer en fonction des nouveaux besoins trouvés). Ces propriétés décrivent avec précision les relations sémantiques qui peuvent exister entre plusieurs caractères successifs d'un texte, et permettent de standardiser ou recommander des algorithmes de traitement qui préservent au maximum la sémantique des textes transformés. Unicode a pour objet de rendre un même texte utilisable à l'identique sur des systèmes informatiques totalement différents.

Le standard Unicode est constitué d'un répertoire de 159 801 caractères, couvrant plus de 150 écritures, d'un ensemble de tableaux de codes pour référence visuelle, d'une méthode de codage et de plusieurs codages de caractères standard, d'une énumération des propriétés de caractère (lettres majuscules, minuscules, symboles, ponctuation, etc.) d'un ensemble de fichiers de référence des données informatiques, et d'un certain nombre d'éléments liés, tels que des règles de normalisation, de décomposition, de tri, de rendu et d'ordre d'affichage bidirectionnel (pour l'affichage correct de texte contenant à la fois des caractères d'écritures de droite à gauche, comme l'arabe et l'hébreu, et de gauche à droite).

En pratique, Unicode reprend intégralement la norme ISO/CEI 10646, puisque cette dernière ne standardise que les caractères individuels en leur assignant un nom et un numéro normatif (appelé point de code) et une description informative très limitée, mais aucun traitement ni aucune spécification ou recommandation pour leur emploi dans l'écriture de langues réelles, ce que seul le standard Unicode définit précisément. L'ISO/CEI 10646 fait normativement référence à certaines parties du standard Unicode (notamment l'algorithme bidirectionnel et les propriétés des caractères (en)) ; Unicode est également une norme de facto pour le traitement du texte et sert de base à de nombreuses autres normes.

Tables Unicode (plan 0)

Données clés
U+0000-0FFF U+8000-8FFF

U+1000-1FFF U+9000-9FFF

U+2000-2FFF U+A000-AFFF

U+3000-3FFF U+B000-BFFF

U+4000-4FFF U+C000-CFFF

U+5000-5FFF U+D000-DFFF

U+6000-6FFF U+E000-EFFF

U+7000-7FFF U+F000-FFFF

Autres plans Unicode
U+0000-FFFF plan 0 (PMB/BMP)

U+10000-1FFFF plan 1 (PMC/SMP)

U+20000-2FFFF plan 2 (PSC/SIP)

U+30000-3FFFF plan 3 (PST/TIP)

U+40000-DFFFF plans 4 à 13 (réservés)

U+E0000-EFFFF plan 14 (PCS/SSP)

U+F0000-FFFFF plan 15 (privé A)

U+100000-10FFFF plan 16 (privé B)

modifier

Mission

Unicode, dont la première publication remonte à octobre 1991, a été développé dans le but de remplacer l'utilisation de pages de code nationales.

Ces pages de code avaient dans le passé quelques problèmes. Par exemple, sur les terminaux 3270 fonctionnant en EBCDIC : lorsqu'une note de service électronique comportait un caractère « signe monétaire », le même texte plafonnant une dépense en dollars pour le lecteur américain faisait afficher sur un écran britannique le même montant en livres sterling, puisque le signe monétaire était différent dans chacun des deux pays.

Dans la pratique, tous les systèmes d'écriture ne sont pas encore présents, car un travail de recherche documentaire auprès de spécialistes peut encore s'avérer nécessaire pour des caractères rares ou des systèmes d'écriture peu connus (parce que disparus, par exemple). Cependant, les écritures les plus utilisées dans le monde sont représentées, ainsi que des règles sur la sémantique des caractères, leurs compositions et la manière de combiner ces différents systèmes. — Par exemple, comment insérer un système d'écriture de droite à gauche dans un système d'écriture de gauche à droite (texte bidirectionnel).

Standardisation

Interopérabilité avec le code ASCII

Sous sa forme UTF-8, l'Unicode offre une certaine interopérabilité avec le code ASCII : en effet, les 128 caractères ASCII, y compris les caractères de contrôle, sont représentés de manière identique (sur un octet) en UTF-8 par les points de code U+0000 à U+007F.

Conformité d'un processus à Unicode

Le standard Unicode définit des exigences permettant d'évaluer la conformité de l'implémentation d'un processus (ou d'un logiciel) à Unicode^[3]^{[source insuffisante]}. Ces exigences concernent notamment (dans la version 4.0) :

le traitement de points de code non assignés ;

l'interprétation des séquences de caractères équivalentes ;

ce qu'est une modification d'interprétation du texte ;

le codage des caractères ;

l'affichage du texte bidirectionnel ;

la normalisation ;

les algorithmes ;

la casse.

Ces exigences permettent le support d'un sous-ensemble d'Unicode.

Alors que l'ISO/CEI 10646 définit le même jeu de caractères qu'Unicode, la différence entre ISO/CEI 10646 et Unicode tient essentiellement dans le surplus d'exigence de conformité fourni par Unicode.

Limitations

Unicode est en 2016^[4] le principal standard pour le codage informatique des caractères. Il sert à l'interopérabilité de logiciels, et permet par exemple de copier des textes utilisant des caractères de différents alphabets entre des logiciels différents, même n'ayant pas été spécifiquement conçus pour eux (par exemple un programme en caractères APL dans un texte LibreOffice ou dans un courriel sous Gmail). Tous les textes Unicode ne sont cependant pas codés de la même manière. Suivant la normalisation Unicode adoptée, un même signe graphique peut parfois être codé de différentes manières. Certains textes utilisent la convention NFC, d'autres la convention NFD, etc. Et le standard n'interdit pas de mélanger plusieurs conventions dans un même texte. Il en va de même pour les logiciels.

Cette coexistence de plusieurs façons d'écrire la même chose a été exploitée par les pirates dans les années 2000 en leur permettant de déjouer des filtres : les pirates contournaient les interdictions de certaines chaînes de caractères jugées dangereuses tout simplement en les codant sous une autre forme, plus inhabituelle et de ce fait parfois non filtrée.^{[réf. nécessaire]} Unicode répond à ces limitations en apportant la notion d'équivalence canonique.

Normes et versions

Le travail sur Unicode est parallèle et synchronisé avec celui sur la norme ISO/CEI 10646 dont les objectifs sont les mêmes. L'ISO/CEI 10646 est une norme internationale publiée en français et en anglais, qui ne précise ni les règles de composition de caractères, ni les propriétés sémantiques des caractères.

Unicode aborde cependant la problématique de la casse, du classement alphabétique, et de la combinaison d'accents et de caractères. Depuis la version 1.1 d'Unicode et dans toutes les versions suivantes, les caractères ont les mêmes identifiants que ceux de la norme ISO/CEI 10646 : les répertoires sont maintenus parallèlement, à l'identique lors de leur standardisation définitive, les deux normes étant mises à jour presque simultanément. Les deux normes Unicode (depuis la version 1.1) et ISO/CEI 10646 assurent une compatibilité ascendante totale : tout texte conforme à une version antérieure doit rester conforme dans les versions ultérieures. Ainsi les caractères de la version 3.0 d'Unicode sont ceux de la norme ISO/CEI 10646:2000. La version 3.2 d'Unicode classait 95 221 caractères, symboles et directives.

La version 4.1 d'Unicode, mise à jour en novembre 2005, comprenait :

137 468 caractères à usage privé, dont 6 400 dans le plan multilingue de base (définis dans toutes les versions d'Unicode) et 131 068 supplémentaires dans les deux derniers plans (depuis la version 2.0 d'Unicode), ce qui doit suffire à tous les usages ;

plus de 97 755 lettres ou syllabes, chiffres ou nombres, symboles divers, signes diacritiques et signes de ponctuation, avec parmi eux :
plus de 70 207 caractères idéographiques (pour l'écriture classique ou modernisée des langues chinoises, et utilisés en partie et en association avec d'autres écritures plus simples en japonais, en coréen classique, ainsi qu'en vietnamien classique) ;

11 172 syllabes précomposées de l'alphabet hangûl (pour la langue coréenne moderne) ;

plusieurs centaines de caractères de contrôle ou modificateurs spéciaux ; ainsi que

8 258 points de codes réservés de façon permanente, interdits pour le codage de texte (assignés dans toutes les versions d'Unicode).

Soit un total de près de 245 000 points de codes assignés dans un espace pouvant contenir 1 114 112 codes différents.

Quelques problèmes semblent cependant exister, pour le codage des caractères chinois, à cause de l'unification des jeux idéographiques utilisés dans différentes langues, avec une calligraphie légèrement différente et parfois signifiante, mais ils sont en cours de résolution^[Quand ?] par Unicode qui a défini des sélecteurs de variantes et ouvert un registre de séquences normalisées qui les utilise.

Version Date de publication Nombre de caractères Ajouts notables

1.0.0 octobre 1991 7129 Unicode 1.0 incluait ces scripts: Arabe, arménien, bengali, bopomofo, cyrillique, devanagari, géorgien, grec et copte, gujarati, gurmukhi, hangul, hébreu, hiragana, kannada, katakana, lao, latin, malayalam, oriya, tamoul, télougou, thaï et tibétain

1.0.1 juin 1992 28327 20 902 caractères CJC sont définis

1.1 juin 1993 34168 4306 syllabes Hangul supplémentaires ont été ajoutées à l'ensemble original de 2350. Le tibétain a été supprimé dans cette mise à jour.

2.0 juillet 1996 38885 Le Hangul original est supprimé et est déplacé et remplacé par un nouvel ensemble de 11172. Le tibétain est rajouté à un endroit différent.

2.1 mai 1998 38887 Le signe Euro et le caractère de remplacement d'objet ont été ajoutés.

3.0 septembre 1999 49194 Cherokee, éthiopien, khmer, mongol, birman, ogham, runique, cinghalais, syriaque, thaana, syllabes autochtones canadiennes unifiées et syllabes yi ajoutées, ainsi qu'un ensemble de motifs braille.

3.1 mars 2001 94140 Deseret, gothique et vieil italique ajoutés, ainsi que des ensembles de symboles pour la musique occidentale et la musique byzantine, et 42 711 idéogrammes unifiés CJC supplémentaires

3.2 mars 2002 95156 Buhid, Hanunó'o, Tagalog et Tagbanwa ajoutés

4.0 avril 2003 96382 Syllabaire chypriote, Limbu, Linéaire B, Osmanya, Shavian, Tai Le et Ugaritic ajoutés, ainsi que des symboles Hexagram

4.1 mars 2005 97655 Buginese, Glagolitic, Kharoshthi, New Tai Lue, vieux persan, Syloti Nagri et Tifinagh ont été ajoutés, et le copte a été désunifié du grec. Des chiffres grecs anciens et des symboles musicaux ont également été ajoutés.

5.0 juillet 2006 99024 Balinais, cunéiforme, N'Ko, Phags-pa et phénicien ajoutés.

5.1 mars 2008 100648 Carian, Cham, Kayah Li, Lepcha, Lycian, Lydian, Ol Chiki, Rejang, Saurashtra, Sundanais et Vai ont été ajoutés, ainsi que des ensembles de symboles pour le disque Phaistos, les tuiles Mahjong et les tuiles Domino. Il y avait aussi des ajouts importants pour le birman, des ajouts de lettres et d'abréviations Scribal utilisées dans les manuscrits médiévaux, et l'ajout de Capital ẞ.

5.2 octobre 2009 107296 Avestan, Bamum, hiéroglyphes égyptiens (l'ensemble Gardiner, comprenant 1071 caractères), araméen impérial, inscriptional pahlavi, inscriptional parthe, javanais, kaithi, lisu, meetei mayek, vieux sud-arabe, vieux turc, samaritain, tai tham et tai viet ajoutés. 4 149 idéogrammes unifiés CJK supplémentaires (CJK-C), ainsi qu'un Jamo étendu pour le vieux Hangul et des caractères pour le sanskrit védique.

6.0 février 2011 109384 Batak, Brahmi, Mandaic, symboles de cartes à jouer, symboles de transport et de carte, symboles alchimiques, émoticônes et emojis. 222 idéogrammes unifiés CJC supplémentaires (CJK-D) ajoutés.

6.1 31 janvier 2012 110116 Chakma, cursive méroïtique, hiéroglyphes méroïtiques, Miao, Sharada, Sora Sompeng et Takri.

6.2 janvier 2012 110117 Le signe de la lire turque a été ajouté.

6.3 septembre 2013 110122 5 caractères de formatage bidirectionnel ont été ajoutés

7.0 16 juin 2014 112956 Bassa Vah, Albanais du Caucase, Duployan, Elbasan, Grantha, Khojki, Khudawadi, Linéaire A, Mahajani, Manichéen, Mende Kikakui, Modi, Mro, Nabatéen, Vieil Arabe du Nord, Vieux Permien, Pahawh Hmong, Palmyrène, Pau Cin Hau, Psautier Pahlavi, Siddham, Tirhuta, Warang Citi et Dingbats.

8.0 17 juin 2015 120672 Ahom, hiéroglyphes anatoliens, Hatran, Multani, vieux hongrois, SignWriting, 5 771 idéogrammes unifiés CJK, un ensemble de lettres minuscules pour Cherokee et cinq modificateurs de teint emoji.

9.0 21 juin 2016 128172 Adlam, Bhaiksuki, Marchen, Newa, Osage, Tangut et 72 emoji.

10.0 20 juin 2017 136690 Place Zanabazar, Soyombo, Masaram Gondi, Nüshu, hentaigana (hiragana non standard), 7 494 idéogrammes unifiés CJC, 56 emoji et symbole bitcoin.

11.0 5 juin 2018 137374 Dogra, lettres majuscules géorgiennes Mtavruli, Gunjala Gondi, Hanifi Rohingya, nombres indiens Siyaq, Makasar, Medefaidrin, anciens sogdien et sogdien, chiffres mayas, 5 idéogrammes unifiés CJK urgents, symboles pour xiangqi (échecs chinois) et classement par étoiles, et 145 emoji.

12.0 5 mars 2019 137928 Elymaïque, Nandinagari, Nyiakeng Puachue Hmong, Wancho, ajouts d'écritures Miao pour plusieurs langues Miao et Yi de Chine, lettres minuscules hiragana et katakana pour l'écriture du japonais archaïque, fractions et symboles historiques tamouls, lettres lao pour le pali, lettres latines pour la translittération égyptologique et ougaritique, commandes de format hiéroglyphe et 61 emoji.

12.1 mai 2019 137929 Le caractère ㋿, a été ajouté en tant que forme de ligature carrée de l'ère Reiwa

13.0 10 mars 2020 143859 Khoresmien, Dives Akuru, petite écriture khitane, yezidi, 4 969 idéogrammes unifiés CJK ajoutés (dont 4 939 dans Ext. G), ajouts d'écriture arabe utilisés pour écrire le haoussa, le wolof et d'autres langues en Afrique et autres ajouts utilisés pour écrire l'hindko et le pendjabi en Pakistan, ajouts Bopomofo utilisés pour le cantonais, symboles de licence Creative Commons, caractères graphiques pour la compatibilité avec le télétexte et les systèmes informatiques domestiques des années 1970 et 1980, et 55 emoji.

14.0 9 septembre 2021 144697 Toto, Cypro-Minoen, Vithkuqi, vieil ouïghour, Tangsa, ajouts d'écritures latines aux blocs SMP (Ext-F, Ext-G) pour une utilisation dans l'API étendue, ajouts d'écritures arabes pour une utilisation dans les langues à travers l'Afrique et en Iran, Pakistan, Malaisie, Indonésie, Java et Bosnie, et pour écrire des titres honorifiques, des ajouts à usage coranique, d'autres ajouts pour prendre en charge les langues en Amérique du Nord, aux Philippines, en Inde et en Mongolie, l'ajout du symbole monétaire kirghize som, prise en charge de la notation musicale Znamenny, et 37 émojis.

15.0 13 septembre 2022 149186 Kawi et Mundari, plusieurs nouveaux caractères, dont 20 emojis, 4 192 idéogrammes CJC et des caractères de contrôle pour les hiéroglyphes égyptiens.

15.1 12 septembre 2023 149813 622 caractères CJK unifiés, 5 caractères de description idéographique et nouveaux emojis.

16.0 10 septembre 2024 154998 4 scripts, 7 emojis, 3995 nouveaux hiéroglyphes, 700 symboles de systèmes anciens.

17.0 9 septembre 2025 159801 4 nouveaux système d'écritures (Sidétique, Tolonge de Siki, Beria Erfe, Tai Yo, soit 185 symboles), 10 emojis et de 4608 symboles divers dont le symbole du Riyal saoudien.

Couches d'Unicode

Unicode est défini suivant un modèle en couches^[5]. Les autres normes ne faisaient typiquement pas de distinction entre le jeu de caractères et la représentation physique. Les couches sont ici présentées en partant de la plus haute (la plus éloignée de la machine).

Répertoire des caractères abstraits (abstract character repertoire)

La couche la plus élevée est la définition du jeu de caractères abstraits. Par exemple, Latin-1 a un jeu de 256 caractères quand Unicode et l'ISO/CEI 10646 normalisent conjointement actuellement près de 110 000 caractères dans un répertoire commun.

En outre, Unicode et l'ISO/CEI 10646 affectent une dénomination commune et normalisée à chacun de ces caractères. La liste des caractères abstraits avec leurs noms normalisés constituent la couche commune de présentation de la norme ISO/CEI 10646 et du standard Unicode. Par exemple, le caractère Ç est nommé « lettre majuscule latine c cédille ». Cette définition est totalement identique à celle de l'ISO/CEI 10646, qui approuve toute extension du répertoire. Unicode ne reprend dans le texte de sa norme, que les noms normatifs en anglais, mais la norme ISO/CEI 10646 est publiée en deux langues également normatives. Ainsi les noms en anglais et en français sont tous deux normalisés par l'ISO.

Dans les faits, toute extension du répertoire se fait aujourd'hui conjointement entre le groupe de travail responsable de l'ISO/CEI 10646 (JTC1/SC2/WG2, dont les membres votants sont uniquement des autorités de normalisation nationales des pays participants, ou leur représentant officiel), et le Comité technique Unicode UTC (dont les membres votants peuvent être n'importe quelle organisation privée ou d'intérêt public, ou même un gouvernement, qui a adhéré et paye une redevance annuelle permettant de participer à ces décisions).

Jeu de caractères codés (coded character set)

La norme ISO/CEI 10646 ajoute à la table précédente un numéro associé à chaque caractère abstrait du répertoire commun, lequel est repris dans le standard Unicode. Notons bien qu'il ne s'agit pas d'une représentation en mémoire, juste d'un nombre entier, appelé point de code.

L'espace de codage de ces nombres est divisé en 17 zones de 65 536 points de code : ces zones sont appelées « plans de code ». Les plans de code sont eux-mêmes divisés en « colonnes de code » comprenant 16 points de code, qui sont (autant que possible) l'unité minimale de réservation dans le répertoire pour des groupes de caractères (assignés ou à venir) souvent utilisés conjointement dans une même écriture ou ayant des propriétés de base communes).

Chaque point de code est noté « U+ » suivi(s) de 4 à 6 chiffres en hexadécimal :

4 chiffres pour le premier plan appelé plan multilingue de base (donc entre U+0000 et U+FFFF) ;

5 chiffres pour les 15 plans suivants (entre U+10000 et U+FFFFF) ;

6 chiffres pour le dernier plan (entre U+100000 et U+10FFFF).

Ainsi le caractère nommé « Lettre majuscule latine c cédille » (Ç) a le numéro U+00C7. Il appartient au premier plan.

En principe tous les points de code entre U+0000 et U+10FFFF sont disponibles, mais certaines plages sont perpétuellement réservées à des usages particuliers, notamment une zone d'indirection exclue afin de permettre le codage UTF-16 (cf. infra), les zones à usage privé, ainsi que quelques régions (dont les deux derniers points de code de chacun des plans de code, par exemple U+FFFE ou U+FFFF) contenant des « non-caractères » et dont l'usage est interdit dans un échange de données conforme. Les autres points de code sont soit déjà affectés à des caractères, soit réservés par l'ISO/CEI 10646 pour une normalisation future.

Zone à usage privé : l'ISO/CEI 10646 et Unicode ont assigné de nombreux points de code à des caractères valides, mais dont la sémantique est inconnue car d'usage privé (par exemple les deux derniers plans entre U+F0000 et U+10FFFF sont entièrement destinés à cet usage, hormis les deux points de code à la fin de chaque plan qui sont des non-caractères interdits dans un texte conforme).

Là encore, la standardisation du codage, c'est-à-dire l'affectation des points de codes aux caractères du répertoire commun est une décision conjointe partagée entre les normes Unicode et ISO/CEI 10646. Tous les caractères du répertoire disposent d'un point de code unique (même si pour certaines langues ou pour Unicode certains caractères sont considérés comme équivalents, avec l'un d'eux désigné comme standard et recommandé et les autres présents pour des raisons de compatibilité ascendante, par exemple avec d'anciennes normes ou avec des standards encore fréquemment utilisés). Si le répertoire des caractères est extensible, il est limité par la borne supérieure de l'espace de codage : U+10FFFF. La grande majorité des points de code possibles n'est encore associée à aucun caractère particulier, mais peut l'être à tout moment.

Aussi ces points de code encore libres ne sont pas considérés comme non valides, mais représentent bien des caractères abstraits (non encore spécifiés, et réservés jusqu'à nouvel ordre). Ces caractères abstraits (de même que les caractères à usage privé) complètent le jeu de caractères codés du répertoire standardisé pour former un jeu unique, dit « jeu de caractères codés universel » (Universal Coded Character Set, souvent abrégé en UCS), qui contient tous les jeux de caractères codés des répertoires de chacune des versions passées, présentes et futures de l'ISO/CEI 10646 et ceux d'Unicode (depuis la version 1.1 uniquement).

Formalisme de codage des caractères (character encoding form)

La couche suivante spécifie une représentation physique (en mémoire, sur disque…) de chacun des caractères abstraits : quelle unité de codage (code units), ou codet, va représenter un caractère ou plus exactement un point de code : octet, seizet (mot de 16 bits) ou trente-deuzet (mot de 32 bits). Il peut exister (et il existe) plusieurs de ces formalismes. Un formalisme particulier doit préciser la taille de l'unité de codage et indiquer de quelle façon le nombre entier représentant un point de code est représenté en une suite d'unités de codage − et inversement, c'est-à-dire comment retrouver le point de code étant donné une suite d'unités de codage.

Mécanisme de sérialisation des caractères (character encoding scheme)

Cette couche s'occupe de sérialiser les suites d'unités de codage définies par la couche précédente en suites d'octets. C'est ici que se choisit l'ordre des octets entre les ordres gros-boutien (octet le plus significatif d'abord) et petit-boutien (octet le moins significatif d'abord). C'est également à cette étape qu'il est possible d'ajouter un indicateur d'ordre des octets (ou BOM, pour byte order mark), qui permet d'indiquer en début de fichier ou de flot de données s'il est en gros-boutien ou en petit-boutien. Dans le monde Internet, on l'utilise rarement, en préférant un marquage explicite (« charset=UTF-16BE » en MIME, par exemple, pour indiquer un flot de données gros-boutien, où BE signifie big-endian).

Surcodage de transfert (transfer encoding syntax)

À ce niveau peuvent intervenir les mécanismes de compression ou de chiffrement. Il peut aussi y avoir également des surcodages, notamment au sein des protocoles MIME et HTTP qui les utilisent presque partout, mais aussi pour le LDAP, qui spécifient par exemple que les chaînes Unicode doivent être codées en UTF-8 puis surcodées en Base64 (ou avec d'autres formats d'échappement) et comment indiquer ces options de surcodage au sein des données échangées par ces applications.

Ces compressions, chiffrements et surcodages, le plus souvent nécessaires et adaptés (et souvent standardisés) à divers protocoles pour la sécurisation et l'encapsulation correcte du texte codé et transporté (ou stocké), ne font partie ni du standard Unicode, ni de la norme ISO/CEI 10646.

Limite de l'octet

Pour s'affranchir des contraintes rigides des normes précédentes (une suite de bits, une représentation), Unicode sépare dorénavant d'une part la définition du jeu de caractères (liste des caractères par leur nom) et leur index, le point de code, de celle du codage. Ainsi, on ne peut donc pas parler de la taille d'un caractère Unicode, car elle dépend du codage choisi, et celui-ci peut donc varier à volonté. En pratique, UTF-8 est très utilisé dans les pays occidentaux.

Là où l'ASCII utilise 7 bits et ISO/CEI 8859-1 8 bits (comme la plupart des pages de codes nationales), Unicode, qui rassemble les caractères de chaque page de code, avait besoin d'utiliser plus que les 8 bits d'un octet. La limite fut dans un premier temps fixée à 16 bits pour les premières versions d'Unicode, et à 32 bits pour les premières versions de la norme ISO/CEI 10646.

La limite actuelle est désormais placée entre 20 et 21 bits par point de code assigné (dans un des 17 plans standards codant chacun 16 bits significatifs, soit un plan de base pour les caractères les plus fréquemment utilisés dans les textes en écritures modernes, ce plan étant désormais pratiquement complet, et 16 plans supplémentaires pour des caractères moins fréquemment utilisés, dont 1 plan pour la majorité des écritures anciennes et des écritures modernes rares, ou pour des extensions rares des écritures modernes, ou pour des jeux de symboles étendus, ainsi que 2 plans uniquement des caractères des écritures idéographiques anciennes ou modernes, 1 plan pour des caractères spéciaux rarement nécessaires, et 2 plans pour des caractères à usage privé, les 10 autres plans n'étant actuellement encore utilisés par aucun bloc de caractères définis en 2024) aux caractères standardisés dans les deux normes, désormais mutuellement compatibles :

Le groupe de travail international de l'ISO standardise l'assignation des points de code aux caractères, leur nom officiel et réserve les blocs de points de code utilisés par chaque écriture ou groupe d'écritures. Il documente aussi une représentation graphique possible (indicative) pour chaque caractère (cette représentation graphique étant si possible non ambiguë grâce au placement des caractères standardisés dans les blocs de code appropriés pour un nombre limité d'écritures).

Le groupe de travail du Consortium Unicode normalise plus précisément (dans la norme Unicode) leur sémantique pour les traitements automatisés grâce aux tables de propriétés des caractères, et la mise au point d'algorithmes standards utilisant ces propriétés.

Les deux organismes de normalisation collaborent pour synchroniser en permanence leur répertoire standardisé dans des versions officielles référencées mutuellement, et travaillent ensemble pour les amendements (les versions ne devenant officielles qu'une fois que les deux organismes ont chacun approuvé et complètement défini les additions de nouveaux caractères).

En pratique, pour la plupart des développeurs d'applications, la norme ISO/CEI 10646 apparaît comme un sous-ensemble de la norme Unicode plus complète, mais dispose des mêmes points de code pour exactement le même jeu de caractères que ceux de la norme Unicode (c'est pourquoi la norme Unicode est plus connue car plus appropriée pour les traitements informatisés, ainsi que consultable gratuitement sur Internet).

Universal Transformation Format (UTF)

Unicode et ISO/CEI 10646 acceptent plusieurs formes de transformation universelle pour représenter un point de code valide. Citons :

UTF-8 ;

UTF-16 ;

UTF-32.

Le nombre après UTF représente le nombre minimal de bits des codets avec lesquels un point de code valide est représenté.

Ces transformations ont été initialement créées pour la représentation interne et les schémas de codage des points de code de la norme ISO/CEI 10646, qui au départ pouvait définir des points de code sur 31 bits. Depuis, la norme ISO/CEI 10646 a été amendée, afin que les trois formes soient totalement compatibles entre elles et permettent de coder tous les points de code (car UTF-16 ne permet de représenter que les points de code des 17 premiers plans).

Unicode a standardisé également de façon très stricte ces trois formes de transformation de tous les points de code valides (U+0000 à U+D7FF et U+E000 à U+10FFFF) et uniquement eux, que ce soit pour représenter du texte sous forme de suites de points de code, ou des points de code assignés aux caractères valides, ou réservés, ou assignés à des non-caractères. Les points de code assignés aux demi-zones (U+D800 à U+DFFF), utilisés uniquement en UTF-16, sont invalides isolément puisqu'ils servent à la représentation, par un couple de 2 codets de 16 bits, des points de code des 16 plans supplémentaires.

UTF-8

Article détaillé : UTF-8.

L'UTF-8, spécifié dans le RFC 3629^[6], est le plus commun pour les applications Unix et Internet. Son codage de taille variable lui permet d'être en moyenne moins coûteux en occupation mémoire (pour les langues à alphabet latin). Mais cela ralentit nettement les opérations où interviennent des extractions de sous-chaînes dans certains langages qui indexent des chaînes par des entiers (exemple = "815^e caractère de la chaîne"), car il faut compter les caractères depuis le début de la chaîne pour savoir où se trouve le premier caractère à extraire.

L'UTF-8 assure aussi, et c'est son principal avantage, une compatibilité avec les manipulations simples de chaînes en ASCII dans les langages de programmation. Ainsi, les programmes écrits en C peuvent souvent fonctionner sans modification.

Initialement, l'UTF-8 pouvait coder n'importe quel point de code entre U+0000 et U+7FFFFFFF (donc jusqu'à 31 bits). Cet usage est déprécié et la norme ISO/CEI 10646 a été amendée pour ne plus supporter que les points de code valides des 17 premiers plans, sauf ceux de la demi-zone correspondant aux codets utilisés en UTF-16 pour la représentation sur deux codets des points de code des 16 plans supplémentaires. Aussi les séquences les plus longues en UTF-8 nécessitent au maximum 4 octets, au lieu de 6 précédemment. De plus, UTF-8 a été amendé d'abord par Unicode puis par l'ISO/CEI 10646 pour ne plus accepter que la représentation la plus courte de chaque point de code (unicité du codage). Le fait de pouvoir représenter de plusieurs façons différentes un même caractère posait des problèmes de sécurité, car le pirate pouvait contourner par une écriture différente une forme "filtrée".

Son avantage sur l'UTF-16 (et l'UTF-32) est que les différences d'ordonnancement des octets composant un mot (endianness) ne posent pas de problème dans un réseau de systèmes hétérogènes ; ainsi, cette transformation est utilisée aujourd'hui par la plupart des protocoles d'échange standardisés.

D'autre part, l'UTF-8 est totalement compatible pour la transmission de textes par des protocoles basés sur le jeu de caractères ASCII, ou peut être rendu compatible (au prix d'une transformation sur plusieurs octets des caractères non-ASCII) avec les protocoles d'échange supportant les jeux de caractères codés sur 8 bits (qu'ils soient basés sur ISO/CEI 8859 ou de nombreux autres jeux de caractères codés sur 8 bits définis par des normes nationales ou des systèmes propriétaires particuliers).

Son principal défaut est le codage de longueur très variable (1 octet pour les points de code assignés aux caractères ASCII–ISO/CEI 646, 2 à 4 octets pour les autres points de code), même si l'auto-synchronisation propre à l'encodage UTF-8 permet de déterminer le début d'une séquence à partir d'une position aléatoire (en effectuant au plus 3 lectures supplémentaires des codets qui précèdent). Cependant, cet encodage n'est pas conçu pour faciliter le traitement des chaînes de caractères : on lui préfère alors souvent l'UTF-16, parfois l'UTF-32 (gourmand en mémoire).

Dérivés

Certains programmes (par exemple, la base de données Oracle) représentant en interne leurs données Unicode au format UTF-16 ont (ou ont connu) un défaut de conversion vers UTF-8 : un caractère compris entre U+10000 et U+10FFFF, stocké sur deux mots de 16 bits, se retrouve converti en UTF-8 comme étant une suite de deux caractères Unicode. Cela a amené la création « accidentelle » du CESU-8 et a pour avantage de faciliter l'usage d'Unicode sur des plateformes 16 bits.

Le caractère Unicode nul U+0000 est codé en UTF-8 sous forme d'un unique octet nul 0x00. Selon le standard Unicode, ce caractère n'a aucune signification particulière^[7] ; toutefois (pour des raisons conceptuelles historiques), les bibliothèques de traitement de chaînes du langage C considèrent ce caractère de contrôle comme une fin de chaîne, ce qui complique l'implémentation de certains cas d'application^{[réf. nécessaire]}. Sous la plateforme Java, la version « (en) Modified UTF-8 » est née en reprenant l'avantage de la portabilité « 16 bits » du CESU-8 et en y ajoutant la possibilité d’encoder U+0000 sous la séquence 0xC0 0x80 (normalement interdite en UTF-8^[8]) : en échangeant de la sorte avec les bibliothèques C natives de la plateforme supportée, la plateforme peut gérer facilement tous les textes Unicode valides ainsi que les fichiers de classes compilées (format alternatif portable, indépendant de l’endianness et de la taille des mots).

UTF-16

Article détaillé : UTF-16.

L'UTF-16 est un bon compromis lorsque la place mémoire n'est pas trop restreinte, car la grande majorité des caractères Unicode assignés pour les écritures des langues modernes (dont les caractères les plus fréquemment utilisés) le sont dans le plan multilingue de base et peuvent donc être représentés sur 16 bits. La version française de l'ISO/CEI 10646 nomme ces mots de 16 bits des « seizets », mais la version internationale les décrit cependant bien comme de classiques mots de 16 bits composés de deux octets, et soumis aux règles usuelles de boutisme.

C'est notamment le codage qu'utilise la plateforme Java en interne, ainsi que Windows pour ses API compatibles Unicode (avec le type wchar).

Certains cadres légaux, tels le GB 18030 utilisé en Chine, peuvent exiger la prise en charge des plans supplémentaires, ceux-ci contenant notamment des caractères présents dans les noms propres.

Codage UTF-16
Haut \ Bas 0xDC00 0xDC01 ⋯ 0xDFFF

0xD800 U+10000 U+10001 ⋯ U+103FF

0xD801 U+10400 U+10401 ⋯ U+107FF

⋮ ⋮ ⋮ ⋱ ⋮

0xDBFF U+10FC00 U+10FC01 ⋯ U+10FFFF

Les points de code des seize plans supplémentaires nécessitent une transformation sur deux mots de 16 bits :

on soustrait 0x10000 au point de code, ce qui laisse un nombre de 20 bits dans l'intervalle de 0 à 0xFFFFF ;

les 10 bits de poids fort (un nombre entre 0 et 0x3FF) sont additionnés à 0xD800, et donnent la première unité de code dans la demi-zone haute (0xD800 à 0xDBFF) ;

les 10 bits de poids faible (un nombre entre 0 et 0x3FF) sont additionnés à 0xDC00, et donnent la seconde unité de code dans la demi-zone basse (0xDC00 à 0xDFFF) ;

Il est possible de déterminer le début de la séquence de codage à partir d'un point quelconque d'un texte représenté en UTF-16 en effectuant au maximum une lecture supplémentaire, uniquement si ce codet est dans la demi-zone basse. Cette forme est plus économique et plus facile à traiter rapidement que l'UTF-8 pour la représentation de textes contenant peu de caractères ASCII (U+0000 à U+007F).

Comme la plupart des caractères couramment usités résident dans le plan de base, l'encodage des plans supplémentaires a longtemps été peu testé dans les logiciels, conduisant à des bogues ou des problèmes de sécurité même dans des logiciels largement diffusés, par exemple en supposant à tort qu'il soit sain de découper ou de tronquer une chaîne entre deux unités de code quelconque (ce qui n'est pas le cas avec UTF-16, pas plus qu'avec UTF-8, ni même avec tous les autres codages multi-octets dont les codages historiques d'avant Unicode/ISO/CEI 10646)^[9].

Toutefois, cette transformation possède deux schémas de codage incompatibles qui dépendent de l'ordonnancement des octets dans la représentation d'entiers sur 16 bits. Pour résoudre cette ambiguïté et permettre la transmission entre systèmes hétérogènes, il est nécessaire d'adjoindre une information indiquant le schéma de codage utilisé (UTF-16BE ou UTF-16LE), ou bien de préfixer le texte codé avec la représentation du point de code valide U+FEFF (assigné au caractère « espace insécable de largeur nulle », un caractère aujourd'hui réservé à ce seul usage en tant que marqueur d'ordonnancement des octets), puisque le point de code « renversé » U+FFFE valide est un non-caractère, interdit dans les textes conformes à Unicode et ISO/CEI 10646.

L'autre défaut d'UTF-16 est qu'un texte transformé avec lui et transmis avec l'un ou l'autre des deux schémas de codage contient un grand nombre d'octets nuls ou ayant une valeur en conflit avec les valeurs d'octets réservées par certains protocoles d'échange : le principal usage d'UTF-16 est dans le traitement en mémoire au sein des logiciels (également dans le stockage de métadonnées de certains systèmes de fichiers, et dans certaines bases de données où il peut être plus compact que l'UTF-8, notamment pour les textes asiatiques), le codage UTF-8 lui étant préféré pour les échanges sur les réseaux (et même dont la prise en charge est hautement recommandée voire maintenant exigée pour les protocoles du web de l'IETF, la prise en charge de l'UTF-16 et ses variantes dans ces protocoles restant facultative et en pratique très peu utilisée, d'autant que l'avantage relatif de compacité de l'UTF-16 disparaissant avec l'emploi fréquent de la compression de données, maintenant bien prise en charge dans de nombreux protocoles Internet).

UTF-32

Article détaillé : UTF-32.

L'UTF-32 est utilisé lorsque la place mémoire n'est pas un problème et que l'on a besoin d'avoir accès à des caractères de manière directe et sans changement de taille (hiéroglyphes égyptiens). L'avantage de cette transformation standardisée est que tous les codets ont la même taille. Il n'est donc pas nécessaire de lire des codets supplémentaires pour déterminer le début de la représentation d'un point de code. Toutefois, ce format est particulièrement peu économique (y compris en mémoire) puisqu'il « gaspille » inutilement au moins un octet (toujours nul) par caractère. La taille en mémoire d'un texte joue négativement sur les performances puisque cela nécessite plus de lectures et écritures sur disque en cas de saturation de la mémoire vive, et que cela diminue aussi les performances du cache mémoire des processeurs^[10]. Pour les textes écrits dans les langues modernes actuelles (hormis certains caractères rares du plan idéographique supplémentaire) et n'utilisant donc que les points de code du plan multilingue de base, cette transformation double la quantité mémoire nécessaire par rapport à l'UTF-16.

Comme l'UTF-16, l'UTF-32 possède plusieurs schémas de codage dépendant de l'ordonnancement des octets composant un entier de plus de 8 bits (deux schémas de codage de l'UTF-32 sont standardisés, UTF-32BE et UTF-32LE). Il est donc aussi nécessaire de préciser ce schéma de codage, ou de le déterminer en préfixant le texte par la représentation en UTF-32 du point de code U+FEFF. Comme l'UTF-16, la présence d'octets nuls dans les schémas de codage standardisés de l'UTF-32 le rend incompatible avec de nombreux protocoles d'échange entre systèmes hétérogènes.

Aussi ce format n'est utilisé le plus souvent que très localement pour certains traitements en tant que forme intermédiaire plus facile à manipuler, et on lui préfère souvent la transformation UTF-16 souvent plus performante pour traiter et stocker des quantités importantes de textes, la conversion entre les deux étant très simple à réaliser, et très peu coûteuse en termes de complexité de traitement.

En fait, de très nombreuses bibliothèques de traitement de textes sont écrites uniquement avec l'UTF-16 et sont plus performantes qu'en UTF-32, même lorsque les textes contiennent des caractères des plans supplémentaires (car ce cas de figure reste rare dans la très grande majorité des cas).

Toutefois la transformation en UTF-32 utilise des codets sur 32 bits, dont de très nombreuses valeurs peuvent ne représenter aucun point de code valide (valeurs hors des deux intervalles représentant les points de code valides U+0000 à U+D7FF et U+E000 à U+10FFFF), donc aucun caractère valide ou réservé (toute information qui y serait contenue ne peut donc pas être du texte au sens d'Unicode).

La transmission de textes utilisant ces valeurs invalides de codets dans un des schémas de codage standardisés de l'UTF-32 est interdite pour tout système conforme à Unicode (il faut utiliser plutôt les points de code à usage privé), puisqu'il sera impossible de les représenter dans une autre transformation UTF avec lesquelles les trois UTF standardisées sont bijectivement compatibles (de même que quelques autres transformations également standardisées mais destinées à des usages annexes plus rares, ou comme UTF-7 pour pallier des difficultés avec certains anciens protocoles de transport restreignant les motifs binaires autorisés dans les codets utilisés, ou comme BOCU-1 pour faciliter le tri simplifié des textes dans l'ordre des points de codes utilisés sans nécessiter une connaissance et une analyse des propriétés des caractères codés et de la signification de leurs groupements en séquences, ou comme SCSU pour la compression rapide des textes codés aux fins de stockage sur des appareils aux capacités de traitement très limitées).

Norme chinoise GB 18030

Article détaillé : GB 18030.

Il s'agit d'une transformation de l'Unicode qui n'est pas définie par le Consortium Unicode, mais par l'administration de normalisation en Chine, où sa prise en charge est obligatoire dans les applications. Historiquement c'était un jeu de caractères codé, qui a été étendu pour prendre en charge l'intégralité du répertoire UCS par une transformation algorithmique complétant une large table de correspondance bijective d'un codage à l'autre.

L'algorithme et sa table de correspondance sont maintenant stabilisés et ne peuvent en principe plus changer, ceux-ci ayant été strictement restreints pour couvrir de façon unique la totalité de l'UCS (y compris les caractères réservés non encore assignés à des caractères, mais aussi les caractères d'usage privé, les non-caractères et les demi-codets du plan multilingue de base, sans nécessiter aucune révision de la norme chinoise pour prendre en compte les évolutions de l'UCS et les travaux de normalisation menés par les comités techniques internationaux d'Unicode et de l'ISO et par l'administration de normalisation chinoise qui est elle-même membre des deux comités internationaux ainsi que d'un sous-comité international joint, chargé des travaux de préparation pour la normalisation par l'ISO et Unicode des caractères idéographiques utilisés en Chine, au Japon, en Corée, au Vietnam et dans plusieurs autres pays et organisations internationales reconnaissant et utilisant les écritures chinoises), ce qui fait de cette transformation normalisée chinoise une UTF également valide et conforme pour le standard Unicode et la norme ISO/CEI 10646, documentée et utilisable sans restriction dans le monde entier et interopérable avec les autres UTF définies par Unicode ou l'ISO et documentées dans les recommandations de l'IETF.

Polices de caractères Unicode

Affirmer qu'Unicode code des caractères revient à affirmer qu'il attribue un numéro à des symboles abstraits, selon un principe de codage logique. Unicode ne code en revanche pas les représentations graphiques des caractères, les glyphes. Il n'y a donc pas une bijection entre la représentation du caractère et son numéro, puisque toutes les variantes graphiques de style sont unifiées (du moins tant que ces variantes graphiques ne modifient pas leur sémantique de façon significative pour des traitements particuliers définis par un standard technique ou une norme internationale).

De plus, contrairement à une police ASCII ou latin-1 classique, la sélection d'un glyphe par un code n'est pas unique et est souvent contextuelle, et peut aussi afficher le même glyphe pour des codes différents. Ainsi, le caractère français « é » peut être décrit de deux manières : soit en utilisant directement le numéro correspondant au « é », soit en faisant suivre le numéro du « e » par celui de l'accent aigu sans chasse. Quelle que soit l'option choisie, le même glyphe sera affiché. On dira du premier caractère qu'il est précomposé, du second que c'est une composition (deux caractères forment un seul glyphe composé des deux). Ceci est autorisé et même hautement recommandé car les différentes formes de codage sont classées par Unicode comme « canoniquement équivalentes », ce qui signifie que deux formes de codage équivalentes devraient être traitées de façon identique.

De nombreux caractères composites sont dans ce cas et peuvent être codés de ces deux manières (ou plus, certains caractères composés pouvant être décomposés de plusieurs façons, notamment quand ils comportent plusieurs signes diacritiques). Le plus souvent, le caractère précomposé est préférable pour le codage du texte, si celui-ci existe (c'est le cas pour le grec polytonique, par exemple, lequel, codé en décomposition, peut ne pas être satisfaisant graphiquement : selon les polices de caractères ou le moteur de rendu utilisé, les différents constituants du glyphe étant parfois mal disposés et peu lisibles). Toutefois, tous les caractères composites ne disposent pas d'un point de code unique pour leur forme précomposée.

De même, certains systèmes d'écriture, comme la devanāgarī, le persan ou l'arabe, nécessitent un traitement complexe des ligatures : les graphèmes changent de forme en fonction de leur position ou de leurs voisins (voir Variante contextuelle et Lettre conjointe). La sélection du glyphe correct nécessite un traitement permettant de déterminer la forme contextuelle à sélectionner dans la police, alors même que toutes les formes contextuelles sont codées de façon identique en Unicode.

Pour ces raisons, une police Unicode doit être maniée avec prudence. Par exemple, une police comportant tous les glyphes existants ne suffit pas. Il faut également que le système d'affichage (le moteur de rendu) possède les mécanismes à même de traiter les ligatures, variantes contextuelles et formes conjointes propres à certaines langues. À l'inverse, une police qui ne représente qu'une partie des caractères mais sait les afficher correctement, mérite mieux le titre de « police Unicode ».

Enfin, certaines contraintes techniques des formats de polices peuvent les empêcher de supporter la totalité du répertoire. En pratique, il est encore impossible (en 2024) de trouver une police de caractères unique dans un format prenant en charge l'ensemble du répertoire nécessaire et ses évolutions (ne serait-ce même que le répertoire des seuls caractères codés par un unique point de code) et il est très peu probable que cela puisse désormais exister, le répertoire étant devenu beaucoup trop grand pour rendre une telle police facilement installable et maintenable. Au lieu de cela, des catalogues de polices liées symboliquement entre elles (avec des alternatives possibles) viennent les remplacer au sein des moteurs de rendu.

Une police de caractères Unicode est donc seulement une police permettant d'afficher directement un texte codé selon toutes les formes autorisées par Unicode, et permettant de supporter un sous-ensemble cohérent adapté à une ou plusieurs langues pour supporter une ou plusieurs écritures. Aucune police de caractère Unicode ne peut « fonctionner » seule, et le support complet de l'écriture nécessite un support de celles-ci dans un moteur de rendu, capable de détecter les formes de codage équivalentes, rechercher les formes contextuelles dans le texte et sélectionner les différents glyphes d'une police codée avec Unicode, en s'aidant au besoin de tables de correspondances incluses dans la police elle-même.

Détails techniques

Bibliothèques logicielles

La bibliothèque logicielle multiplateforme ICU permet de manipuler des données encodées avec Unicode. Un support d'Unicode spécifique à certaines plateformes est également intégré par les systèmes modernes (Java, Microsoft Windows, GNU/Linux, bibliothèques standards C/C++, Python, etc.).

Les types à utiliser pour stocker des variables Unicode, sont les suivants :

Types compatibles avec Unicode dans les langages de programmation
Langage de programmation Type pour un seul caractère Type pour tout texte

C char[4]^[a] ou wchar_t[2]^[b] char[] ou wchar_t[]

C++ char[4]^[a] ou wchar_t[2]^[a] char[] ou wchar_t[] ou std::string ou std::wstring

Java char[2] ou int^[c] char[] ou String

Bibliothèque ICU (pour C/C++ ou Java) UChar UChar[] ou String, UnicodeString

JavaScript ou ECMAScript char^[d] string

C# ou J# char string

Delphi char[4]^[a] ou widechar[2] string^[a] ou widestring

Python 2 unicode

Python 3 str

Go rune (=int32) string ou []byte

Swift Character String

1 2 3 4 5 En UTF-8

↑ Le type wchar_t du langage C ne permet pas toujours de coder tous les caractères Unicode, car la norme de ce langage ne prévoit pas de nombre minimum suffisante pour ce type standard. Cependant, de nombreux compilateurs du langage définissent wchar_t sur 32 bits (voire 64 bits sur les environnements manipulant les entiers standards sur 64 bits), ce qui suffit pour stocker n'importe quel point de code Unicode standardisé. Mais d'autres compilateurs représentent wchar_t sur 16 bits (notamment sous Windows en environnement 16 ou 32 bits), voire sur 8 bits seulement (notamment dans les environnements embarqués ne disposant pas d'un système d'exploitation d'usage général) car wchar_t peut utiliser la même représentation que le type char qui compte un minimum de 8 bits.

↑ De manière similaire au C et au C++, le langage Java dispose de type unitaire permettant de coder 16 bits, mais ne permettant pas de coder un seul point de code d'une valeur quelconque (le type natif char est un entier positif sur 16 bits seulement). Pour manipuler les caractères standardisés hors du premier plan, il faut utiliser une paire de codets, chacun contenant une valeur égale aux deux codets définis par la forme UTF-16. Aussi les types d'objets String ou char[2] sont les plus appropriés pour représenter un caractère Unicode. Depuis Java 1.4.1, la bibliothèque standard fournit un support complet d'Unicode grâce au type natif int (qui est un entier défini sur 32 bits) et aux méthodes statiques de la classe standard Character (cependant un objet instancié de ce type Character ne permet pas, tout comme le type natif char, de stocker n'importe quel point de code).

↑ JavaScript comporte diverses implémentations non standardisées dont certaines plus anciennes ne supportent pas plus de 16 bits par caractère, et parfois seulement 8 bits. Toutefois, la norme ECMAScript de ce langage définit une classe utilitaire Character sur 32 bits (en fait basée sur la classe Number) devant supporter tous les points de code des 17 plans standardisés, tandis que les chaines de caractères utilise des caractères codés obligatoirement sur 16 bits (mais sans restriction renforçant l'appariement des unités de code UTF-16, les chaînes ECMAScript de type String n'étant pas restreintes au seul codage UTF-16 mais étant des vecteurs de constantes entières codées sur 16 bits sans restriction, afin d'assurer l'interopérabilité avec Java et d'autres langages qui eux non plus ne renforcent pas les restrictions de conformité UTF-16 dans leurs types natifs de données). Ces deux langages ne supportent pas de typage explicite des variables, le type étant défini dynamiquement par les valeurs qu'on leur assigne (aussi, plusieurs représentations internes sont possibles, leurs différences étant normalement transparentes pour le programmeur).

Unicode souffre toutefois encore d'un faible support des expressions rationnelles par certains logiciels, même si des bibliothèques comme ICU et Java peuvent les supporter. Un tel support n'a pas encore été standardisé pour ECMAScript et n'est fourni qu'avec l'aide de bibliothèques créées avec le langage ou des interfaces d'interopérabilité avec d'autres systèmes (notamment avec CORBA, COM) ou langages (notamment C++ et Java).

Partitionnement

Le partitionnement à jour peut être trouvé sur le site officiel d'Unicode. Cependant, étant donné le rôle important d'Unicode actuellement (ISO/CEI 10646), on décrira ici les principaux blocs de caractères. Les noms français sont les noms officiels d'ISO/CEI 10646, la norme internationale bilingue qui reprend les mêmes caractères qu'Unicode. Ils sont aussi officiels que les noms anglais.

L'ancien standard Unicode 1.0 est obsolète et incompatible avec la norme ISO/CEI 10646 et le standard Unicode 1.1 et toutes ses versions ultérieures (dont la version 2.0 et toutes les suivantes qui sont désormais synchronisées avec les éditions de la norme ISO/CEI 10646-1 révisée, pour leur répertoire commun ainsi que les formes de codage normalisées valides, la norme ISO/CEI ayant réduit son espace de codage à ses 17 premiers plans) ; la principale incompatibilité est celle des blocs de caractères Hangul utilisés pour l'écriture de la langue coréenne qui ont changé de position dans Unicode 1.1 pour s'aligner avec la norme ISO, et dont les anciens points de code ont depuis été assignés à d'autres blocs. La table ci-dessous est compatible avec ISO/CEI 10646-1 (toutes versions) et Unicode 1.1 (ou ultérieur).

N.b. La casse des noms de bloc n’est pas normative. « Latin de base » est donc équivalent à « LATIN DE BASE ». Dans les tableaux suivants, tout nom de bloc ayant une note ramenant à un PDF officiel Unicode signifie que la page Wikipédia associée à ce bloc est inexistante ou erronée.

Langues écrites :

Alphabétique

Latin

Cyrillique

Grec

Arménien

Géorgien

[L]ogographique, et [S]yllabique ou [A]lphabétique

Hangeul [A]

Kana (Katakana, Hiragana, Kanbun) [S]

Bopomofo [S]

Hanzi / Kanji / Hanja ^[b] [L]

Consonantique (abjads sémitiques)

Arabe

Hébreu

Alphasyllabique (abugidas)

Langues indo-aryennes du nord

Langues dravidiennes

Éthiopien

Thâna

syllabique canadien

Plan multilingue de base (PMB, U+0000 à U+FFFF)

Article détaillé : Table des caractères Unicode (0000-FFFF).

Points de code Nom du bloc en français PDF officiel En savoir plus

Début Fin

U+0000 U+007F Commandes C0 et latin de base (en) « U0000 » voir ISO/CEI 646, ASCII, Alphabet latin, Caractères de contrôle Unicode

U+0080 U+00FF Commandes C1 et supplément latin ― 1 (en) « U0080 » voir ISO/CEI 8859, ISO/CEI 8859-1, Alphabet latin, Caractères de contrôle Unicode

U+0100 U+017F Latin étendu ― A (en) « U0100 » voir Alphabet latin

U+0180 U+024F Latin étendu ― B (en) « U0180 »

U+0250 U+02AF Latin ― supplément pour l’API (en) « U0250 » voir Alphabet latin, Alphabet phonétique international (API)

U+02B0 U+02FF Lettres modificatives avec chasse (en) « U02B0 » voir Diacritique, Alphabet latin, Diacritiques de l’alphabet latin, Alphabet phonétique international

U+0300 U+036F Diacritiques (en) « U0300 » voir Diacritique, Diacritiques de l’alphabet latin, Diacritiques de l'alphabet grec, Alphabet copte, Diacritiques de l’alphabet cyrillique

U+0370 U+03FF Grec et copte (en) « U0370 » voir Alphabet grec et Alphabet copte

U+0400 U+04FF Cyrillique (en) « U0400 » voir Alphabet cyrillique

U+0500 U+052F Cyrillique ― supplément (en) « U0500 »

U+0530 U+058F Arménien (en) « U0530 » voir Alphabet arménien

U+0590 U+05FF Hébreu (en) « U0590 » voir Alphabet hébreu, Diacritique, Diacritiques de l’alphabet hébreu

U+0600 U+06FF Arabe (en) « U0600 » voir Alphabet arabe

U+0700 U+074F Syriaque (en) « U0700 » voir Syriaque

U+0750 U+077F Arabe ― supplément (en) « U0750 » voir Alphabet arabe

U+0780 U+07BF Thâna (en) « U0780 » voir Alphabet Maldivien

U+07C0 U+07FF N’ko (en) « U07C0 » voir N’ko

U+0800 U+083F Samaritain (en) « U0800 » voir Alphabet samaritain

U+0840 U+085F Mandéen (en) « U0840 » voir Alphabet mandéen

U+0860 U+086F Syriaque ― supplément (en) « U0860 » voir Syriaque

U+0870 U+089F Arabe étendu ― B (en) « U0870 » voir Alphabet arabe, Diacritique, Diacritiques de l’alphabet arabe

U+08A0 U+08FF Arabe étendu ― A (en) « U08A0 »

U+0900 U+097F Dévanâgarî (en) « U0900 » voir Dévanâgarî

U+0980 U+09FF Bengalî (en) « U0980 » voir Bengalî

U+0A00 U+0A7F Gourmoukhî (en) « U0A00 » voir Gurmukhî

U+0A80 U+0AFF Goudjarâtî (en) « U0A80 » voir Alphabet goudjarâtî

U+0B00 U+0B7F Oriya (ou Odia) (en) « U0B00 » voir Oriya (ou Odia)

U+0B80 U+0BFF Tamoul (en) « U0B80 » voir Tamoul

U+0C00 U+0C7F Télougou (en) « U0C00 » voir Télougou

U+0C80 U+0CFF Kannara (en) « U0C80 » voir Kannada (ou Kannara)

U+0D00 U+0D7F Malayâlam (en) « U0D00 » voir Malayâlam

U+0D80 U+0DFF Singhalais (ou Singalais, Cingalais) (en) « U0D80 » voir Singhalais (ou Singalais, Cingalais)

U+0E00 U+0E7F Thaï (en) « U0E00 » voir Thaï

U+0E80 U+0EFF Laotien (en) « U0E80 » voir Laotien

U+0F00 U+0FFF Tibétain (en) « U0F00 » voir Tibétain

U+1000 U+109F Birman (en) « U1000 » voir Birman

U+10A0 U+10FF Géorgien (en) « U10A0 » voir Géorgien, Alphabet géorgien

U+1100 U+11FF Hangûl ― jamos (en) « U1100 » voir Hangûl (ou Hangeul)

U+1200 U+137F Éthiopien (en) « U1200 » voir Alphasyllabaire guèze

U+1380 U+139F Éthiopien ― supplément (en) « U1380 » voir Alphasyllabaire guèze

U+13A0 U+13FF Chéroki (en) « U13B0 » voir Syllabaire cherokee

U+1400 U+167F Syllabaires autochtones canadiens unifiés (en) « U1400 » voir Langues amérindiennes

U+1680 U+169F Ogham (en) « U1680 » voir Ogham

U+16A0 U+16FF Runes (en) « U16A0 » voir Rune (ou futhark)

U+1700 U+171F Tagalog (en) « U1700 » voir Tagalog

U+1720 U+173F Hanounóo (en) « U1720 » voir Alphabet Hanunóo (en)

U+1740 U+175F Bouhide (en) « U1740 » voir Bouhide (en)

U+1760 U+177F Tagbanoua (en) « U1760 » voir Alphabet Tagbanoua (en)

U+1780 U+17FF Khmer (en) « U1780 » voir Khmer (ou cambodgien)

U+1800 U+18AF Mongol (en) « U1800 » voir Mongol

U+18B0 U+18FF Syllabaires autochtones canadiens étendus (en) « U18B0 » voir Langues amérindiennes

U+1900 U+194F Limbou (en) « U1900 » voir Limbou

U+1950 U+197F Taï-le (en) « U1950 » voir Taï-le

U+1980 U+19DF Nouveau taï lü (en) « U1980 » voir Taï lü

U+19E0 U+19FF Khmer ― symboles (en) « U19E0 » voir Khmer (ou cambodgien)

U+1A00 U+1A1F Bugi (ou lontara) (en) « U1A00 » voir Bugi (ou bouguinais), Écriture lontara

U+1A20 U+1AAF Taï tham (en) « U1A20 » voir Alphabet Taï Tham (en)

U+1AB0 U+1AFF Diacritiques étendu (en) « U1AB0 » voir Diacritique

U+1B00 U+1B7F Balinais (en) « U1B00 » voir Écriture balinaise

U+1B80 U+1BBF Soundanais (en) « U1B80 » voir Soundanais, Alphabet Soundanais (en)

U+1BC0 U+1BFF Batak (en) « U1BC0 » voir Écriture batak

U+1C00 U+1C4F Lepcha (en) « U1C00 » voir Alphabet lepcha

U+1C50 U+1C7F Ol tchiki (en) « U1C50 » voir Alphabet santâlî (ou Ol Cemet’, Ol tchiki)

U+1C80 U+1C8F Cyrillique étendu ― C (en) « U1C80 » voir Alphabet cyrillique, Slavon d'église

U+1C90 U+1CBF Géorgien étendu (en) « U1C90 » voir Géorgien, Alphabet géorgien

U+1CC0 U+1CCF Soundanais - supplément (en) « U1CC0 » voir Soundanais, Alphabet Soundanais (en)

U+1CD0 U+1CFF Extensions védiques (en) « U1CD0 » voir Sanskrit

U+1D00 U+1D7F Latin - supplément phonétique (en) « U1D00 » voir Alphabet latin, Alphabet phonétique international

U+1D80 U+1DBF Latin - supplément phonétique étendu (en) « U1D80 »

U+1DC0 U+1DFF Diacritiques - supplément (en) « U1DC0 » voir Diacritique

U+1E00 U+1EFF Latin étendu - supplément (en) « U1E00 » voir Alphabet latin

U+1F00 U+1FFF Grec étendu (en) « U1F00 » voir Alphabet grec, Diacritiques de l’alphabet grec

U+2000 U+206F Ponctuation générale (en) « U2000 » voir Ponctuation, Espace

U+2070 U+209F Exposants et indices (en) « U2070 » voir Exposant et Indice

U+20A0 U+20CF Symboles monétaires (en) « U20A0 » voir Symbole monétaire

U+20D0 U+20FF Signes combinatoires pour symboles (en) « U20D0 » voir Symboles mathématiques, Opérateurs mathématiques, Flèche, rotation

U+2100 U+214F Symboles de type lettre (en) « U2100 » voir Température, Symboles mathématiques, Sigles ou symboles liés au dépôt de marque

U+2150 U+218F Formes numérales (en) « U2150 » voir Numération romaine, Fraction

U+2190 U+21FF Flèches (en) « U2190 » voir Flèche

U+2200 U+22FF Opérateurs mathématiques (en) « U2200 » voir Opérateurs mathématiques

U+2300 U+23FF Signes techniques divers (en) « U2300 » voir Alphabet grec, Ponctuation, Flèche, Symboles mathématiques, Émoji

U+2400 U+243F Pictogrammes de commande (en) « U2400 » voir ISO/CEI 8859, ISO/CEI 646, Contrôle C0 (en)

U+2440 U+245F Reconnaissance optique de caractères (ROC) (en) « U2430 » voir Reconnaissance optique de caractères (ROC)

U+2460 U+24FF Alphanumériques délimités (en) « U2460 » voir Alphabet latin, Chiffres arabes

U+2500 U+257F Filets (en) « U2500 » voir Caractère de dessin de boîte (en), Rectangle, Filet (typographie)

U+2580 U+259F Pavés (en) « U2580 » voir Caractère de dessin de boîte (en), Rectangle

U+25A0 U+25FF Formes géométriques (en) « U25A0 » voir Forme géométrique

U+2600 U+26FF Symboles divers (en) « U2600 » voir Symbole, Émoji, Jeu de cartes français, Échecs, Symbole de genre

U+2700 U+27BF Casseau (en) « U2700 » voir Symbole, Chiffres arabes, Ponctuation, Émoji, Opérateurs mathématiques, Flèche

U+27C0 U+27EF Symboles mathématiques divers ― A (en) « U27C0 » voir Symboles mathématiques

U+27F0 U+27FF Flèches ― supplément A (en) « U27F0 » voir Flèche

U+2800 U+28FF Combinaisons Braille (en) « U2800 » voir Braille

U+2900 U+297F Flèches ― supplément B (en) « U2900 » voir Flèche

U+2980 U+29FF Symboles mathématiques divers ― B (en) « U2980 » voir Symboles mathématiques

U+2A00 U+2AFF Opérateurs mathématiques ― supplément (en) « U2A00 » voir Opérateurs mathématiques

U+2B00 U+2BFF Symboles et flèches divers (en) « U2B00 » voir Flèche, Émoji

U+2C00 U+2C5F Glagotique (en) « U2C00 » voir Alphabet glagolitique

U+2C60 U+2C7F Latin étendu ― C (en) « U2C00 » voir Alphabet latin, Ouïghour

U+2C80 U+2CFF Copte (en) « U2C80 » voir Alphabet copte

U+2D00 U+2D2F Géorgien ― supplément (en) « U2D00 » voir Géorgien, Alphabet géorgien

U+2D30 U+2D7F Tifinagh (en) « U2D30 » voir Tifinagh et Langues berbères

U+2D80 U+2DDF Éthiopien étendu (en) « U2D80 » voir Alphasyllabaire guèze

U+2DE0 U+2DFF Cyrillique étendu ― A (en) « U2DE0 » voir Alphabet cyrillique, Diacritique, Diacritiques de l’alphabet cyrillique

U+2E00 U+2E7F Ponctuation ― supplément (en) « U2E00 » voir Ponctuation

U+2E80 U+2EFF Sinogrammes ― clés CJC ― supplément (en) « U2E80 » voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+2F00 U+2FDF Sinogrammes ― clés chinoises du Kangxi (en) « U2F00 » voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Dictionnaire de caractères de Kangxi

U+2FE0 U+2FEF Réservé ―^[11] ―

U+2FF0 U+2FFF Description idéographique (en) « U2FF0 » voir Description idéographique

U+3000 U+303F Symboles et ponctuation CJC (en) « U3000 » voir Ponctuation, Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+3040 U+309F Hiragana (en) « U3040 » voir Hiragana, Écritures du japonais, Japonais

U+30A0 U+30FF Katakana (en) « U30A0 » voir Katakana, Écritures du japonais, Japonais

U+3100 U+312F Bopomofo (en) « U3100 » voir Bopomofo, Chinois, japonais, coréen et vietnamien, Sinogramme

U+3130 U+318F Hangûl ― jamos de compatibilité (en) « U3130 » voir Hangûl (ou Hangeul), Coréen

U+3190 U+319F Kanbun (en) « U3190 » voir Kanbun, Sinogramme, Écritures du japonais, Japonais

U+31A0 U+31BF Bopomofo étendu (en) « U31A0 » voir Bopomofo, Sinogramme, Chinois écrit, Langues chinoises

U+31C0 U+31EF Sinogrammes ― traits CJC (en) « U31C0 » voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+31F0 U+31FF Katakana ― extension phonétique (en) « U31F0 » voir Katakana, Écritures du japonais, Japonais

U+3200 U+32FF Lettres et mois CJC délimités (en) « U3200 » voir Chiffres arabes, Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+3300 U+33FF Sinogrammes ― compatibilité CJC (en) « U3000 » voir Unité de mesure, Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+3400 U+4DBF Sinogrammes unifiés CJC ― supplément A
(1^re partie, 2^e partie) (en) « U3400 » voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+4DC0 U+4DFF Hexagrammes du Classique des mutations ou Yi Jing (en) « U4DC0 » voir Yi Jing, Hexagramme, Chinois, japonais, coréen et vietnamien, Sinogramme

U+4E00 U+9FFF U+Idéogrammes unifiés CJC
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie, 6^e partie) (en) « U4E00 » voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen, Vietnamien

U+A000 U+A48F Yi ― syllabaire des Monts frais (en) « UA000 » voir Syllabaire yi

U+A490 U+A4CF Yi ― clés (en) « UA490 »

U+A4D0 U+A4FF Lissou (en) « UA4D0 » voir Lissou, Alphabet de Fraser (en)

U+A500 U+A63F Vaï (en) « UA500 » voir Syllabaire vaï

U+A640 U+A69F Cyrillique étendu ― B (en) « UA640 » voir Alphabet cyrillique

U+A6A0 U+A6FF Bamoun (en) « UA6A0 » voir Écriture bamoun

U+A700 U+A71F Lettres modificatives de ton (en) « UA700 » voir Langue à tons, Langues chinoises

U+A720 U+A7FF Latin étendu ― D (en) « UA720 » voir Alphabet latin

U+A800 U+A82F Sylotî nâgrî (en) « UA800 » voir Sylotî nâgrî (en)

U+A830 U+A83F Formes numériques communes indiennes (en) « UA830 » voir Inde

U+A840 U+A87F Phags-pa (en) « UA840 » voir Écriture phagpa

U+A880 U+A8DF Saurachtra (en) « UA880 » voir Alphabet Saurashtra (en)

U+A8E0 U+A8FF Devanâgarî étendu (en) « UA8E0 » voir Dévanâgarî

U+A900 U+A92F Kayah li (en) « UA900 » voir Alphabet Kayah Li

U+A930 U+A95F Rejang (en) « UA930 » voir Écriture redjang

U+A960 U+A97F Hangûl ― Jamos étendus ― A (en) « UA960 » voir Hangûl (ou Hangeul), Coréen

U+A980 U+A9DF Javanais (en) « UA980 » voir Écriture javanaise

U+A9E0 U+A9FF Birman étendu ― B (en) « UA9E0 » voir Birman, Écriture birmane

U+AA00 U+AA5F Cham (en) « UAA00 » voir Cham

U+AA60 U+AA7F Birman étendu ― A (en) « UAA60 » voir Birman, Écriture birmane

U+AA80 U+AADF Taï viêt (en) « UAA80 » voir Alphabet taï viêt, Tay dam, Tay don, Tay Song (en)

U+AAE0 U+AAFF Meitei mayek étendu (en) « UAAE0 » voir Meitei, Écriture Meitei

U+AB00 U+AB2F Éthiopien étendu ― A (en) « UAB00 » voir Alphasyllabaire guèze

U+AB30 U+AB6F Latin étendu ― E (en) « UAB30 » voir Alphabet latin, Teuthonista, Alphabet d'Ascoli, Alphabet Rousselot-Gilliéron

U+AB70 U+ABBF Chéroki ― supplément (en) « UAB70 » voir Syllabaire cherokee

U+ABC0 U+ABFF Meitei mayek (en) « UABC0 » voir Meitei, Écriture Meitei

U+AC00 U+D7AF Hangûl ― syllabes
(1^re partie, 2^e partie, (3^e partie, 4^e partie) (en) « UAC00 » voir Hangûl (ou Hangeul), Coréen

U+D7B0 U+D7FF Hangûl ― Jamos étendus ― B (en) « U27B0 » voir Hangûl (ou Hangeul), Coréen

U+D800 U+DBFF Demi-zone haute d’indirection (en) « UD800 » voir Demi-zone haute d’indirection

U+DC00 U+DFFF Demi-zone basse d’indirection (en) « UDC00 » voir Demi-zone basse d’indirection

U+E000 U+F8FF Zone à usage privé
(1^re partie, 2^e partie) (en) « UE000 » Aucun caractère officiellement défini

U+F900 U+FAFF Sinogrammes de compatibilité CJC (en) « UF900 » voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+FB00 U+FB4F Formes de présentation alphabétiques (en) « UFB00 » voir Alphabet latin, Alphabet hébreu, Alphabet arménien

U+FB50 U+FDFF Arabe ― formes de présentation ― A
(1^re partie, 2^e partie, 3^e partie) (en) « UFB50 » voir Alphabet arabe

U+FE00 U+FE0F Sélecteurs de variante (en) « UFE00 » voir Sélecteurs de variante

U+FE10 U+FE1F Formes verticales (en) « UFE10 » voir Ponctuation, GB 18030

U+FE20 U+FE2F Demi-signes combinatoires (en) « UFE20 » voir Diacritique

U+FE30 U+FE4F Sinogrammes ― formes de compatibilité CJC (en) « UFE30 » voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+FE50 U+FE6F Petites variantes de forme (en) « UFE50 » voir Ponctuation, GBK, GB 2312, CNS 11643 (en)

U+FE70 U+FEFF Arabe ― formes de présentation ― B (en) « UFE70 » voir Alphabet arabe

U+FF00 U+FFEF Formes de demi et pleine chasse (en) « UFF00 » voir Formes à demi et pleine chasse, Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen, ASCII, Alphabet latin

U+FFF0 U+FFFF Caractères spéciaux (en) « UFFF0 » voir Caractères spéciaux

Plan multilingue complémentaire (PMC, U+10000 à U+1FFFF)

Article détaillé : Table des caractères Unicode (10000-1FFFF).

Points de code Nom du bloc en français PDF officiel En savoir plus

Début Fin

U+10000 U+1007F Syllabaire linéaire B (en) « U10000 » voir Linéaire B

U+10080 U+100FF Idéogrammes du linéaire B (en) « U10080 »

U+10100 U+1013F Nombres égéens (en) « U10100 » voir Nombres égéens (sv)

U+10140 U+1018F Nombres grecs anciens (en) « U10140 » voir Nombres grecs anciens

U+10190 U+101CF Symboles anciens (en) « U10190 » voir Unités de mesure romaines, Monnaie romaine

U+101D0 U+101FF Disque de Phaïstos (en) « U101D0 » voir Disque de Phaistos

U+10200 U+1027F Réservé (en) « U10200 » ―

U+10280 U+1029F Lycien (en) « U10280 » voir Lycien

U+102A0 U+102DF Carien (en) « U102A0 » voir Alphabet carien

U+102E0 U+102FF Nombres épactes coptes (en) « U102E0 » voir Copte

U+10300 U+1032F Alphabet italique (en) « U10300 » voir Ancien alphabet italique

U+10330 U+1034F Gotique (en) « U10330 » voir Gotique

U+10350 U+1037F Ancien permien (en) « U10350 » voir Ancien alphabet permien

U+10380 U+1039F Ougaritique (en) « U10380 » voir Alphabet ougaritique

U+103A0 U+103FF Cunéiforme persépolitain (en) « U103A0 » voir Vieux perse

U+10400 U+1044F Déséret (en) « U10400 » voir Alphabet déséret

U+10450 U+1047F Shavien (en) « U10450 » voir Alphabet shavien

U+10480 U+104AF Osmanya (en) « U10480 » voir Alphabet osmanya

U+104B0 U+104FF Osage (en) « U104B0 » voir Osage

U+10500 U+1052F Elbasan (en) « U10500 » voir Écriture elbasan

U+10530 U+1056F Aghbanien (en) « U10530 » voir Alphabet albanien (ou aghbanien)

U+10570 U+105FF Réservé ― ―

U+10600 U+1077F Linéaire A (en) « U10600 » voir Linéaire A

U+10780 U+107FF Réservé ― ―

U+10800 U+1083F Syllabaire chypriote (en) « U10800 » voir Syllabaire chypriote

U+10840 U+1085F Araméen impérial (en) « U10840 » voir Alphabet araméen

U+10860 U+1087F Alphabet palmyrénien (en) « U10860 » voir Alphabet palmyrénien

U+10880 U+108AF Nabatéen (en) « U10880 » voir Alphabet nabatéen

U+108B0 U+108DF Réservé ― ―

U+108E0 U+108FF Hatrénien (en) « U108E0 » voir Alphabet hatrénien (en)

U+10900 U+1091F Phénicien (en) « U10900 » voir Alphabet phénicien

U+10920 U+1093F Lydien (en) « U10920 » voir Alphabet lydien

U+10940 U+1097F Réservé ― ―

U+10980 U+1099F Hiéroglyphes méroïtiques (en) « U10980 » voir Écriture méroïtique

U+109A0 U+109FF Méroïtique cursif (en) « U109A0 »

U+10A00 U+10A5F Kharochthî (en) « U10A00 » voir Alphabet kharoshthi

U+10A60 U+10A7F Sud-arabique (en) « U10A60 » voir Alphabet sudarabique

U+10A80 U+10A9F Nord-arabique (en) « U10A80 » voir Alphabet ancien nord-arabique (en)

U+10AA0 U+10ABF Réservé ― ―

U+10AC0 U+10AFF Manichéen (en) « U10AC0 » voir Alphabet manichéen

U+10B00 U+10B3F Avestique (en) « U10B00 » voir Alphabet avestique (en)

U+10B40 U+10B5F Parthe des inscriptions (en) « U10B40 » voir Parthe des inscriptions (en)

U+10B60 U+10B7F Pehlevi des inscriptions (en) « U10B60 » voir Écriture pehlevi

U+10B80 U+10BAF Pehlevi des psautiers (en) « U10B80 » voir Écriture pehlevi, Psautier

U+10BB0 U+10BFF Réservé ― ―

U+10C00 U+10C4F Vieux turc (en) « U10C00 » voir Alphabet de l'Orkhon, Alphabet de l'Ienisseï

U+10C50 U+10C7F Réservé ― ―

U+10C80 U+10CFF Ancien hongrois (en) « U10C80 » voir Runes hongroises

U+10D00 U+10E5F Réservé ― ―

U+10E60 U+10E7F Symboles numéraux rumi (en) « U10E60 » voir Chiffres de Fès, Fès

U+10E80 U+10FDF Réservé ― ―

U+10FE0 U+10FFF Élyméen (en) « U10FE0 » voir Élyméen (en)

U+11000 U+1107F Brahmî (en) « U11000 » voir Brahmi

U+11080 U+110CF Khaïthî (en) « U11080 » voir Khaithi

U+110D0 U+110FF Sora sompeng (en) « U110D0 » voir Alphabet sora sompeng (ru)

U+11100 U+1114F Chakma (en) « U11100 » voir Ojhapath

U+11150 U+1117F Mahâjanî (en) « U11150 » voir Alphabet mahâjanî (ja)

U+11180 U+111DF Charada (en) « U11180 » voir Alphasyllabaire sharda

U+111E0 U+111FF Nombres archaïques singhalais (en) « U111E0 » voir Singhalais

U+11200 U+1124F Khojki (en) « U11200 » voir Khojki (sd)

U+11250 U+1127F Réservé ― ―

U+11280 U+112AF Multanais (en) « U11280 » voir Alphabet multanais (en)

U+112B0 U+112FF Khudabadi (en) « U112B0 » voir Écriture khudabadi (en)

U+11300 U+1137F Grantha (en) « U11300 » voir Grantha

U+11380 U+113FF Réservé ― ―

U+11400 U+1147F Newa (en) « U11400 » voir Alphabet newa (en)

U+11480 U+114DF Tirhuta (en) « U11480 » voir Tirhuta

U+114E0 U+1157F Réservé ― ―

U+11580 U+115FF Siddham (en) « U11580 » voir Alphasyllabaire siddham

U+11600 U+1165F Modi (en) « U11600 » voir Alphasyllabaire modi

U+11660 U+1167F Supplément mongol (en) « U11660 » voir Mongol

U+11680 U+116CF Takrî (en) « U11680 » voir Alphabet takrî

U+116D0 U+116FF Réservé ― ―

U+11700 U+1173F Âhom (en) « U11700 » voir Alphasyllabaire âhom

U+11740 U+1189F Réservé ― ―

U+118A0 U+118FF Varang kchiti (en) « U118A0 » voir Varang kchiti (en)

U+11900 U+1199F Réservé ― ―

U+119A0 U+119FF Nandinâgarî (en) (en) « U119A0 » voir Nandinâgarî

U+11A00 U+11A4F Zanabazar quadratique (en) « U11A00 » voir Zanabazar, Mongol

U+11A50 U+11AAF Soyombo (en) « U11A50 » voir Écriture soyombo

U+11AB0 U+11ABF Réservé ― ―

U+11AC0 U+11AFF Paou chin haou (en) « U11AC0 » voir Écriture Paou chin haou (en)

U+11B00 U+11BFF Réservé ― ―

U+11C00 U+11C6F Bhaiksuki (en) « U11C00 » voir Alphabet bhaiksuki (en)

U+11C70 U+11CBF Marchen (en) « U11C70 » voir Zhang-zhung

U+11CC0 U+11CFF Réservé ― ―

U+11D00 U+11D5F Gondi de Masaram (en) « U11D00 » voir Gondi de Masaram (en), Gondi

U+11D60 U+11DAF Gondi de Gunjala (en) « U11D60 » voir Gondi de Gunjala (en), Gondi

U+11DB0 U+11FBF Réservé ― ―

U+11FC0 U+11FFF Supplément tamoul (en) (en) « U11FC0 » voir Tamoul

U+12000 U+123FF Cunéiforme (en) « U12000 » voir Cunéiforme

U+12400 U+1247F Ponctuation et nombres cunéiformes (en) « U12400 »

U+12480 U+1254F Cunéiforme des dynasties archaïques (en) « U12480 »

U+12550 U+12FFF Réservé ― ―

U+13000 U+1342F Hiéroglyphes égyptiens (en) « U13000 » voir Écriture hiéroglyphique égyptienne

U+13430 U+1343F Contrôles de formattage de hiéroglyphes égyptiens (en) « U13430 »

U+13440 U+143FF Réservé
(1^re partie, 2^e partie) ― ―

U+14400 U+1467F Hiéroglyphes anatoliens (en) « U14400 » voir Hiéroglyphes anatoliens

U+14680 U+167FF Réservé
(1^re partie, 2^e partie, 3^e partie) ― ―

U+16800 U+16A3F Supplément bamoun (en) « U16800 » voir Écriture bamoun

U+16A40 U+16A6F Mro (en) « U16A40 » voir Mru (langue)

U+16A70 U+16ACF Réservé ― ―

U+16AD0 U+16AFF Bassa (en) « U16AD0 » voir Alphabet bassa

U+16B00 U+16B8F Pahawh hmong (en) « U16B00 » voir Pahawh hmong

U+16B90 U+16EFF Réservé ― ―

U+16F00 U+16F9F Miao (en) « U16F00 » voir Écriture miao

U+16FA0 U+16FDF Réservé ― ―

U+16FE0 U+16FFF Symboles et ponctuation idéographiques (en) « U16FE0 » voir Idéogramme, Écriture tangoute, Nüshu

U+17000 U+187FF Tangoute
(1^re partie, 2^e partie) (en) « U17000 » voir Écriture tangoute

U+18800 U+18AFF Composants tangoutes (en) « U18800 » voir Écriture tangoute

U+18B00 U+1AFFF Réservé
(1^re partie, 2^e partie, 3^e partie) ― ―

U+1B000 U+1B0FF Supplément kana (en) « U1B00 » voir Japonais, Écritures du japonais, Kana

U+1B100 U+1B12F Kana étendu A (en) « U1B100 » voir Japonais, Écritures du japonais, Kana, Hentaigana

U+1B130 U+1B16F Extension petit kana (en) « U1B130 »

U+1B170 U+1B2FF Nüshu (en) « U1B170 » voir Nüshu

U+1B300 U+1BBFF Réservé ― ―

U+1BC00 U+1BC9F Sténographie Duployé (en) « U1BC00 » voir Sténographie, Émile Duployé

U+1BCA0 U+1CFFF Réservé
(1^re partie, 2^e partie) ― ―

U+1D000 U+1D0FF Symboles musicaux byzantins (en) « U1D000 » voir Musique byzantine

U+1D100 U+1D1FF Symboles musicaux occidentaux (en) « U1D100 » voir Musique occidentale

U+1D200 U+1D24F Notation musicale grecque ancienne (en) « U1D200 » voir Musique de la Grèce antique

U+1D250 U+1D2FF Réservé ― ―

U+1D300 U+1D35F Symboles du Classique du mystère suprême (en) « U1D300 » voir Tai Xuan Jing (en)

U+1D360 U+1D37F Chiffres-bâtonnets chinois (en) « U1D360 » voir Baguettes à calculer

U+1D380 U+1D3FF Réservé ― ―

U+1D400 U+1D7FF Symboles mathématiques alphanumériques (en) « U1D400 » voir Symboles mathématiques, Alphabet latin, Chiffres arabes

U+1D800 U+1DAAF Écriture des signes de Sutton (en) « U1D800 » voir Écriture des signes

U+1DAB0 U+1DFFF Réservé ― ―

U+1E000 U+1E02F Supplément glagolitique (en) « U1E000 » voir Alphabet glagolitique

U+1E030 U+1E0FF Réservé ― ―

U+1E100 U+1E14F Nyiakeng puachue hmong (en) (en) « U1E800 » voir Nyiakeng puachue hmong (en)

U+1E150 U+1E2DF Réservé ― ―

U+1E2C0 U+1E2FF Wancho (en) (en) « U1E2C0 » voir Wancho

U+1E300 U+1E7FF Réservé ― ―

U+1E800 U+1E8DF Kikakui mendé (en) « U1E800 » voir Kikakui

U+1E8E0 U+1E8FF Réservé ― ―

U+1E900 U+1E95F Adlam (en) « U1E900 » voir Alphabet adlam

U+1E960 U+1ECFF Réservé ― ―

U+1ED00 U+1ED4F Chiffres syaq (en) « U1ED00 »

U+1ED50 U+1ECFF Réservé ― ―

U+1EE00 U+1EEFF Symboles mathématiques alphabétiques arabes (en) « U1EE00 » voir Symboles mathématiques, Mathématiques arabes

U+1EF00 U+1EFFF Réservé ― ―

U+1F000 U+1F02F Pièces de mah-jong (en) « U1F000 » voir Mah-jong

U+1F030 U+1F09F Dominos (en) « U1F030 » voir Dominos

U+1F0A0 U+1F0FF Cartes à jouer (en) « U1F0A0 » voir Cartes à jouer

U+1F100 U+1F1FF Supplément alphanumérique cerclé (en) « U1F100 » voir ARIB STD-B24 (en)

U+1F200 U+1F2FF Supplément idéographique cerclé (en) « U1F200 »

U+1F300 U+1F5FF Divers symboles et pictogrammes (en) « U1F300 » voir Pictogramme, Émoji

U+1F600 U+1F64F Émoticônes (en) « U1F600 » voir Émoticône, Émoji

U+1F650 U+1F67F Casseau ornemental (en) « U1F650 » voir Wingdings

U+1F680 U+1F6FF Symboles du transport et cartographiques (en) « U1F680 » voir Transport, Cartographie, Émoji

U+1F700 U+1F77F Symboles alchimiques (en) « U1F700 » voir Alchimie

U+1F780 U+1F7FF Formes géométriques étendu (en) « U1F780 » voir Forme géométrique

U+1F800 U+1F8FF Supplément C de flèches (en) « U1F800 » voir Flèche

U+1F900 U+1F9FF Supplément de symboles et pictogrammes (en) « U1F900 » voir Pictogramme, Émoticône, Émoji

U+1FA00 U+1FA6F Réservé ― ―

U+1FA70 U+1FAFF Symboles et pictogrammes étendu-A (en) (en) « U1FA70 » voir Pictogramme, Émoji

U+1FB00 U+1FFFF Réservé ― ―

Plan sinographique complémentaire (PSC, U+20000 à U+2FFFF)

Article détaillé : Table des caractères Unicode (20000-2FFFF).

Points de code Nom du bloc en français PDF officiel En savoir plus

Début Fin

U+20000 U+2A6DF Sinogrammes unifiés CJC ― supplément B
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie, 6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie, 11^e partie) (en) « U20000 » voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+2A6E0 U+2A6FF Réservé ―^[12] ―

U+2A700 U+2B73F Sinogrammes unifiés CJC ― supplément C
(1^re partie, 2^e partie) (en) « U2A700 » voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+2B740 U+2B81F Sinogrammes unifiés CJC ― supplément D (en) « U2B740 »

U+2B820 U+2CEAF Sinogrammes unifiés CJC ― supplément E (en) « U2B820 »

U+2CEB0 U+2EBEF Sinogrammes unifiés CJC ― supplément F (en) (en) « U2CEB0 »

U+2EBF0 U+2F7FF Réservé (en) ―^[13] ―

U+2F800 U+2FA1F Sinogrammes de compatibilité CJC ― supplément (en) « U2CEB0 » voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+2FA20 U+2FFFF Réservé ―^[14] ―

Plan sinographique ternaire (PST, U+30000 à U+3FFFF)

Article détaillé : Table des caractères Unicode (30000-3FFFF).

Points de code Nom du bloc en français PDF officiel En savoir plus

Début Fin

U+30000 U+3134F Sinogrammes unifiés CJC ― supplément G (en) « U30000 » voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen

U+31350 U+3FFFD Réservés ―^[15] ―

U+3FFFE U+3FFFF Non-caractères (en) « U3FF80 »

Plans complémentaires réservés (U+40000 à U+DFFFF)

Article détaillé : Table des caractères Unicode (40000-DFFFF).

Points de code Nom du bloc en français PDF officiel Commentaire

Début Fin

U+40000 U+4FFFD Réservé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie,6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie,11^e partie, 12^e partie,
13^e partie, 14^e partie,15^e partie, 16^e partie) ―^[16] Plan 4. Aucun caractère officiellement défini.

U+4FFFE U+4FFFF Non-caractères

U+50000 U+5FFFD Réservé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie,6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie,11^e partie, 12^e partie,
13^e partie, 14^e partie,15^e partie, 16^e partie) ―^[17] Plan 5. Aucun caractère officiellement défini.

U+5FFFE U+5FFFF Non-caractères

U+60000 U+6FFFD Réservé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie,6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie,11^e partie, 12^e partie,
13^e partie, 14^e partie,15^e partie, 16^e partie) ―^[18] Plan 6. Aucun caractère officiellement défini.

U+6FFFE U+6FFFF Non-caractères

U+70000 U+7FFFD Réservé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie,6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie,11^e partie, 12^e partie,
13^e partie, 14^e partie, 15^e partie, 16^e partie) ―^[19] Plan 7. Aucun caractère officiellement défini.

U+7FFFE U+7FFFF Non-caractères

U+80000 U+8FFFD Réservé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie,6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie,11^e partie, 12^e partie,
13^e partie, 14^e partie,15^e partie, 16^e partie) ―^[20] Plan 8. Aucun caractère officiellement défini.

U+8FFFE U+8FFFF Non-caractères

U+90000 U+9FFFD Réservé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie,6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie,11^e partie, 12^e partie,
13^e partie, 14^e partie,15^e partie, 16^e partie) ―^[21] Plan 9. Aucun caractère officiellement défini.

U+9FFFE U+9FFFF Non-caractères

U+A0000 U+AFFFD Réservé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie,6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie,11^e partie, 12^e partie,
13^e partie, 14^e partie,15^e partie, 16^e partie) ―^[22] Plan 10. Aucun caractère officiellement défini.

U+AFFFE U+AFFFF Non-caractères

U+B0000 U+BFFFD Réservé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie,6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie,11^e partie, 12^e partie,
13^e partie, 14^e partie,15^e partie, 16^e partie) ―^[23] Plan 11. Aucun caractère officiellement défini.

U+BFFFE U+BFFFF Non-caractères

U+C0000 U+CFFFF Réservé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie,6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie,11^e partie, 12^e partie,
13^e partie, 14^e partie,15^e partie, 16^e partie) ―^[24] Plan 12. Aucun caractère officiellement défini.

U+CFFFE U+CFFFF Non-caractères

U+D0000 U+DFFFD Réservé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie,6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie,11^e partie, 12^e partie,
13^e partie, 14^e partie,15^e partie, 16^e partie) ―^[25] Plan 13. Aucun caractère officiellement défini.

U+DFFFE U+DFFFF Non-caractères

Plan complémentaire spécialisé (PCS, U+E0000 à U+EFFFF)

Points de code Nom officiel du bloc Commentaires

Début Fin

E0000 E007F Étiquettes

E0080 E00FF Réservé^[26] -

E0100 E01EF Supplément de sélecteurs de variante

E01F0 EFFFF Réservé^[27]
_{(Partie 1)} _{(Partie 2)} _{(Partie 3)} _{(Partie 4)} _{(Partie 5)}
_{(Partie 6)} _{(Partie 7)} _{(Partie 8)} _{(Partie 9)} _{(Partie 10)}
_{(Partie 11)} _{(Partie 12)} _{(Partie 13)} _{(Partie 14)}
_{(Partie 15)} _{(Partie 16)} _{(Partie 17)} -

Plans complémentaires à usage privé (U+F0000 à U+10FFFF)

Points de code Nom officiel du bloc PDF officiel Commentaires

Début Fin

U+F0000 U+FFFFD Zone supplémentaire A à usage privé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie, 6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie, 11^e partie, 12^e partie,
13^e partie, 14^e partie, 15^e partie, 16^e partie, fin de plan) (en) « UF0000 » Plan 15. Aucun caractère officiellement défini.

U+FFFFE U+FFFFF Non-caractères (en) « UFFF80 »

U+100000 U+10FFFD Zone supplémentaire B à usage privé
(1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie, 6^e partie,
7^e partie, 8^e partie, 9^e partie, 10^e partie, 11^e partie, 12^e partie,
13^e partie, 14^e partie, 15^e partie, 16^e partie, fin de plan) (en) « U100000 » Plan 16. Aucun caractère officiellement défini.

U+10FFFE U+10FFFF Non-caractères (en) « U10FF80 »

Les zones à usage privé ne contiennent pas les mêmes œils d'une police à l'autre et doivent donc être évités pour le codage de textes destinés aux échanges entre systèmes hétérogènes. Toutefois, ces points de codes à usage privé sont valides et peuvent être utilisés dans tout traitement automatisé conforme aux normes Unicode et ISO/CEI 10646, y compris entre systèmes différents s'il existe un accord mutuel privé concernant leur usage.

En l'absence d'accord entre les deux parties, des systèmes utilisant ces caractères peuvent rejeter les textes les contenant, car les traitements qu'ils leur font subir pourraient ne pas fonctionner correctement ou causer des problèmes de sécurité ; les autres systèmes qui n'attribuent aucune fonction spéciale à ces caractères doivent en revanche les accepter comme valides et les conserver comme partie intégrante des textes, comme s'il s'agissait de symboles graphiques, même s'ils ne savent pas les afficher correctement.

Les non-caractères sont des points de code valides, mais ils ne sont pas (et ne seront jamais) assignés à des caractères standardisés. Leur usage dans le codage de textes transmis entre systèmes (même si identiques) est interdit, car il est impossible de les rendre compatibles avec les formes de transformation universelles standardisées (dont UTF-8, UTF-16, UTF-32) les schémas de codage correspondants, et les autres codages standardisés compatibles avec Unicode et ISO/CEI 10646 (BOCU-1, SCSU, différentes versions de la norme chinoise GB 18030, etc.). Toutefois, certains systèmes les génèrent et les utilisent localement, mais pour un traitement strictement interne destiné à faciliter l'implémentation des algorithmes de traitement de textes utilisant les autres caractères standardisés.

Parmi ces derniers non-caractères figurent les points de code valides mais réservés aux demi-zones (privées ou non). Ces points de code ne peuvent pas être utilisés individuellement pour coder un caractère. Ils servent uniquement pour la forme de transformation universelle UTF-16 (et les schémas de codage correspondants) pour représenter sur deux codets (à 16 bits chacun) des points de code valides dans un des 16 plans complémentaires (certaines combinaisons de codets correspondent à des caractères valides de ces plans, standards ou privés, d'autres combinaisons peuvent ne représenter aucun caractère valide car elles correspondraient à des non-caractères de ces plans complémentaires, et sont donc interdites dans les textes conformes à la norme).

Les autres zones libres (non assignées à un bloc nommé standardisé, ou les points de code laissés libres et réservés dans les blocs nommés existants) sont réservées pour un usage ultérieur dans des versions futures d'Unicode et ISO/CEI 10646, mais sont valides. Tout système traitant des textes contenant ces points de code réservés doivent les accepter sans les filtrer. Unicode définit des propriétés par défaut pour les hypothétiques caractères correspondants, afin de préserver la compatibilité des systèmes (conformes à la norme Unicode) avec les futurs textes conformes qui les contiendraient. Aucune application conforme ne doit leur assigner un caractère ou une sémantique spéciale (les zones privées sont destinées à cet usage).

Notes et références

↑ « Unicode 17.0.0 », sur www.unicode.org (consulté le 30 juillet 2026)

↑ (en) Inc Unicode, « Announcing The Unicode® Standard, Version 17.0 » (consulté le 30 juillet 2026).

↑ « UTR #33 - Conformance Model », sur unicode.org (consulté le 25 octobre 2024)

↑ (en) « Usage Statistics of Character Encodings for Websites, January 2017 », sur w3techs.com (consulté le 6 janvier 2017).

↑ « UTR#17: Unicode Character Encoding Model », sur www.unicode.org (consulté le 30 juillet 2026)

↑ (en) « UTF-8, a transformation format of ISO 10646 », Request for comments n^o 3629, novembre 2003

↑ (en) The Unicode Standard, Version 5.0, Chapter 16 : Special Areas and Format Characters[PDF] - Unicode, Inc., p. 354.

↑ Les séquences UTF-8 doivent être les plus courtes possibles. Cette restriction doit être vérifiée pour éviter certaines failles de sécurité, du type « /../ » – se reporter aux détails dans la section « Inconvénients » de l'article UTF-8.

↑ (en) « Code in Apache Xalan 2.7.0 which can fail on surrogate pairs : =The code wrongly assumes it is safe to use substring on the input », Apache Foundation.

↑ (en) « kí tự đặc biệt », 25 mai 2026 (consulté le 30 juillet 2026)

↑ (en) « U2FE0 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « U2A6E0 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « U2EBF0 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « U2FA20 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « U31350 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « U40000 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « U50000 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « U60000 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « U70000 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « U80000 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « U90000 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « UA0000 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « UB0000 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « UC0000 (réservé) » (consulté le 30 juillet 2026)

↑ (en) « UD0000 (réservé) » (consulté le 30 juillet 2026)

↑ « UE0080 », sur Unicode.org (consulté le 30 juillet 2026)

↑ « UE01F0 », sur Unicode.org (consulté le 30 juillet 2026)

Voir aussi

Liens externes

(en) Site officiel

Notices dans des dictionnaires ou encyclopédies généralistes :
Britannica

Den Store Danske Encyklopædi

Enciclopedia De Agostini

Gran Enciclopèdia Catalana

Nationalencyklopedin

Store norske leksikon

Notices d'autorité :
LCCN

GND

Israël

Tchéquie

The World’s Writing Systems, Les 294 systèmes d'écritures au monde connus et leur statut Unicode (131 non-encore encodés).

Références normatives

(en) « Unicode – The World Standard for Text and Emoji » — page d’accueil du site officiel.
(en) « The Unicode Standard » — lien permanent vers la dernière version publiée de la norme Unicode.
(en) « Unicode Character Code Charts » — collection de documents PDF.

« Tableaux des caractères Unicode » — collection de documents PDF.

(en) « Unicode Technical Reports » — annexes normalisées, normes techniques et rapport techniques (dont certains pour d'anciennes versions d’Unicode).
(en) « UAX #41: Common References for UAXs » — liste officielle des références utilisées dans la norme Unicode.

(en) « UTS #10 : Unicode Collation Algorithm (UCA) » — algorithme d'ordonnancement normalisé Unicode (pour le tri, la reconnaissance ou la recherche de texte).

(en) RFC 3629 : UTF-8, a transformation format of ISO 10646 — standard de l’IETF (novembre 2003) ; remplace RFC 2279 (obsolète).

Références informatives

(fr) Traduction française officielle des normes ISO/CEI 10646 et Unicode.

(fr) Unicode 5.0 en pratique, par Patrick Andries, paru chez Dunod (avril 2008) — ouvrage de référence.

(en) RFC 1641 : Using Unicode with MIME — expérimental (juillet 1994)

(en) RFC 2152 : UTF-7, A Mail-Safe Transformation Format of Unicode — expérimental (mai 1997) ; remplace RFC 1642 (obsolète)

(en) RFC 2482 : Language Tagging in Unicode Plain Text — informatif (janvier 1999)

(en) RFC 3718 : A Summary of Unicode Consortium Procedures, Policies, Stability, and Public Access — informatif (février 2004)

(en) RFC 5891 : Internationalized Domain Names in Applications (IDNA): Protocol — standard proposé ; remplace RFC 3490 et RFC 3491 (obsolètes), met à jour RFC 3492 Punycode

(en) Unicode — The Movie Tous les 109 242 caractères de Unicode 6.0 dans un seul film

Tables et données tierces de mise en œuvre ou d'utilisation

(en) The Gallery of Unicode Fonts : inventaire de 1 239 fontes (août 2007) et des caractères qu'elles comprennent.

(en) Unicode and Multilingual Support in HTML, Fonts, Web Browsers and Other Applications, le site d'Alan Wood recensant les différents blocs d'Unicode avec pages de tests, conseils et liens vers les ressources, polices, et utilitaires permettant de saisir et d'afficher les blocs en question avec les navigateurs Web ou dans d'autres logiciels.

(en + de) Decode Unicode, Wiki recensant et commentant tous les 98 884 caractères d'Unicode en images.

(fr) CoeurLumiere.com, simple table des caractères Unicode de U+0000 à U+FFFF (attention, certains sont invalides en HTML et ne sont pas signalés).

Guides d'utilisation

(en) Markus Kuhn, UTF-8 and Unicode FAQ

(en) Comment utiliser Unicode sur les systèmes libres GNU/Linux ou compatibles.

(fr) Chapitres 2, 3, et 4 du livre Fontes et codages.

(fr) La saisie et l'échange de caractères phonétiques avec Unicode, à l'usage des novices.

(fr) Exemple d'utilisation d'Unicode et tests.

(fr) Vos applications Web en Unicode, (article et tutoriel sur la mise en pratique d'Unicode avec PHP et MySQL ainsi que l'implémentation côté client dans les documents XML, HTML et CSS)

Discussions et articles

(fr) Unicode, écriture du monde ? (vol. 6 (2003) de la revue Document numérique, 364 pages). Intérêt : points de vue critiques (typographes, informaticiens, égyptologues, etc.) et entretien avec Ken Whistler, directeur technique du Consortium Unicode.

(en) Otfried Cheong, UniHan (article sur les problèmes d'unification des sinogrammes avec UniHan dans Unicode)

Articles connexes

Sur les autres projets Wikimedia :

Unicode, sur le Wiktionnaire
Unicode, sur Wikibooks

Une catégorie est consacrée à ce sujet : Unicode.

Table des caractères Unicode

Unification des caractères sinographiques (Unihan)

Liste de caractères Unicode latins précomposés

Duplication de caractères Unicode

Stringprep

Fontes de caractères unicode libres

v · m
Unicode

Jeux de caractères de base

UCS (ISO/CEI 10646)

Table des caractères Unicode

ISO/CEI 646, ASCII

ISO/CEI 8859-1

WGL4

Unihan

Codification de fichiers et protocoles

UTF-8

UTF-16

UTF-32

CESU-8

UTF-7

BOCU-1

SCSU

BOM

Adaptations de référence

UTF-EBCDIC (Amérique, Europe occidentale)

ISO/CEI 8859-11 (ou TIS-620) (Thaïlande)

ISCII (Inde)

SLS 1326 (ou TSCII) (Sri Lanka)

Shift-JIS (Japon)

GB 18030 (Chine)

HKSCS (Hong Kong)

Équivalences standards

NFC (forme précomposée, recommandée)

NFD (forme décomposée)

NFKC (forme précomposée de compatibilité)

NFKD (forme décomposée de compatibilité)

Propriétés et algorithmes

Texte bidirectionnel

Casse

Ordonnancement UCA

Transformations

Stringprep

Punycode

Standards et normes liés

BCP 47 (étiquettes IETF d’identification de langues)

ISO 639 (codes pour la représentation des noms de langues ou groupes de langues)

ISO 15924 (codes pour la représentation des noms d’écritures)

ISO 3166-1 (codes pour la représentation des noms de pays ou régions du monde)

ISO 4217 (codes pour la représentation des noms de devises monétaires)

Mises en œuvre et applications

ICU

CLDR

IDN

IRI

Entités de caractère XML et HTML

OpenType

Uniscribe

Courriel et Unicode

v · m
Jeux de caractères codés

Multi-octets

Unicode

ISO/CEI 10646

Table des caractères Unicode

UTF-8

UTF-16

UTF-32

UTF-EBCDIC

CESU-8

BOCU-1

Asiatiques

ISO/CEI 2022

ISCII (Inde)

SLS 1326 (Sri Lanka)

Codage des caractères chinois

Shift-JIS (Japon)

Big5 (Taiwan et Hong Kong)

HKCS (Hong Kong)

GBK (Rép. Pop. de Chine)

GB 18030 (Rép. Pop. de Chine)

8 bits

ISO/CEI 8859

-1 (Latin-1)

-2 (Latin-2)

-3 (Latin-3)

-4 (Latin-4)

-5 (Cyrillique)

-6 (Arabe)

-7 (Grec)

-8 (Hébreu)

-9 (Latin-5)

-10 (Latin-6)

-11 (Thaï)

-12 (Devanagari)

-13 (Latin-7)

-14 (Latin-8)

-15 (Latin-9)

-16 (Latin-10)

Pages de code Windows

874 / TIS-620

932 / Shift JIS

936 / GBK

949 / EUC-KR

950 / Big5

1250

1251

1252

1253

1254

1255

1256

1257

1258

54936 / GB18030

Pages de code Mac OS MacRoman

Pages de code DOS

437

720

737

775

850

852

855

857

858

860

861

862

863

864

865

866

869

Kamenický

Mazovia

MIK

Iran System

Pages de code diverses

ANSEL

DEC-MCS

KOI8-R (russe)

KOI8-U (ukrainien)

StandardEncoding (PostScript)

Page de code vidéotex

Page de code ZX Spectrum

Page de code Amstrad CPC

Page de code Atari ST

Page de code Amiga

Non basés sur ISO/IEC 646

VISCII

EBCDIC

EBCDIC 297

EBCDIC 8859

7 bits

ISO/CEI 646 (base commune invariante et liste des spécialisations)

US ASCII

Moins de 7 bits

Code Chappe

Alphabet sémaphore

Code international des signaux maritimes

Code Morse international

Code wabun

Code Baudot

RADIX-50

Sixbit

Codage des caractères

Clavier d’ordinateur

Police numérique

Glyphe

Mojibake

Portail:Écriture

v · m
Couches du modèle OSI

7. Application

AMQP

BGP

DHCP

DNS

FTP

FTPS

SFTP

FXP

Gemini

Gopher

H.323

HTTP

HTTPS

IMAP

IPP

IRC

LDAP

LMTP

MODBUS

MQTT

NFS

NNTP

POP

RDP

RTSP

SILC

SIMPLE

SIP

SMB-CIFS

SMTP

SNMP

SOAP

SSH

TCAP

Telnet

TFTP

VoIP

WebDAV

XMPP

6. Présentation

AFP

ASCII

ASN.1

HTML

MIME

NCP

TDI

TLS

TLV

Unicode

UUCP

Vidéotex

XDR

XML

5. Session

AppleTalk

DTLS

NetBIOS

RPC

RSerPool

SOCKS

4. Transport

DCCP

QUIC

RSVP

RTP

SCTP

SPX

TCP

UDP

3. Réseau

ARP

Babel

BOOTP

CLNP

ICMP

IGMP

IPv4

IPv6

IPX

IS-IS

NetBEUI

NDP

RIP

EIGRP

OSPF

RARP

X.25

2. Liaison

Anneau à jeton (token ring)

Anneau à jeton adressé (Token Bus)

ARINC 429

AFDX

ATM

Bitnet

CAN

Ethernet

FDDI

Frame Relay

HDLC

I²C

IEEE 802.3ad (LACP)

IEEE 802.1aq (SPB)

LLC

LocalTalk

MIL-STD-1553

PPP

STP

Wi-Fi

X.21

1. Physique

4B5B

ADSL

BHDn

Bluetooth

Câble coaxial

Codage bipolaire

CSMA/CA

CSMA/CD

DSSS

E-carrier

EIA-232

EIA-422

EIA-449

EIA-485

FHSS

HomeRF

IEEE 1394 (FireWire)

IrDA

ISDN

Manchester

Manchester différentiel

Miller

MLT-3

NRZ

NRZI

NRZM

Paire torsadée

PDH

SDH

SDSL

SONET

SPI

T-carrier

USB

VDSL

VDSL2

V.21-V.23

V.42-V.90

Wireless USB

10BASE-T

10BASE2

10BASE5

100BASE-TX

1000BASE-T

Articles connexes :
Pile de protocoles

Modèle Internet

Couche 8

v · m
Web sémantique

Contexte

Internet

World Wide Web

Web des données

Données ouvertes

Réseau sémantique

Semantic Web Stack

Applications et interfaces

Wiki sémantique

Recherche sémantique

Triplestore

Triplestore

Règles

RIF

Semantic Web Rule Language

Structure

Ontologies
OWL

SKOS

Taxinomies
RDFS

Requête

SPARQL

Échange

RDF
HTML5

Microdonnées

RDFa

GRDDL

Notation3

TriG

Turtle

RDF/XML

N-Triplets

JSON-LD

Syntaxe

XML

XSD

Microformat

Identifiant

HTTP

IRI
URI

URL

Caractères

Unicode

Autres ontologies

FOAF

SIOC

Dublin Core

Articles liés

Folksonomie

Web 2.0

Web 3.0

Open Database Connectivity

Références

Architecture de l'information

Gestion des connaissances

Extraction de connaissances

Intelligence collective

Cartes topiques

Carte heuristique

Métadonnée

Géotag

Logique de description

Microformats

v · m
Systèmes d’écriture

Alphabets

Adlam

Caucaso-albanais

Arménien

Bactrien

Bassa

Bamoun (ou bamoum)

Bopomofo

Borama

Braille

Carien

Copte

Cyrillique

Elbasan

Étrusque (ou ancien italique)

Garay

Géorgien

Glagolitique

Grec

Gotique

Gupta

Hangeul

Italiques

Latin (et extensions)

Mandchou

Mandéen

Mongol

N’ko

Ogham

Oïrat

Orkhon

Osmanya

Persan cunéiforme

Runique

Runes hongroises

Santali

Tifinagh

Yézidi

Yoruba (arabe, latin, oduduwa)

Alphabets consonantiques (ou abjads)

Arabe (et adaptations)

Araméen

Démotique

Hébreu

Manichéen

Nabatéen

Ouïghour

Ougaritique

Pehlevi

Phénicien

Protosinaïtique

Punique

Safaïtique

Samaritain

Sogdien

Sudarabique

Syriaque

Tifinagh

Alphasyllabaires (ou abugidas)

Âhom

Balinais

Batak

Baybayin (ou tagalog)

Bengali

Birman

Brahmî

Cham

Cingalais (ou singhalais)

Dévanâgarî

Éthiopien (ou guèze)

Grantha

Gujarati

Gurmukhī

Hanifi (rohinga)

Inuktitut

Javanais

Kaïthî

Kannara (ou kannada)

Kawi

Kharoshthi

Khmer

Lao (ou laotien)

Lekwaikaw

Lepcha

Lontara

Malayalam

Meitei mayek

Méroïtique

Miao (ou Pollard)

Modi

Mwangwego (en)

Néwar (ou nepalbasha)

Nouveau taï-lue

Ojhapath

Odia (ou oriya)

Pallava

Phags-pa

Ranjana (ou kutila, lantsa, wartu)

Redjang (ou rejang)

Rencong

Sharda

Siddham

Soyombo

Tagbanoua

Taï-le

Taï-noï (en)

Taï tham (ou lanna)

Taï viêt

Tamoul

Télougou

Thaï

Tibétain

Tirhuta

Vatteluttu

Zanabazar quadratique (en)

Syllabaires

Afaka

Bété

Cherokee

Chypro-minoen

Hiragana

Inuktitut

Katakana

Kpèllé

Linéaire A

Linéaire B

Mandombé

Masaba (ou bambara)

Mendé kikakui

Nüshu

Syllabaires autochtones canadiens

Vaï

Yi

Écritures logographiques ou apparentées

Adinkra

Aztèque

Cunéiforme

Daba

Dongba

Hiératique égyptienne

Hiéroglyphes égyptiens

Hiéroglyphes hittites

Hiéroglyphes linéaires

Hiéroglyphes mayas

Hiéroglyphes micmacs

Hiéroglyphes olmèques

Nsibidi

Ossécaille

Shuishu

Sinogrammes

Tangoute

Ductus

Bidirectionnel

Boustrophédon

Césure

Chasse

Cursif

Gras

Italique (incliné)

Justification

Ponctuation

Spéculaire (en miroir)

Normes et standards techniques

BCP 47

ISO/CEI 10646 et Unicode

ISO 15924

OpenType et TrueType

Voir aussi :
Braille

Calligraphie

Écriture

Écriture asémique

Linguistique

Notation musicale

Police de caractères

Sténographie

Système de numération

Typographie

Portail de l’informatique

Portail de l’édition numérique

Portail de la typographie

<footer>source wp:Unicode</footer>

[zero-11] 1 2 3 4 5 En UTF-8

[un-12] Le type wchar_t du langage C ne permet pas toujours de coder tous les caractères Unicode, car la norme de ce langage ne prévoit pas de nombre minimum suffisante pour ce type standard. Cependant, de nombreux compilateurs du langage définissent wchar_t sur 32 bits (voire 64 bits sur les environnements manipulant les entiers standards sur 64 bits), ce qui suffit pour stocker n'importe quel point de code Unicode standardisé. Mais d'autres compilateurs représentent wchar_t sur 16 bits (notamment sous Windows en environnement 16 ou 32 bits), voire sur 8 bits seulement (notamment dans les environnements embarqués ne disposant pas d'un système d'exploitation d'usage général) car wchar_t peut utiliser la même représentation que le type char qui compte un minimum de 8 bits.

[13] De manière similaire au C et au C++, le langage Java dispose de type unitaire permettant de coder 16 bits, mais ne permettant pas de coder un seul point de code d'une valeur quelconque (le type natif char est un entier positif sur 16 bits seulement). Pour manipuler les caractères standardisés hors du premier plan, il faut utiliser une paire de codets, chacun contenant une valeur égale aux deux codets définis par la forme UTF-16. Aussi les types d'objets String ou char[2] sont les plus appropriés pour représenter un caractère Unicode. Depuis Java 1.4.1, la bibliothèque standard fournit un support complet d'Unicode grâce au type natif int (qui est un entier défini sur 32 bits) et aux méthodes statiques de la classe standard Character (cependant un objet instancié de ce type Character ne permet pas, tout comme le type natif char, de stocker n'importe quel point de code).

[14] JavaScript comporte diverses implémentations non standardisées dont certaines plus anciennes ne supportent pas plus de 16 bits par caractère, et parfois seulement 8 bits. Toutefois, la norme ECMAScript de ce langage définit une classe utilitaire Character sur 32 bits (en fait basée sur la classe Number) devant supporter tous les points de code des 17 plans standardisés, tandis que les chaines de caractères utilise des caractères codés obligatoirement sur 16 bits (mais sans restriction renforçant l'appariement des unités de code UTF-16, les chaînes ECMAScript de type String n'étant pas restreintes au seul codage UTF-16 mais étant des vecteurs de constantes entières codées sur 16 bits sans restriction, afin d'assurer l'interopérabilité avec Java et d'autres langages qui eux non plus ne renforcent pas les restrictions de conformité UTF-16 dans leurs types natifs de données). Ces deux langages ne supportent pas de typage explicite des variables, le type étant défini dynamiquement par les valeurs qu'on leur assigne (aussi, plusieurs représentations internes sont possibles, leurs différences étant normalement transparentes pour le programmeur).

[1] « Unicode 17.0.0 », sur www.unicode.org (consulté le 30 juillet 2026)

[2] (en) Inc Unicode, « Announcing The Unicode® Standard, Version 17.0 » (consulté le 30 juillet 2026).

[3] « UTR #33 - Conformance Model », sur unicode.org (consulté le 25 octobre 2024)

[4] (en) « Usage Statistics of Character Encodings for Websites, January 2017 », sur w3techs.com (consulté le 6 janvier 2017).

[5] « UTR#17: Unicode Character Encoding Model », sur www.unicode.org (consulté le 30 juillet 2026)

[RFC-3629-t-d-6] (en) « UTF-8, a transformation format of ISO 10646 », Request for comments n^o 3629, novembre 2003

[7] (en) The Unicode Standard, Version 5.0, Chapter 16 : Special Areas and Format Characters[PDF] - Unicode, Inc., p. 354.

[8] Les séquences UTF-8 doivent être les plus courtes possibles. Cette restriction doit être vérifiée pour éviter certaines failles de sécurité, du type « /../ » – se reporter aux détails dans la section « Inconvénients » de l'article UTF-8.

[9] (en) « Code in Apache Xalan 2.7.0 which can fail on surrogate pairs : =The code wrongly assumes it is safe to use substring on the input », Apache Foundation.

[10] (en) « kí tự đặc biệt », 25 mai 2026 (consulté le 30 juillet 2026)

[15] (en) « U2FE0 (réservé) » (consulté le 30 juillet 2026)

[16] (en) « U2A6E0 (réservé) » (consulté le 30 juillet 2026)

[17] (en) « U2EBF0 (réservé) » (consulté le 30 juillet 2026)

[18] (en) « U2FA20 (réservé) » (consulté le 30 juillet 2026)

[19] (en) « U31350 (réservé) » (consulté le 30 juillet 2026)

[20] (en) « U40000 (réservé) » (consulté le 30 juillet 2026)

[21] (en) « U50000 (réservé) » (consulté le 30 juillet 2026)

[22] (en) « U60000 (réservé) » (consulté le 30 juillet 2026)

[23] (en) « U70000 (réservé) » (consulté le 30 juillet 2026)

[24] (en) « U80000 (réservé) » (consulté le 30 juillet 2026)

[25] (en) « U90000 (réservé) » (consulté le 30 juillet 2026)

[26] (en) « UA0000 (réservé) » (consulté le 30 juillet 2026)

[27] (en) « UB0000 (réservé) » (consulté le 30 juillet 2026)

[28] (en) « UC0000 (réservé) » (consulté le 30 juillet 2026)

[29] (en) « UD0000 (réservé) » (consulté le 30 juillet 2026)

[30] « UE0080 », sur Unicode.org (consulté le 30 juillet 2026)

[31] « UE01F0 », sur Unicode.org (consulté le 30 juillet 2026)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[a]

[b]

[c]

[d]

[b]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

v · m Unicode
Jeux de caractères de base	UCS (ISO/CEI 10646) Table des caractères Unicode ISO/CEI 646, ASCII ISO/CEI 8859-1 WGL4 Unihan
Codification de fichiers et protocoles	UTF-8 UTF-16 UTF-32 CESU-8 UTF-7 BOCU-1 SCSU BOM
Adaptations de référence	UTF-EBCDIC (Amérique, Europe occidentale) ISO/CEI 8859-11 (ou TIS-620) (Thaïlande) ISCII (Inde) SLS 1326 (ou TSCII) (Sri Lanka) Shift-JIS (Japon) GB 18030 (Chine) HKSCS (Hong Kong)
Équivalences standards	NFC (forme précomposée, recommandée) NFD (forme décomposée) NFKC (forme précomposée de compatibilité) NFKD (forme décomposée de compatibilité)
Propriétés et algorithmes	Texte bidirectionnel Casse Ordonnancement UCA
Transformations	Stringprep Punycode
Standards et normes liés	BCP 47 (étiquettes IETF d’identification de langues) ISO 639 (codes pour la représentation des noms de langues ou groupes de langues) ISO 15924 (codes pour la représentation des noms d’écritures) ISO 3166-1 (codes pour la représentation des noms de pays ou régions du monde) ISO 4217 (codes pour la représentation des noms de devises monétaires)
Mises en œuvre et applications	ICU CLDR IDN IRI Entités de caractère XML et HTML OpenType Uniscribe Courriel et Unicode

v · m Couches du modèle OSI
7. Application	AMQP BGP DHCP DNS FTP FTPS SFTP FXP Gemini Gopher H.323 HTTP HTTPS IMAP IPP IRC LDAP LMTP MODBUS MQTT NFS NNTP POP RDP RTSP SILC SIMPLE SIP SMB-CIFS SMTP SNMP SOAP SSH TCAP Telnet TFTP VoIP WebDAV XMPP
6. Présentation	AFP ASCII ASN.1 HTML MIME NCP TDI TLS TLV Unicode UUCP Vidéotex XDR XML
5. Session	AppleTalk DTLS NetBIOS RPC RSerPool SOCKS
4. Transport	DCCP QUIC RSVP RTP SCTP SPX TCP UDP
3. Réseau	ARP Babel BOOTP CLNP ICMP IGMP IPv4 IPv6 IPX IS-IS NetBEUI NDP RIP EIGRP OSPF RARP X.25
2. Liaison	Anneau à jeton (token ring) Anneau à jeton adressé (Token Bus) ARINC 429 AFDX ATM Bitnet CAN Ethernet FDDI Frame Relay HDLC I²C IEEE 802.3ad (LACP) IEEE 802.1aq (SPB) LLC LocalTalk MIL-STD-1553 PPP STP Wi-Fi X.21
1. Physique	4B5B ADSL BHDn Bluetooth Câble coaxial Codage bipolaire CSMA/CA CSMA/CD DSSS E-carrier EIA-232 EIA-422 EIA-449 EIA-485 FHSS HomeRF IEEE 1394 (FireWire) IrDA ISDN Manchester Manchester différentiel Miller MLT-3 NRZ NRZI NRZM Paire torsadée PDH SDH SDSL SONET SPI T-carrier USB VDSL VDSL2 V.21-V.23 V.42-V.90 Wireless USB 10BASE-T 10BASE2 10BASE5 100BASE-TX 1000BASE-T
Articles connexes : Pile de protocoles Modèle Internet Couche 8

v · m Systèmes d’écriture
Alphabets	Adlam Caucaso-albanais Arménien Bactrien Bassa Bamoun (ou bamoum) Bopomofo Borama Braille Carien Copte Cyrillique Elbasan Étrusque (ou ancien italique) Garay Géorgien Glagolitique Grec Gotique Gupta Hangeul Italiques Latin (et extensions) Mandchou Mandéen Mongol N’ko Ogham Oïrat Orkhon Osmanya Persan cunéiforme Runique Runes hongroises Santali Tifinagh Yézidi Yoruba (arabe, latin, oduduwa)
Alphabets consonantiques (ou abjads)	Arabe (et adaptations) Araméen Démotique Hébreu Manichéen Nabatéen Ouïghour Ougaritique Pehlevi Phénicien Protosinaïtique Punique Safaïtique Samaritain Sogdien Sudarabique Syriaque Tifinagh
Alphasyllabaires (ou abugidas)	Âhom Balinais Batak Baybayin (ou tagalog) Bengali Birman Brahmî Cham Cingalais (ou singhalais) Dévanâgarî Éthiopien (ou guèze) Grantha Gujarati Gurmukhī Hanifi (rohinga) Inuktitut Javanais Kaïthî Kannara (ou kannada) Kawi Kharoshthi Khmer Lao (ou laotien) Lekwaikaw Lepcha Lontara Malayalam Meitei mayek Méroïtique Miao (ou Pollard) Modi Mwangwego (en) Néwar (ou nepalbasha) Nouveau taï-lue Ojhapath Odia (ou oriya) Pallava Phags-pa Ranjana (ou kutila, lantsa, wartu) Redjang (ou rejang) Rencong Sharda Siddham Soyombo Tagbanoua Taï-le Taï-noï (en) Taï tham (ou lanna) Taï viêt Tamoul Télougou Thaï Tibétain Tirhuta Vatteluttu Zanabazar quadratique (en)
Syllabaires	Afaka Bété Cherokee Chypro-minoen Hiragana Inuktitut Katakana Kpèllé Linéaire A Linéaire B Mandombé Masaba (ou bambara) Mendé kikakui Nüshu Syllabaires autochtones canadiens Vaï Yi
Écritures logographiques ou apparentées	Adinkra Aztèque Cunéiforme Daba Dongba Hiératique égyptienne Hiéroglyphes égyptiens Hiéroglyphes hittites Hiéroglyphes linéaires Hiéroglyphes mayas Hiéroglyphes micmacs Hiéroglyphes olmèques Nsibidi Ossécaille Shuishu Sinogrammes Tangoute
Ductus	Bidirectionnel Boustrophédon Césure Chasse Cursif Gras Italique (incliné) Justification Ponctuation Spéculaire (en miroir)
Normes et standards techniques	BCP 47 ISO/CEI 10646 et Unicode ISO 15924 OpenType et TrueType
Voir aussi : Braille Calligraphie Écriture Écriture asémique Linguistique Notation musicale Police de caractères Sténographie Système de numération Typographie

U+0000-FFFF	plan 0 (PMB/BMP)
U+10000-1FFFF	plan 1 (PMC/SMP)
U+20000-2FFFF	plan 2 (PSC/SIP)
U+30000-3FFFF	plan 3 (PST/TIP)
U+40000-DFFFF	plans 4 à 13 (réservés)
U+E0000-EFFFF	plan 14 (PCS/SSP)
U+F0000-FFFFF	plan 15 (privé A)
U+100000-10FFFF	plan 16 (privé B)

Version	Date de publication	Nombre de caractères	Ajouts notables
1.0.0	octobre 1991	7129	Unicode 1.0 incluait ces scripts: Arabe, arménien, bengali, bopomofo, cyrillique, devanagari, géorgien, grec et copte, gujarati, gurmukhi, hangul, hébreu, hiragana, kannada, katakana, lao, latin, malayalam, oriya, tamoul, télougou, thaï et tibétain
1.0.1	juin 1992	28327	20 902 caractères CJC sont définis
1.1	juin 1993	34168	4306 syllabes Hangul supplémentaires ont été ajoutées à l'ensemble original de 2350. Le tibétain a été supprimé dans cette mise à jour.
2.0	juillet 1996	38885	Le Hangul original est supprimé et est déplacé et remplacé par un nouvel ensemble de 11172. Le tibétain est rajouté à un endroit différent.
2.1	mai 1998	38887	Le signe Euro et le caractère de remplacement d'objet ont été ajoutés.
3.0	septembre 1999	49194	Cherokee, éthiopien, khmer, mongol, birman, ogham, runique, cinghalais, syriaque, thaana, syllabes autochtones canadiennes unifiées et syllabes yi ajoutées, ainsi qu'un ensemble de motifs braille.
3.1	mars 2001	94140	Deseret, gothique et vieil italique ajoutés, ainsi que des ensembles de symboles pour la musique occidentale et la musique byzantine, et 42 711 idéogrammes unifiés CJC supplémentaires
3.2	mars 2002	95156	Buhid, Hanunó'o, Tagalog et Tagbanwa ajoutés
4.0	avril 2003	96382	Syllabaire chypriote, Limbu, Linéaire B, Osmanya, Shavian, Tai Le et Ugaritic ajoutés, ainsi que des symboles Hexagram
4.1	mars 2005	97655	Buginese, Glagolitic, Kharoshthi, New Tai Lue, vieux persan, Syloti Nagri et Tifinagh ont été ajoutés, et le copte a été désunifié du grec. Des chiffres grecs anciens et des symboles musicaux ont également été ajoutés.
5.0	juillet 2006	99024	Balinais, cunéiforme, N'Ko, Phags-pa et phénicien ajoutés.
5.1	mars 2008	100648	Carian, Cham, Kayah Li, Lepcha, Lycian, Lydian, Ol Chiki, Rejang, Saurashtra, Sundanais et Vai ont été ajoutés, ainsi que des ensembles de symboles pour le disque Phaistos, les tuiles Mahjong et les tuiles Domino. Il y avait aussi des ajouts importants pour le birman, des ajouts de lettres et d'abréviations Scribal utilisées dans les manuscrits médiévaux, et l'ajout de Capital ẞ.
5.2	octobre 2009	107296	Avestan, Bamum, hiéroglyphes égyptiens (l'ensemble Gardiner, comprenant 1071 caractères), araméen impérial, inscriptional pahlavi, inscriptional parthe, javanais, kaithi, lisu, meetei mayek, vieux sud-arabe, vieux turc, samaritain, tai tham et tai viet ajoutés. 4 149 idéogrammes unifiés CJK supplémentaires (CJK-C), ainsi qu'un Jamo étendu pour le vieux Hangul et des caractères pour le sanskrit védique.
6.0	février 2011	109384	Batak, Brahmi, Mandaic, symboles de cartes à jouer, symboles de transport et de carte, symboles alchimiques, émoticônes et emojis. 222 idéogrammes unifiés CJC supplémentaires (CJK-D) ajoutés.
6.1	31 janvier 2012	110116	Chakma, cursive méroïtique, hiéroglyphes méroïtiques, Miao, Sharada, Sora Sompeng et Takri.
6.2	janvier 2012	110117	Le signe de la lire turque a été ajouté.
6.3	septembre 2013	110122	5 caractères de formatage bidirectionnel ont été ajoutés
7.0	16 juin 2014	112956	Bassa Vah, Albanais du Caucase, Duployan, Elbasan, Grantha, Khojki, Khudawadi, Linéaire A, Mahajani, Manichéen, Mende Kikakui, Modi, Mro, Nabatéen, Vieil Arabe du Nord, Vieux Permien, Pahawh Hmong, Palmyrène, Pau Cin Hau, Psautier Pahlavi, Siddham, Tirhuta, Warang Citi et Dingbats.
8.0	17 juin 2015	120672	Ahom, hiéroglyphes anatoliens, Hatran, Multani, vieux hongrois, SignWriting, 5 771 idéogrammes unifiés CJK, un ensemble de lettres minuscules pour Cherokee et cinq modificateurs de teint emoji.
9.0	21 juin 2016	128172	Adlam, Bhaiksuki, Marchen, Newa, Osage, Tangut et 72 emoji.
10.0	20 juin 2017	136690	Place Zanabazar, Soyombo, Masaram Gondi, Nüshu, hentaigana (hiragana non standard), 7 494 idéogrammes unifiés CJC, 56 emoji et symbole bitcoin.
11.0	5 juin 2018	137374	Dogra, lettres majuscules géorgiennes Mtavruli, Gunjala Gondi, Hanifi Rohingya, nombres indiens Siyaq, Makasar, Medefaidrin, anciens sogdien et sogdien, chiffres mayas, 5 idéogrammes unifiés CJK urgents, symboles pour xiangqi (échecs chinois) et classement par étoiles, et 145 emoji.
12.0	5 mars 2019	137928	Elymaïque, Nandinagari, Nyiakeng Puachue Hmong, Wancho, ajouts d'écritures Miao pour plusieurs langues Miao et Yi de Chine, lettres minuscules hiragana et katakana pour l'écriture du japonais archaïque, fractions et symboles historiques tamouls, lettres lao pour le pali, lettres latines pour la translittération égyptologique et ougaritique, commandes de format hiéroglyphe et 61 emoji.
12.1	mai 2019	137929	Le caractère ㋿, a été ajouté en tant que forme de ligature carrée de l'ère Reiwa
13.0	10 mars 2020	143859	Khoresmien, Dives Akuru, petite écriture khitane, yezidi, 4 969 idéogrammes unifiés CJK ajoutés (dont 4 939 dans Ext. G), ajouts d'écriture arabe utilisés pour écrire le haoussa, le wolof et d'autres langues en Afrique et autres ajouts utilisés pour écrire l'hindko et le pendjabi en Pakistan, ajouts Bopomofo utilisés pour le cantonais, symboles de licence Creative Commons, caractères graphiques pour la compatibilité avec le télétexte et les systèmes informatiques domestiques des années 1970 et 1980, et 55 emoji.
14.0	9 septembre 2021	144697	Toto, Cypro-Minoen, Vithkuqi, vieil ouïghour, Tangsa, ajouts d'écritures latines aux blocs SMP (Ext-F, Ext-G) pour une utilisation dans l'API étendue, ajouts d'écritures arabes pour une utilisation dans les langues à travers l'Afrique et en Iran, Pakistan, Malaisie, Indonésie, Java et Bosnie, et pour écrire des titres honorifiques, des ajouts à usage coranique, d'autres ajouts pour prendre en charge les langues en Amérique du Nord, aux Philippines, en Inde et en Mongolie, l'ajout du symbole monétaire kirghize som, prise en charge de la notation musicale Znamenny, et 37 émojis.
15.0	13 septembre 2022	149186	Kawi et Mundari, plusieurs nouveaux caractères, dont 20 emojis, 4 192 idéogrammes CJC et des caractères de contrôle pour les hiéroglyphes égyptiens.
15.1	12 septembre 2023	149813	622 caractères CJK unifiés, 5 caractères de description idéographique et nouveaux emojis.
16.0	10 septembre 2024	154998	4 scripts, 7 emojis, 3995 nouveaux hiéroglyphes, 700 symboles de systèmes anciens.
17.0	9 septembre 2025	159801	4 nouveaux système d'écritures (Sidétique, Tolonge de Siki, Beria Erfe, Tai Yo, soit 185 symboles), 10 emojis et de 4608 symboles divers dont le symbole du Riyal saoudien.

Haut \ Bas	0xDC00	0xDC01	⋯	0xDFFF
0xD800	U+10000	U+10001	⋯	U+103FF
0xD801	U+10400	U+10401	⋯	U+107FF
⋮	⋮	⋮	⋱	⋮
0xDBFF	U+10FC00	U+10FC01	⋯	U+10FFFF

Langage de programmation	Type pour un seul caractère	Type pour tout texte
C	`char[4]`^[a] ou `wchar_t[2]`^[b]	`char[]` ou `wchar_t[]`
C++	`char[4]`^[a] ou `wchar_t[2]`^[a]	`char[]` ou `wchar_t[]` ou `std::string` ou `std::wstring`
Java	`char[2]` ou `int`^[c]	`char[]` ou `String`
Bibliothèque ICU (pour C/C++ ou Java)	`UChar`	`UChar[]` ou `String`, `UnicodeString`
JavaScript ou ECMAScript	`char`^[d]	`string`
C# ou J#	`char`	`string`
Delphi	`char[4]`^[a] ou `widechar[2]`	`string`^[a] ou `widestring`
Python 2		`unicode`
Python 3		`str`
Go	`rune` (=`int32`)	`string` ou `[]byte`
Swift	`Character`	`String`
1 2 3 4 5 En UTF-8 ↑ Le type `wchar_t` du langage C ne permet pas toujours de coder tous les caractères Unicode, car la norme de ce langage ne prévoit pas de nombre minimum suffisante pour ce type standard. Cependant, de nombreux compilateurs du langage définissent `wchar_t` sur 32 bits (voire 64 bits sur les environnements manipulant les entiers standards sur 64 bits), ce qui suffit pour stocker n'importe quel point de code Unicode standardisé. Mais d'autres compilateurs représentent `wchar_t` sur 16 bits (notamment sous Windows en environnement 16 ou 32 bits), voire sur 8 bits seulement (notamment dans les environnements embarqués ne disposant pas d'un système d'exploitation d'usage général) car `wchar_t` peut utiliser la même représentation que le type `char` qui compte un minimum de 8 bits. ↑ De manière similaire au C et au C++, le langage Java dispose de type unitaire permettant de coder 16 bits, mais ne permettant pas de coder un seul point de code d'une valeur quelconque (le type natif `char` est un entier positif sur 16 bits seulement). Pour manipuler les caractères standardisés hors du premier plan, il faut utiliser une paire de codets, chacun contenant une valeur égale aux deux codets définis par la forme UTF-16. Aussi les types d'objets `String` ou `char[2]` sont les plus appropriés pour représenter un caractère Unicode. Depuis Java 1.4.1, la bibliothèque standard fournit un support complet d'Unicode grâce au type natif `int` (qui est un entier défini sur 32 bits) et aux méthodes statiques de la classe standard `Character` (cependant un objet instancié de ce type `Character` ne permet pas, tout comme le type natif `char`, de stocker n'importe quel point de code). ↑ JavaScript comporte diverses implémentations non standardisées dont certaines plus anciennes ne supportent pas plus de 16 bits par caractère, et parfois seulement 8 bits. Toutefois, la norme ECMAScript de ce langage définit une classe utilitaire `Character` sur 32 bits (en fait basée sur la classe `Number`) devant supporter tous les points de code des 17 plans standardisés, tandis que les chaines de caractères utilise des caractères codés obligatoirement sur 16 bits (mais sans restriction renforçant l'appariement des unités de code UTF-16, les chaînes ECMAScript de type `String` n'étant pas restreintes au seul codage UTF-16 mais étant des vecteurs de constantes entières codées sur 16 bits sans restriction, afin d'assurer l'interopérabilité avec Java et d'autres langages qui eux non plus ne renforcent pas les restrictions de conformité UTF-16 dans leurs types natifs de données). Ces deux langages ne supportent pas de typage explicite des variables, le type étant défini dynamiquement par les valeurs qu'on leur assigne (aussi, plusieurs représentations internes sont possibles, leurs différences étant normalement transparentes pour le programmeur).

Points de code		Nom du bloc en français	PDF officiel	En savoir plus
Début	Fin	Nom du bloc en français	PDF officiel	En savoir plus
U+0000	U+007F	Commandes C0 et latin de base	(en) « U0000 »	voir ISO/CEI 646, ASCII, Alphabet latin, Caractères de contrôle Unicode
U+0080	U+00FF	Commandes C1 et supplément latin ― 1	(en) « U0080 »	voir ISO/CEI 8859, ISO/CEI 8859-1, Alphabet latin, Caractères de contrôle Unicode
U+0100	U+017F	Latin étendu ― A	(en) « U0100 »	voir Alphabet latin
U+0180	U+024F	Latin étendu ― B	(en) « U0180 »	voir Alphabet latin
U+0250	U+02AF	Latin ― supplément pour l’API	(en) « U0250 »	voir Alphabet latin, Alphabet phonétique international (API)
U+02B0	U+02FF	Lettres modificatives avec chasse	(en) « U02B0 »	voir Diacritique, Alphabet latin, Diacritiques de l’alphabet latin, Alphabet phonétique international
U+0300	U+036F	Diacritiques	(en) « U0300 »	voir Diacritique, Diacritiques de l’alphabet latin, Diacritiques de l'alphabet grec, Alphabet copte, Diacritiques de l’alphabet cyrillique
U+0370	U+03FF	Grec et copte	(en) « U0370 »	voir Alphabet grec et Alphabet copte
U+0400	U+04FF	Cyrillique	(en) « U0400 »	voir Alphabet cyrillique
U+0500	U+052F	Cyrillique ― supplément	(en) « U0500 »	voir Alphabet cyrillique
U+0530	U+058F	Arménien	(en) « U0530 »	voir Alphabet arménien
U+0590	U+05FF	Hébreu	(en) « U0590 »	voir Alphabet hébreu, Diacritique, Diacritiques de l’alphabet hébreu
U+0600	U+06FF	Arabe	(en) « U0600 »	voir Alphabet arabe
U+0700	U+074F	Syriaque	(en) « U0700 »	voir Syriaque
U+0750	U+077F	Arabe ― supplément	(en) « U0750 »	voir Alphabet arabe
U+0780	U+07BF	Thâna	(en) « U0780 »	voir Alphabet Maldivien
U+07C0	U+07FF	N’ko	(en) « U07C0 »	voir N’ko
U+0800	U+083F	Samaritain	(en) « U0800 »	voir Alphabet samaritain
U+0840	U+085F	Mandéen	(en) « U0840 »	voir Alphabet mandéen
U+0860	U+086F	Syriaque ― supplément	(en) « U0860 »	voir Syriaque
U+0870	U+089F	Arabe étendu ― B	(en) « U0870 »	voir Alphabet arabe, Diacritique, Diacritiques de l’alphabet arabe
U+08A0	U+08FF	Arabe étendu ― A	(en) « U08A0 »
U+0900	U+097F	Dévanâgarî	(en) « U0900 »	voir Dévanâgarî
U+0980	U+09FF	Bengalî	(en) « U0980 »	voir Bengalî
U+0A00	U+0A7F	Gourmoukhî	(en) « U0A00 »	voir Gurmukhî
U+0A80	U+0AFF	Goudjarâtî	(en) « U0A80 »	voir Alphabet goudjarâtî
U+0B00	U+0B7F	Oriya (ou Odia)	(en) « U0B00 »	voir Oriya (ou Odia)
U+0B80	U+0BFF	Tamoul	(en) « U0B80 »	voir Tamoul
U+0C00	U+0C7F	Télougou	(en) « U0C00 »	voir Télougou
U+0C80	U+0CFF	Kannara	(en) « U0C80 »	voir Kannada (ou Kannara)
U+0D00	U+0D7F	Malayâlam	(en) « U0D00 »	voir Malayâlam
U+0D80	U+0DFF	Singhalais (ou Singalais, Cingalais)	(en) « U0D80 »	voir Singhalais (ou Singalais, Cingalais)
U+0E00	U+0E7F	Thaï	(en) « U0E00 »	voir Thaï
U+0E80	U+0EFF	Laotien	(en) « U0E80 »	voir Laotien
U+0F00	U+0FFF	Tibétain	(en) « U0F00 »	voir Tibétain
U+1000	U+109F	Birman	(en) « U1000 »	voir Birman
U+10A0	U+10FF	Géorgien	(en) « U10A0 »	voir Géorgien, Alphabet géorgien
U+1100	U+11FF	Hangûl ― jamos	(en) « U1100 »	voir Hangûl (ou Hangeul)
U+1200	U+137F	Éthiopien	(en) « U1200 »	voir Alphasyllabaire guèze
U+1380	U+139F	Éthiopien ― supplément	(en) « U1380 »	voir Alphasyllabaire guèze
U+13A0	U+13FF	Chéroki	(en) « U13B0 »	voir Syllabaire cherokee
U+1400	U+167F	Syllabaires autochtones canadiens unifiés	(en) « U1400 »	voir Langues amérindiennes
U+1680	U+169F	Ogham	(en) « U1680 »	voir Ogham
U+16A0	U+16FF	Runes	(en) « U16A0 »	voir Rune (ou futhark)
U+1700	U+171F	Tagalog	(en) « U1700 »	voir Tagalog
U+1720	U+173F	Hanounóo	(en) « U1720 »	voir Alphabet Hanunóo (en)
U+1740	U+175F	Bouhide	(en) « U1740 »	voir Bouhide (en)
U+1760	U+177F	Tagbanoua	(en) « U1760 »	voir Alphabet Tagbanoua (en)
U+1780	U+17FF	Khmer	(en) « U1780 »	voir Khmer (ou cambodgien)
U+1800	U+18AF	Mongol	(en) « U1800 »	voir Mongol
U+18B0	U+18FF	Syllabaires autochtones canadiens étendus	(en) « U18B0 »	voir Langues amérindiennes
U+1900	U+194F	Limbou	(en) « U1900 »	voir Limbou
U+1950	U+197F	Taï-le	(en) « U1950 »	voir Taï-le
U+1980	U+19DF	Nouveau taï lü	(en) « U1980 »	voir Taï lü
U+19E0	U+19FF	Khmer ― symboles	(en) « U19E0 »	voir Khmer (ou cambodgien)
U+1A00	U+1A1F	Bugi (ou lontara)	(en) « U1A00 »	voir Bugi (ou bouguinais), Écriture lontara
U+1A20	U+1AAF	Taï tham	(en) « U1A20 »	voir Alphabet Taï Tham (en)
U+1AB0	U+1AFF	Diacritiques étendu	(en) « U1AB0 »	voir Diacritique
U+1B00	U+1B7F	Balinais	(en) « U1B00 »	voir Écriture balinaise
U+1B80	U+1BBF	Soundanais	(en) « U1B80 »	voir Soundanais, Alphabet Soundanais (en)
U+1BC0	U+1BFF	Batak	(en) « U1BC0 »	voir Écriture batak
U+1C00	U+1C4F	Lepcha	(en) « U1C00 »	voir Alphabet lepcha
U+1C50	U+1C7F	Ol tchiki	(en) « U1C50 »	voir Alphabet santâlî (ou Ol Cemet’, Ol tchiki)
U+1C80	U+1C8F	Cyrillique étendu ― C	(en) « U1C80 »	voir Alphabet cyrillique, Slavon d'église
U+1C90	U+1CBF	Géorgien étendu	(en) « U1C90 »	voir Géorgien, Alphabet géorgien
U+1CC0	U+1CCF	Soundanais - supplément	(en) « U1CC0 »	voir Soundanais, Alphabet Soundanais (en)
U+1CD0	U+1CFF	Extensions védiques	(en) « U1CD0 »	voir Sanskrit
U+1D00	U+1D7F	Latin - supplément phonétique	(en) « U1D00 »	voir Alphabet latin, Alphabet phonétique international
U+1D80	U+1DBF	Latin - supplément phonétique étendu	(en) « U1D80 »	voir Alphabet latin, Alphabet phonétique international
U+1DC0	U+1DFF	Diacritiques - supplément	(en) « U1DC0 »	voir Diacritique
U+1E00	U+1EFF	Latin étendu - supplément	(en) « U1E00 »	voir Alphabet latin
U+1F00	U+1FFF	Grec étendu	(en) « U1F00 »	voir Alphabet grec, Diacritiques de l’alphabet grec
U+2000	U+206F	Ponctuation générale	(en) « U2000 »	voir Ponctuation, Espace
U+2070	U+209F	Exposants et indices	(en) « U2070 »	voir Exposant et Indice
U+20A0	U+20CF	Symboles monétaires	(en) « U20A0 »	voir Symbole monétaire
U+20D0	U+20FF	Signes combinatoires pour symboles	(en) « U20D0 »	voir Symboles mathématiques, Opérateurs mathématiques, Flèche, rotation
U+2100	U+214F	Symboles de type lettre	(en) « U2100 »	voir Température, Symboles mathématiques, Sigles ou symboles liés au dépôt de marque
U+2150	U+218F	Formes numérales	(en) « U2150 »	voir Numération romaine, Fraction
U+2190	U+21FF	Flèches	(en) « U2190 »	voir Flèche
U+2200	U+22FF	Opérateurs mathématiques	(en) « U2200 »	voir Opérateurs mathématiques
U+2300	U+23FF	Signes techniques divers	(en) « U2300 »	voir Alphabet grec, Ponctuation, Flèche, Symboles mathématiques, Émoji
U+2400	U+243F	Pictogrammes de commande	(en) « U2400 »	voir ISO/CEI 8859, ISO/CEI 646, Contrôle C0 (en)
U+2440	U+245F	Reconnaissance optique de caractères (ROC)	(en) « U2430 »	voir Reconnaissance optique de caractères (ROC)
U+2460	U+24FF	Alphanumériques délimités	(en) « U2460 »	voir Alphabet latin, Chiffres arabes
U+2500	U+257F	Filets	(en) « U2500 »	voir Caractère de dessin de boîte (en), Rectangle, Filet (typographie)
U+2580	U+259F	Pavés	(en) « U2580 »	voir Caractère de dessin de boîte (en), Rectangle
U+25A0	U+25FF	Formes géométriques	(en) « U25A0 »	voir Forme géométrique
U+2600	U+26FF	Symboles divers	(en) « U2600 »	voir Symbole, Émoji, Jeu de cartes français, Échecs, Symbole de genre
U+2700	U+27BF	Casseau	(en) « U2700 »	voir Symbole, Chiffres arabes, Ponctuation, Émoji, Opérateurs mathématiques, Flèche
U+27C0	U+27EF	Symboles mathématiques divers ― A	(en) « U27C0 »	voir Symboles mathématiques
U+27F0	U+27FF	Flèches ― supplément A	(en) « U27F0 »	voir Flèche
U+2800	U+28FF	Combinaisons Braille	(en) « U2800 »	voir Braille
U+2900	U+297F	Flèches ― supplément B	(en) « U2900 »	voir Flèche
U+2980	U+29FF	Symboles mathématiques divers ― B	(en) « U2980 »	voir Symboles mathématiques
U+2A00	U+2AFF	Opérateurs mathématiques ― supplément	(en) « U2A00 »	voir Opérateurs mathématiques
U+2B00	U+2BFF	Symboles et flèches divers	(en) « U2B00 »	voir Flèche, Émoji
U+2C00	U+2C5F	Glagotique	(en) « U2C00 »	voir Alphabet glagolitique
U+2C60	U+2C7F	Latin étendu ― C	(en) « U2C00 »	voir Alphabet latin, Ouïghour
U+2C80	U+2CFF	Copte	(en) « U2C80 »	voir Alphabet copte
U+2D00	U+2D2F	Géorgien ― supplément	(en) « U2D00 »	voir Géorgien, Alphabet géorgien
U+2D30	U+2D7F	Tifinagh	(en) « U2D30 »	voir Tifinagh et Langues berbères
U+2D80	U+2DDF	Éthiopien étendu	(en) « U2D80 »	voir Alphasyllabaire guèze
U+2DE0	U+2DFF	Cyrillique étendu ― A	(en) « U2DE0 »	voir Alphabet cyrillique, Diacritique, Diacritiques de l’alphabet cyrillique
U+2E00	U+2E7F	Ponctuation ― supplément	(en) « U2E00 »	voir Ponctuation
U+2E80	U+2EFF	Sinogrammes ― clés CJC ― supplément	(en) « U2E80 »	voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen
U+2F00	U+2FDF	Sinogrammes ― clés chinoises du Kangxi	(en) « U2F00 »	voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Dictionnaire de caractères de Kangxi
U+2FE0	U+2FEF	Réservé	―^[11]	―
U+2FF0	U+2FFF	Description idéographique	(en) « U2FF0 »	voir Description idéographique
U+3000	U+303F	Symboles et ponctuation CJC	(en) « U3000 »	voir Ponctuation, Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen
U+3040	U+309F	Hiragana	(en) « U3040 »	voir Hiragana, Écritures du japonais, Japonais
U+30A0	U+30FF	Katakana	(en) « U30A0 »	voir Katakana, Écritures du japonais, Japonais
U+3100	U+312F	Bopomofo	(en) « U3100 »	voir Bopomofo, Chinois, japonais, coréen et vietnamien, Sinogramme
U+3130	U+318F	Hangûl ― jamos de compatibilité	(en) « U3130 »	voir Hangûl (ou Hangeul), Coréen
U+3190	U+319F	Kanbun	(en) « U3190 »	voir Kanbun, Sinogramme, Écritures du japonais, Japonais
U+31A0	U+31BF	Bopomofo étendu	(en) « U31A0 »	voir Bopomofo, Sinogramme, Chinois écrit, Langues chinoises
U+31C0	U+31EF	Sinogrammes ― traits CJC	(en) « U31C0 »	voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen
U+31F0	U+31FF	Katakana ― extension phonétique	(en) « U31F0 »	voir Katakana, Écritures du japonais, Japonais
U+3200	U+32FF	Lettres et mois CJC délimités	(en) « U3200 »	voir Chiffres arabes, Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen
U+3300	U+33FF	Sinogrammes ― compatibilité CJC	(en) « U3000 »	voir Unité de mesure, Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen
U+3400	U+4DBF	Sinogrammes unifiés CJC ― supplément A (1^re partie, 2^e partie)	(en) « U3400 »	voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen
U+4DC0	U+4DFF	Hexagrammes du Classique des mutations ou Yi Jing	(en) « U4DC0 »	voir Yi Jing, Hexagramme, Chinois, japonais, coréen et vietnamien, Sinogramme
U+4E00	U+9FFF	U+Idéogrammes unifiés CJC (1^re partie, 2^e partie, 3^e partie, 4^e partie, 5^e partie, 6^e partie)	(en) « U4E00 »	voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen, Vietnamien
U+A000	U+A48F	Yi ― syllabaire des Monts frais	(en) « UA000 »	voir Syllabaire yi
U+A490	U+A4CF	Yi ― clés	(en) « UA490 »	voir Syllabaire yi
U+A4D0	U+A4FF	Lissou	(en) « UA4D0 »	voir Lissou, Alphabet de Fraser (en)
U+A500	U+A63F	Vaï	(en) « UA500 »	voir Syllabaire vaï
U+A640	U+A69F	Cyrillique étendu ― B	(en) « UA640 »	voir Alphabet cyrillique
U+A6A0	U+A6FF	Bamoun	(en) « UA6A0 »	voir Écriture bamoun
U+A700	U+A71F	Lettres modificatives de ton	(en) « UA700 »	voir Langue à tons, Langues chinoises
U+A720	U+A7FF	Latin étendu ― D	(en) « UA720 »	voir Alphabet latin
U+A800	U+A82F	Sylotî nâgrî	(en) « UA800 »	voir Sylotî nâgrî (en)
U+A830	U+A83F	Formes numériques communes indiennes	(en) « UA830 »	voir Inde
U+A840	U+A87F	Phags-pa	(en) « UA840 »	voir Écriture phagpa
U+A880	U+A8DF	Saurachtra	(en) « UA880 »	voir Alphabet Saurashtra (en)
U+A8E0	U+A8FF	Devanâgarî étendu	(en) « UA8E0 »	voir Dévanâgarî
U+A900	U+A92F	Kayah li	(en) « UA900 »	voir Alphabet Kayah Li
U+A930	U+A95F	Rejang	(en) « UA930 »	voir Écriture redjang
U+A960	U+A97F	Hangûl ― Jamos étendus ― A	(en) « UA960 »	voir Hangûl (ou Hangeul), Coréen
U+A980	U+A9DF	Javanais	(en) « UA980 »	voir Écriture javanaise
U+A9E0	U+A9FF	Birman étendu ― B	(en) « UA9E0 »	voir Birman, Écriture birmane
U+AA00	U+AA5F	Cham	(en) « UAA00 »	voir Cham
U+AA60	U+AA7F	Birman étendu ― A	(en) « UAA60 »	voir Birman, Écriture birmane
U+AA80	U+AADF	Taï viêt	(en) « UAA80 »	voir Alphabet taï viêt, Tay dam, Tay don, Tay Song (en)
U+AAE0	U+AAFF	Meitei mayek étendu	(en) « UAAE0 »	voir Meitei, Écriture Meitei
U+AB00	U+AB2F	Éthiopien étendu ― A	(en) « UAB00 »	voir Alphasyllabaire guèze
U+AB30	U+AB6F	Latin étendu ― E	(en) « UAB30 »	voir Alphabet latin, Teuthonista, Alphabet d'Ascoli, Alphabet Rousselot-Gilliéron
U+AB70	U+ABBF	Chéroki ― supplément	(en) « UAB70 »	voir Syllabaire cherokee
U+ABC0	U+ABFF	Meitei mayek	(en) « UABC0 »	voir Meitei, Écriture Meitei
U+AC00	U+D7AF	Hangûl ― syllabes (1^re partie, 2^e partie, (3^e partie, 4^e partie)	(en) « UAC00 »	voir Hangûl (ou Hangeul), Coréen
U+D7B0	U+D7FF	Hangûl ― Jamos étendus ― B	(en) « U27B0 »	voir Hangûl (ou Hangeul), Coréen
U+D800	U+DBFF	Demi-zone haute d’indirection	(en) « UD800 »	voir Demi-zone haute d’indirection
U+DC00	U+DFFF	Demi-zone basse d’indirection	(en) « UDC00 »	voir Demi-zone basse d’indirection
U+E000	U+F8FF	Zone à usage privé (1^re partie, 2^e partie)	(en) « UE000 »	Aucun caractère officiellement défini
U+F900	U+FAFF	Sinogrammes de compatibilité CJC	(en) « UF900 »	voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen
U+FB00	U+FB4F	Formes de présentation alphabétiques	(en) « UFB00 »	voir Alphabet latin, Alphabet hébreu, Alphabet arménien
U+FB50	U+FDFF	Arabe ― formes de présentation ― A (1^re partie, 2^e partie, 3^e partie)	(en) « UFB50 »	voir Alphabet arabe
U+FE00	U+FE0F	Sélecteurs de variante	(en) « UFE00 »	voir Sélecteurs de variante
U+FE10	U+FE1F	Formes verticales	(en) « UFE10 »	voir Ponctuation, GB 18030
U+FE20	U+FE2F	Demi-signes combinatoires	(en) « UFE20 »	voir Diacritique
U+FE30	U+FE4F	Sinogrammes ― formes de compatibilité CJC	(en) « UFE30 »	voir Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen
U+FE50	U+FE6F	Petites variantes de forme	(en) « UFE50 »	voir Ponctuation, GBK, GB 2312, CNS 11643 (en)
U+FE70	U+FEFF	Arabe ― formes de présentation ― B	(en) « UFE70 »	voir Alphabet arabe
U+FF00	U+FFEF	Formes de demi et pleine chasse	(en) « UFF00 »	voir Formes à demi et pleine chasse, Chinois, japonais, coréen et vietnamien, Sinogramme, Chinois écrit, Langues chinoises, Écritures du japonais, Japonais, Hanja, Coréen, ASCII, Alphabet latin
U+FFF0	U+FFFF	Caractères spéciaux	(en) « UFFF0 »	voir Caractères spéciaux

Points de code		Nom officiel du bloc	Commentaires
Début	Fin	Nom officiel du bloc	Commentaires
E0000	E007F	Étiquettes
E0080	E00FF	Réservé^[26]	-
E0100	E01EF	Supplément de sélecteurs de variante
E01F0	EFFFF	Réservé^[27] _{(Partie 1)} _{(Partie 2)} _{(Partie 3)} _{(Partie 4)} _{(Partie 5)} _{(Partie 6)} _{(Partie 7)} _{(Partie 8)} _{(Partie 9)} _{(Partie 10)} _{(Partie 11)} _{(Partie 12)} _{(Partie 13)} _{(Partie 14)} _{(Partie 15)} _{(Partie 16)} _{(Partie 17)}	-

Unicode

De Mi caja de notas

Mission

Standardisation

Interopérabilité avec le code ASCII

Conformité d'un processus à Unicode

Limitations

Normes et versions

Couches d'Unicode

Répertoire des caractères abstraits (abstract character repertoire)

Jeu de caractères codés (coded character set)

Formalisme de codage des caractères (character encoding form)

Mécanisme de sérialisation des caractères (character encoding scheme)

Surcodage de transfert (transfer encoding syntax)

Limite de l'octet

Universal Transformation Format (UTF)

UTF-8

Dérivés

UTF-16

UTF-32

Norme chinoise GB 18030

Polices de caractères Unicode

Détails techniques

Bibliothèques logicielles

Partitionnement

Plan multilingue de base (PMB, U+0000 à U+FFFF)

Plan multilingue complémentaire (PMC, U+10000 à U+1FFFF)

Plan sinographique complémentaire (PSC, U+20000 à U+2FFFF)

Plan sinographique ternaire (PST, U+30000 à U+3FFFF)

Plans complémentaires réservés (U+40000 à U+DFFFF)

Plan complémentaire spécialisé (PCS, U+E0000 à U+EFFFF)

Plans complémentaires à usage privé (U+F0000 à U+10FFFF)

Notes et références

Voir aussi

Liens externes

Références normatives

Références informatives

Tables et données tierces de mise en œuvre ou d'utilisation

Guides d'utilisation

Discussions et articles

Articles connexes