HTML jeux de caractères

Les jeux de caractères HTML

Pour afficher une page HTML correctement, le navigateur doit savoir ce que le jeu de caractères à utiliser.

Le jeu de caractères pour le Web mondial au début éventail était ASCII. ASCII gère les numéros de 0-9, l'alphabet en majuscules et minuscules en anglais, et certains caractères spéciaux.

Remplissez de référence ASCII .

Comme de nombreux pays d'utiliser des caractères qui ne sont pas une partie de l'ASCII, le jeu de caractères par défaut pour les navigateurs modernes est certifiée ISO-8859-1.

Complète la norme ISO-8859-1 de référence .

Si une page Web utilise un autre jeu de caractères que la norme ISO-8859-1, il devrait être spécifié dans la balise meta.

Essayez vous-même

Personnage ISO Définit

Il est l'Organisation internationale de normalisation (ISO) qui définit les standards pour les jeux de caractères de différents alphabets ou langues.

Les différents jeux de caractères utilisés dans le monde entier sont répertoriés ci-dessous:

Jeu de caractères	Description	Couvre
ISO-8859-1	Partie alphabet latin 1	Amérique du Nord, Europe de l'Ouest, en Amérique latine, les Caraïbes, le Canada, l'Afrique
ISO-8859-2	Partie alphabet latin 2	Europe de l'Est
ISO-8859-3	Partie alphabet latin 3	SE l'Europe, l'espéranto, d'autres divers
ISO-8859-4	Partie alphabet latin 4	Scandinavie / Pays baltes (et d'autres pas dans la norme ISO-8859-1)
ISO-8859-5	Latin / cyrillique partie 5	Les langues qui utilisent l'alphabet cyrillique comme le bulgare, le biélorusse, le russe et macédonienne
ISO-8859-6	Latin / arabe la partie 6	Les langues qui utilisent l'alphabet arabe
ISO-8859-7	Latin / grec partie 7	La langue grecque moderne ainsi que des symboles mathématiques dérivés du grec
ISO-8859-8	Latin / hébreu partie 8	Les langues qui utilisent l'alphabet hébreu
ISO-8859-9	Latin 5 la partie 9	La langue turque. Identique à la norme ISO-8859-1 sauf les caractères turcs remplacer les islandais
ISO-8859-10	Latin 6 lapone, nordique, Eskimo	Les langues nordiques
ISO-8859-15	Latin 9 (aka latine 0)	Semblable à la norme ISO 8859-1, mais remplace certains symboles moins courantes avec le symbole de l'euro et quelques autres personnages disparus
ISO-2022-JP	Latine / Japonais partie 1	La langue japonaise
ISO-2022-JP-2	Latine / japonais partie 2	La langue japonaise
ISO-2022-KR	Latine / Coréen partie 1	La langue coréenne

Le standard Unicode

Parce que le personnage-ensembles énumérés ci-dessus sont limités en taille, et ne sont pas compatibles dans des environnements multilingues, le Consortium Unicode a développé le standard Unicode.

Le standard Unicode couvre tous les personnages, les signes de ponctuation et les symboles dans le monde.

Unicode permet le traitement, le stockage et l'échange de données texte, peu importe ce que la plate-forme, quel que soit le programme, quelle que soit la langue.

Le consortium Unicode

Le Consortium Unicode développe le standard Unicode. Leur but est de remplacer les actuels jeux de caractères avec son Transformation Format standard Unicode (UTF).

Le standard Unicode est devenu un succès et est mis en œuvre en XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc La norme Unicode est également pris en charge dans de nombreux systèmes d'exploitation et tous les navigateurs modernes.

Le Consortium Unicode coopère avec les principales organisations d'élaboration de normes, comme ISO, W3C, et ECMA.

Unicode peut être mis en œuvre par différents jeux de caractères. Les codages les plus couramment utilisés sont l'UTF-8 et UTF-16:

Jeu de caractères	Description
UTF-8	Un personnage en UTF8 peut être de 1 à 4 octets de long. UTF-8 peut représenter n'importe quel caractère dans la norme Unicode. UTF-8 est compatible avec ASCII. UTF-8 est le codage préféré pour les pages e-mail et Web
UTF-16	16-bit Unicode Transformation Format est un codage de caractères de longueur variable pour Unicode, capable de coder l'ensemble du répertoire Unicode. UTF-16 est utilisé dans les systèmes d'exploitation principaux et des environnements, comme Microsoft Windows 2000/XP/2003/Vista/CE et le Java et. NET environnements byte-code

Astuce: Les 256 premiers caractères de caractères Unicode définit correspondent aux 256 caractères de la norme ISO-8859-1.

Astuce: Tous les 4 processeurs supportent déjà HTML UTF-8, et tous les processeurs XHTML et XML charge le codage UTF-8 et UTF-16!

Blog Officiel w3schools - Online Web Tutoriels