UTF-8-Codierung
Das 8-Bit-Unicode-Transformationsformat, auch UTF-8 genannt, ist eine variable Zeichenkodierung, die alle 1.114.112 gültigen Codepoints in Unicode mit ein bis vier 8-Bit-Bytes kodieren kann. Die „8“ bedeutet, dass UTF-8 8-Bit-Blöcke zur Darstellung eines Zeichens verwendet.
Seit 2009 ist UTF-8 die führende Kodierung für das World Wide Web.
Für Zeichen, die gleich oder kleiner als 127 (hex 0x7F) sind, beträgt die UTF-8-Darstellung ein Byte. Dies entspricht dem ASCII-Wert.
Für jedes Zeichen, das gleich oder kleiner als 2047 (hex 0x07FF) ist, erstreckt sich die UTF-8-Darstellung über zwei Bytes.
Für jedes Zeichen, das gleich oder größer als 2048, aber kleiner als 65535 (0xFFFF) ist, erstreckt sich die UTF-8-Darstellung über drei Bytes.
Für jedes Zeichen, das gleich oder größer als 65536 (0x10000) bis zum maximalen Unicode-Codepoint (0x10FFFF) ist, erstreckt sich die UTF-8-Darstellung über vier Bytes.
Die folgende Liste zeigt einige UTF-8-Zeichencodes, die von HTML5 unterstützt werden:
| Zeichencodes | Dezimal | Hexadezimal |
|---|---|---|
| C0 Controls and Basic Latin | 0-127 | 0000-007F |
| C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
| Latin Extended-A | 256-383 | 0100-017F |
| Latin Extended-B | 384-591 | 0180-024F |
| Spacing Modifiers | 688-767 | 02B0-02FF |
| Diacritical Marks | 768-879 | 0300-036F |
| Greek and Coptic | 880-1023 | 0370-03FF |
| Cyrillic Basic | 1024-1279 | 0400-04FF |
| Cyrillic Supplement | 1280-1327 | 0500-052F |
| General Punctuation | 8192-8303 | 2000-206F |
| Currency Symbols | 8352-8399 | 20A0-20CF |
| Letterlike Symbols | 8448-8527 | 2100-214F |
| Arrows | 8592-8703 | 2190-21FF |
| Mathematical Operators | 8704-8959 | 2200-22FF |
| Box Drawings | 9472-9599 | 2500-257F |
| Block Elements | 9600-9631 | 2580-259F |
| Geometric Shapes | 9632-9727 | 25A0-25FF |
| Miscellaneous Symbols | 9728-9983 | 2600-26FF |
| Dingbats | 9984-10175 | 2700-27BF |
Practice
Was ist der Zweck von Unicode in HTML, laut dem Inhalt auf w3docs.com?