Zum Inhalt springen

UTF-8-Codierung

Das 8-Bit-Unicode-Transformationsformat, auch UTF-8 genannt, ist eine variable Zeichenkodierung, die alle 1.114.112 gültigen Codepoints in Unicode mit ein bis vier 8-Bit-Bytes kodieren kann. Die „8“ bedeutet, dass UTF-8 8-Bit-Blöcke zur Darstellung eines Zeichens verwendet.

Seit 2009 ist UTF-8 die führende Kodierung für das World Wide Web.

Für Zeichen, die gleich oder kleiner als 127 (hex 0x7F) sind, beträgt die UTF-8-Darstellung ein Byte. Dies entspricht dem ASCII-Wert.

Für jedes Zeichen, das gleich oder kleiner als 2047 (hex 0x07FF) ist, erstreckt sich die UTF-8-Darstellung über zwei Bytes.

Für jedes Zeichen, das gleich oder größer als 2048, aber kleiner als 65535 (0xFFFF) ist, erstreckt sich die UTF-8-Darstellung über drei Bytes.

Für jedes Zeichen, das gleich oder größer als 65536 (0x10000) bis zum maximalen Unicode-Codepoint (0x10FFFF) ist, erstreckt sich die UTF-8-Darstellung über vier Bytes.

Die folgende Liste zeigt einige UTF-8-Zeichencodes, die von HTML5 unterstützt werden:

ZeichencodesDezimalHexadezimal
C0 Controls and Basic Latin0-1270000-007F
C1 Controls and Latin-1 Supplement128-2550080-00FF
Latin Extended-A256-3830100-017F
Latin Extended-B384-5910180-024F
Spacing Modifiers688-76702B0-02FF
Diacritical Marks768-8790300-036F
Greek and Coptic880-10230370-03FF
Cyrillic Basic1024-12790400-04FF
Cyrillic Supplement1280-13270500-052F
General Punctuation8192-83032000-206F
Currency Symbols8352-839920A0-20CF
Letterlike Symbols8448-85272100-214F
Arrows8592-87032190-21FF
Mathematical Operators8704-89592200-22FF
Box Drawings9472-95992500-257F
Block Elements9600-96312580-259F
Geometric Shapes9632-972725A0-25FF
Miscellaneous Symbols9728-99832600-26FF
Dingbats9984-101752700-27BF

Practice

Was ist der Zweck von Unicode in HTML, laut dem Inhalt auf w3docs.com?

Finden Sie das nützlich?

Dual-run-Vorschau — vergleichen Sie mit den Symfony-Routen live.