UTF-8: различия между версиями

[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
оформление
Нет описания правки
Строка 1:
'''UTF-8''' (от {{lang-en|Unicode Transformation Format, 8-bit}} — «формат преобразования Юникода, 8-бит») — распространённый стандарт [[Набор символов|кодирования символов]]текста, позволяющий более компактно хранить и передавать символы [[Юникод]]а, используя переменное количество байт (от 1 до 4), и обеспечивающий полную обратную совместимость с 7-битной кодировкой [[ASCII]]. Стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D.
Кодировка UTF-8 сейчас является доминирующей в веб-пространстве. Она также нашла широкое применение в [[UNIX-подобная операционная система|UNIX-подобных операционных системах]]<ref>[http://w3techs.com/technologies/overview/character_encoding/all Usage Statistics of Character Encodings for Websites, June 2011]{{ref-en}}</ref>.
Формат UTF-8 был разработан [[2 сентября]] [[1992 год]]а [[Томпсон, Кен|Кеном Томпсоном]] и [[Пайк, Роб|Робом Пайком]], и реализован в [[Plan 9]]<ref>http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt{{ref-en}}{{Недоступная ссылка|date=Август 2019 |bot=InternetArchiveBot }}</ref>. Идентификатор кодировки в Windows – 65001<ref>[https://docs.microsoft.com/en-us/windows/desktop/intl/code-page-identifiers Code Page Identifiers - Windows applications | Microsoft Docs<!-- Заголовок добавлен ботом -->]</ref>.
 
Сравнивая UTF-8 и [[UTF-16]], можно отметить, что наибольший выигрыш в компактности UTF-8 даёт для текстов на [[латиница|латинице]], поскольку латинские буквы без диакритических знаков, цифры и наиболее распространённые знаки препинания кодируются в UTF-8 лишь одним байтом, и коды этих символов соответствуют их кодам в [[ASCII]].<ref name="stringtheory">
Строка 79:
 
=== Примеры кодирования ===
{| class="wikitable" style="text-align:right;"
|-
!colspan=2|Символ
!Сим-<br>вол || Порядковый номер<br>в таблице Юникода<ref>{{cite web
|url=https://unicode-table.com/ru/ |title=Таблица символов Юникода
|date=2019-08-25 |accessdate=2019-08-25}}</ref>
! Двоичный код символа
! UTF-8 в двоичном виде
! UTF-8 в 16-тиричномшестнадцатеричном виде
|-
|align=center|[[Символ доллара|$]] || <code>36 или U+0024</code>
|align=right|<code>{{color|red|100100}}</code>
|align=left|<code>0{{color|red|0100100}}</code>
|align=left|<code>{{color|black|24}}</code>
|-
|align=center|[[Символ цента|¢]] || <code>162 или U+00A2</code>
|align=right|<code>{{color|green|10}}{{color|red|100010}}</code>
|align=left|<code>110{{color|green|00010}} 10{{color|red|100010}}</code>
|align=left|<code>{{color|black|C2}} {{color|black|A2}}</code>
|-
|align=center|[[Символ евро|€]] || <code>8364 или U+20AC</code>
|align=right|<code>{{color|blue|10}}{{color|green|0000}} {{color|green|10}}{{color|red|101100}}</code>
|align=left|<code>1110{{color|blue|0010}} 10{{color|green|000010}} 10{{color|red|101100}}</code>
|align=left|<code>{{color|black|E2}} {{color|black|82}} {{color|black|AC}}</code>
|-
|align=center|[[Хвайр|𐍈]] || <code>66376 или U+10348</code>
|align=right|<code>{{color|blue|1 0000}}{{color|green|0011 01}}{{color|red|001000}}</code>
|align=left|<code>11110{{color|#C000C0|000}} 10{{color|blue|010000}} 10{{color|green|001101}} 10{{color|red|001000}}</code>
|align=left|<code>{{color|black|F0}} {{color|black|90}} {{color|black|8D}} {{color|black|88}}</code>
|}