UTF-8: различия между версиями

[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
Нет описания правки
Строка 1:
'''UTF-8''' (от {{lang-en|Unicode Transformation Format, 8-bit}} — «формат преобразования Юникода, 8-бит») — распространённый стандарт кодирования текста, позволяющий более компактно хранить и передавать символы [[Юникод]]а, используя переменное количество байт (от 1 до 4), и обеспечивающий полную обратную совместимость с 7-битной кодировкой [[ASCII]]. Стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D.
Кодировка UTF-8 сейчас является доминирующей в веб-пространстве. Она также нашла широкое применение в [[UNIX-подобная операционная система|UNIX-подобных операционных системах]]<ref>[http://w3techs.com/technologies/overview/character_encoding/all Usage Statistics of Character Encodings for Websites, June 2011]{{ref-en}}</ref>.
Формат UTF-8 был разработан [[2 сентября]] [[1992 год]]а [[Томпсон, Кен|Кеном Томпсоном]] и [[Пайк, Роб|Робом Пайком]], и реализован в [[Plan 9]].<ref>http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt{{ref-en}}</ref> Идентификатор кодировки в Windows – 65001.<ref>[https://docs.microsoft.com/en-us/windows/desktop/intl/code-page-identifiers Code Page Identifiers - Windows applications | Microsoft Docs<!-- Заголовок добавлен ботом -->]</ref>
 
Сравнивая UTF-8 и [[UTF-16]], можно отметить, что наибольший выигрыш в компактности UTF-8 даёт для текстов на [[латиница|латинице]], поскольку латинские буквы без диакритических знаков, цифры и наиболее распространённые знаки препинания кодируются в UTF-8 лишь одним байтом, и коды этих латинских букв, цифр и знаков препинания точно соответствуют их кодам в [[ASCII]].<ref name="stringtheory">