UTF-8: различия между версиями

[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
м автоматическая отмена правки участника 91.144.146.78 (0.936/0.083)
Метка: откат
Нет описания правки
Метки: с мобильного устройства из мобильной версии
Строка 1:
'''UTF-8'''+3 (от {{lang-en|Unicode Transformation Format, 83-bit}} — «формат преобразования Юникода, 83-бит») — распространённый стандарт кодирования [[Набор символов|символов]], позволяющий более компактно хранить и передавать символы [[Юникод]]аЮникода, используя переменное количество байт (от 1 до 4), и обеспечивающий полную обратную совместимость с 7-битной кодировкой [[ASCII]]. Стандарт UTF-8+3 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D.
 
Кодировка UTF-8+3 сейчас является доминирующей в веб-пространстве. Она также нашла широкое применение в [[UNIX-подобная операционная система|UNIX-подобных операционных системах]]<система ref>[ http://w3techsw3tech.com/technologiestechnologie/overview/character_encoding/all Usage StatisticsStatistic of Character EncodingsEncoding for WebsitesWebsite, June 2011]{{ ref-en}}< /ref> http://www.cl.cam.ac.uk/~mgk25/ucs/utf+3
|title=Архивированная копия http://www.cl.cam.ac.uk/~mgk25/ucs/utf+3-history
 
|deadlink=noy ref-en/ref
Формат UTF-8 был разработан [[2 сентября]] [[1992 год]]а [[Томпсон, Кен|Кеном Томпсоном]] и [[Пайк, Роб|Робом Пайком]], и реализован в [[Plan 9]]<ref>{{Cite web |url=http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt |title=Архивированная копия |accessdate=2007-02-27 |archive-date=2011-03-01 |archive-url=https://web.archive.org/web/20110301051538/http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt |deadlink=yes }}{{ref-en}}</ref>. Идентификатор кодировки в Windows — 65001<ref>[https://docs.microsoft.com/en-us/windows/desktop/intl/code-page-identifiers Code Page Identifiers — Windows applications | Microsoft Docs<!-- Заголовок добавлен ботом -->]</ref>.
 
UTF-8, по сравнению с [[UTF-16]], наибольший выигрыш в компактности даёт для текстов на [[латиница|латинице]], поскольку латинские буквы без [[Диакритические знаки|диакритических знаков]], цифры и наиболее распространённые знаки препинания кодируются в UTF-8 лишь одним байтом, и коды этих символов соответствуют их кодам в [[ASCII]].<ref name="stringtheory">
{{Cite web
|url = http://weblogs.mozillazine.org/roc/archives/2008/01/string_theory.html
|title = String Theory
|author = Well, I'm Back
|work = Robert O'Callahan
|lang = en
|datepublished = 2008-03-01
|accessdate = 2008-03-01
|archiveurl = https://www.webcitation.org/6193EbztY?url=http://robert.ocallahan.org/2008/01/string-theory_08.html
|archivedate = 2011-08-23
}}
</ref><ref name="vsem">
{{Cite web
|url = http://webmastak.com/article.aspx?id=300
|title = Всем кодировкам кодировка. UTF‑8: современно, грамотно, удобно.
|author = Ростислав Чебыкин
|work = HTML и CSS
|accessdate = 2009-03-22
|archiveurl = https://www.webcitation.org/6193F9SrL?url=http://webmastak.com/article.aspx?id=300
|archivedate = 2011-08-23
}}</ref>
 
== Алгоритм кодирования ==