Маркер последовательности байтов

Маркер последовательности байтов или метка порядка байтов (англ. byte order mark, BOM) — специальный символ из стандарта Юникод, вставляемый в начало текстового файла или потока для обозначения того, что в файле (потоке) используется Юникод, а также для косвенного указания кодировки и порядка байтов, с помощью которых символы Юникода были закодированы. Номер этого символа в стандарте Юникод — U+FEFF. Использование этого символа, согласно спецификации Юникод, не является обязательным, однако оно широко распространено, так как позволяет легко избежать неверного декодирования текстовой информации.

Использование править

Согласно спецификации Юникода, маркер может стоять только в самом начале файла или потока. Если же символ U+FEFF встречается в середине потока данных, он должен^{[источник не указан 2077 дней]} интерпретироваться как «нулевой ширины неразрывный пробел» (по существу, неотображаемый и ничего не меняющий символ). Однако, большинство^{[сколько?]} браузеров, кроме Opera версий 12 и ниже, воспринимают BOM в середине документа как символ, занимающий целую строку, после чего генерируют перенос строки^[1].

Для неразрывного пробела нулевой ширины в Юникоде есть и отдельный специальный символ — U+2060, который и рекомендуется использовать в этом качестве, а маркер последовательности байтов U+FEFF рекомендуется использовать только по своему прямому назначению.

Если формат представления символов Юникода точно известен принимающей программе заранее, то по стандарту Юникода маркер ставить не следует. И если формат объявлен другим способом (например, MIME в поле заголовка Content-Type), маркер по стандарту ставить не полагается.

Определение кодировки по маркеру последовательности байтов править

По тому, как закодирован маркер последовательности байтов, стоящий в начале файла или потока, можно легко определить кодировку и порядок байтов, использованные для кодирования символов Юникода во всём данном файле или потоке. Это обстоятельство в основном и явилось причиной широкого использования маркера последовательности байтов.

Кодировка	Представление маркера последовательности байтов		Представление маркера при ошибочном раскодировании другой кодировкой
Кодировка	Шестнадцатеричный код	Десятичный код	ISO-8859-1	KOI8-R	CP1251	CP866	комментарий
UTF-8^{[t 1]}	`EF BB BF`	`239 187 191`	`ï»¿`	`О╩©`	`п»ї`	`я╗┐`
UTF-16 (BE)	`FE FF`	`254 255`	`þÿ`	`ЧЪ`	`юя`	`■`	пробел — неразрывный
UTF-16 (LE)	`FF FE`	`255 254`	`ÿþ`	`ЪЧ`	`яю`	`■`	пробел — неразрывный
UTF-32 (BE)	`00 00 FE FF`	`0 0 254 255`	`␀␀þÿ`	`␀␀ЧЪ`	`␀␀юя`	`␀␀■`	␀ — NUL, пробел — неразрывный
UTF-32 (LE)	`FF FE 00 00`	`255 254 0 0`	`ÿþ␀␀`	`ЪЧ␀␀`	`яю␀␀`	`■␀␀`	␀ — NUL, пробел — неразрывный
UTF-7^{[t 1]}	`2B 2F 76 38 2B 2F 76 39 2B 2F 76 2B 2B 2F 76 2F`^{[t 2]}	`43 47 118 56 43 47 118 57 43 47 118 43 43 47 118 47`	`+/v8 +/v9 +/v+ +/v/`
UTF-1^{[t 1]}	`F7 64 4C`	`247 100 76`	`÷dL`
UTF-EBCDIC^{[t 1]}	`DD 73 66 73`	`221 115 102 115`	`Ýsfs`
SCSU^{[t 1]}	`0E FE FF`^{[t 3]}	`14 254 255`	`␎þÿ`			`␎■`	␎ — упр. символ Shift Out^[англ.], пробел — неразрывный
BOCU-1^{[t 1]}	`FB EE 28`	`251 238 40`	`ûî`			`√ю(`
GB-18030^{[t 1]}	`84 31 95 33`	`132 49 149 51`	`�1�3`			`Д1Х3`	� — коды без значений

↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ В этих кодировках последовательность не определяет именно порядок байтов, так как кодировка однобайтная, но эта последовательность может использоваться для определения способа кодировки.^[2]^[3]
↑ В UTF-7 в связи с использованием base-64 четвёртый байт BOM является 001111xx в двоичном представлении, где xx зависит от следующего символа (первого после BOM). Поэтому четвёртый байт не является только частью BOM, но также содержит информацию о следующем (не BOM-) символе. Для xx=00, 01, 10, 11 четвёртый байт будет, соответственно, 38, 39, 2B или 2F при кодировке в base64. Если же следующий символ не кодируется base64, то используется 38 в качестве четвёртого байта, а следующий байт — 2D.
↑ SCSU предусматривает и другие кодировки для U+FEFF, указанная последовательность является рекомендованной в UTR #6.^[4]

Сложности, которые необходимо учитывать при использовании маркера править

Есть случаи, когда использования маркера последовательности байтов следует избегать, несмотря на удобства его применения. Например, использование маркера в веб-шаблонах вызывает появление пустых строк в документе, поэтому рекомендуется удалять маркер из веб-скриптов и CSS-файлов. А наличие маркера в начале файлов PHP (до тега <?php) приводит к тому, что пустая строка отправляется клиенту ещё до начала выполнения кода, что вызывает сбой в тех случаях, когда клиенту должен сразу отправиться HTTP-заголовок (при переадресации запроса, например).^[5] Также может неверно отрабатывать json_decode, если json записан в файл с BOM.

Примечания править

↑ The byte-order mark (BOM) in HTML (англ.). www.w3.org. Дата обращения: 19 сентября 2018. Архивировано 17 августа 2018 года.
↑ FAQ - UTF-8, UTF-16, UTF-32 & BOM: Can a UTF-8 data stream contain the BOM character (in UTF-8 form)? If yes, then can I still assume the remaining UTF-8 bytes are in big-endian order? (неопр.) Дата обращения: 4 января 2009. Архивировано 1 сентября 2012 года.
↑ STD 63: UTF-8, a transformation of ISO 10646 Архивная копия от 25 октября 2011 на Wayback Machine Byte Order Mark (BOM)
↑ UTR #6: Signature Byte Sequence for SCSU (неопр.). Дата обращения: 18 октября 2011. Архивировано 6 октября 2011 года.
↑ Potential issues with the UTF-8 BOM (неопр.). Дата обращения: 3 мая 2017. Архивировано 13 июня 2017 года.

[b-4] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ В этих кодировках последовательность не определяет именно порядок байтов, так как кодировка однобайтная, но эта последовательность может использоваться для определения способа кодировки.^[2]^[3]

[5] В UTF-7 в связи с использованием base-64 четвёртый байт BOM является 001111xx в двоичном представлении, где xx зависит от следующего символа (первого после BOM). Поэтому четвёртый байт не является только частью BOM, но также содержит информацию о следующем (не BOM-) символе. Для xx=00, 01, 10, 11 четвёртый байт будет, соответственно, 38, 39, 2B или 2F при кодировке в base64. Если же следующий символ не кодируется base64, то используется 38 в качестве четвёртого байта, а следующий байт — 2D.

[7] SCSU предусматривает и другие кодировки для U+FEFF, указанная последовательность является рекомендованной в UTR #6.^[4]

[1] The byte-order mark (BOM) in HTML (англ.). www.w3.org. Дата обращения: 19 сентября 2018. Архивировано 17 августа 2018 года.

[utf-8-bom-2] FAQ - UTF-8, UTF-16, UTF-32 & BOM: Can a UTF-8 data stream contain the BOM character (in UTF-8 form)? If yes, then can I still assume the remaining UTF-8 bytes are in big-endian order? (неопр.) Дата обращения: 4 января 2009. Архивировано 1 сентября 2012 года.

[3] STD 63: UTF-8, a transformation of ISO 10646 Архивная копия от 25 октября 2011 на Wayback Machine Byte Order Mark (BOM)

[6] UTR #6: Signature Byte Sequence for SCSU (неопр.). Дата обращения: 18 октября 2011. Архивировано 6 октября 2011 года.

[8] Potential issues with the UTF-8 BOM (неопр.). Дата обращения: 3 мая 2017. Архивировано 13 июня 2017 года.

[1]

[t 1]

[t 2]

[t 3]

[2]

[3]

[4]

[5]