Юникод: различия между версиями

1 байт убрано ,  2 года назад
м
м (CheckWiki: замена прямых интервики-ссылок)
Метки: правка с мобильного устройства правка из мобильного приложения
 
== Алгоритмы нормализации ==
Из-за наличия в Юникоде комбинируемых символов, одни и те же знаки письменности можно представить различными кодами. Так, например, букву "Й" в примере выше можно записать как отдельным символом, так и сочетанием базового и комбинированного. Из-за этого сравнение строк байт за байтом становится невозможным. Алгоритмы нормализации ({{lang-en|normalization forms}}) решают эту проблему, выполняя приведение символов к определённому стандартному виду. Приведение осуществляется путём замены символов на эквивалентные с использованием таблиц и правил. «Декомпозицией» называется замена (разложение) одного символа на несколько составляющих символов, а «композицией», наоборот, — замена (соединение) нескольких составляющих символов на один символ.
 
В стандарте Юникода определены четыре алгоритма нормализации текста: NFD, NFC, NFKD и NFKC.