Строковый тип: различия между версиями

477 байт добавлено ,  4 месяца назад
(викификатор)
Метка: редактор вики-текста 2017
* Использование двух или более байт для представления каждого символа ([[UTF-16]], [[UTF-32]]). Главным недостатком этого метода является потеря совместимости с предыдущими библиотеками для работы с текстом при представлении строки как ASCIIZ. Например, концом строки должен считаться уже не байт со значением 0, а два или четыре подряд идущих нулевых байта, в то время как одиночный байт «0» может встречаться в середине строки, что сбивает библиотеку «с толку».
* Использование кодировки с переменным размером символа. Например, в [[UTF-8]] часть символов представляется одним байтом, часть двумя, тремя или четырьмя. Этот метод позволяет сохранить частичную совместимость со старыми библиотеками (нет символов 0 внутри строки и поэтому 0 можно использовать как признак конца строки), но приводит к невозможности прямой адресации символа в памяти по номеру его позиции в строке.
 
== Лексический анализ ==
Для проверки соответствия всех словоформ при лексическим (семантическом) анализе используются меры схожести лексем:
* [[Расстояние Дамерау — Левенштейна]]
* [[Расстояние Левенштейна]]
* [[Расстояние Хэмминга]]
* [[Сходство Джаро — Винклера]]
 
== См. также ==