Юникод: различия между версиями

13 байт убрано ,  2 года назад
→‎Проблемы Юникода: уточнение, оформление
Метки: правка с мобильного устройства правка из мобильного приложения
(→‎Проблемы Юникода: уточнение, оформление)
В Юникоде английское «a» и польское «a» — один и тот же символ. Точно так же одним и тем же символом (но отличающимся от «a» латинского) считаются русское «а» и сербское «а». Такой принцип кодирования не универсален; по-видимому, решения «на все случаи жизни» вообще не может существовать.
* Тексты на [[китайский язык|китайском]], [[корейский язык|корейском]] и [[японский язык|японском]] языках имеют традиционное написание сверху вниз, начиная с правого верхнего угла. Переключение горизонтального и вертикального написания для этих языков не предусмотрено в Юникоде — это должно осуществляться средствами [[язык разметки|языков разметки]] или внутренними механизмами [[текстовый процессор|текстовых процессоров]].
* ЮникодНаличие предусматриваетили возможностьотсутствие в Юникоде разных начертаний одного и того же символа в зависимости от языка. Так, [[китайское письмо|китайские иероглифы]] могут иметь разные начертания в китайском, японском ([[кандзи]]) и корейском ([[ханча]]), но при этом в Юникоде обозначаются одним и тем же символом (так называемая CJK-унификация), хотя упрощённые и полные иероглифы всё же имеют разные коды. Аналогично, [[русский язык|русский]] и [[сербский язык|сербский]] <!-- защита от Викификатора --><nowiki>языки</nowiki> используют разное начертание курсивных букв ''п'' и ''т'' (в сербском они выглядят как <span style="text-decoration: overline; font-style: italic">и</span> и <span style="text-decoration: overline; font-style: italic">ш</span>, см. [[сербский курсив]]). Поэтому нужноНужно следить, чтобы текст всегда был правильно помечен как относящийся к тому или другому языку.
*: Так, [[китайское письмо|китайские иероглифы]] могут иметь разные начертания в китайском, японском ([[кандзи]]) и корейском ([[ханча]]), но при этом в Юникоде обозначаются одним и тем же символом (так называемая CJK-унификация), хотя упрощённые и полные иероглифы всё же имеют разные коды.
*: Аналогично, [[русский язык|русский]] и [[сербский язык|сербский]] <!-- защита от Викификатора --><nowiki>языки</nowiki> используют разное начертание курсивных букв ''п'' и ''т'' (в сербском они выглядят как <span style="text-decoration: overline; font-style: italic">и</span> и <span style="text-decoration: overline; font-style: italic">ш</span>, см. [[сербский курсив]]).
* Перевод из строчных букв в заглавные тоже зависит от языка. Например: в [[турецкий язык|турецком]] существуют буквы [[i без точки|İi и Iı]] — таким образом, турецкие правила изменения регистра конфликтуют с [[английский язык|английскими]], которые предписывают «i» переводить в «I». Подобные проблемы есть и в других языках — например, в канадском диалекте французского языка регистр переводится немного не так, как во Франции<ref>[http://www.transl-gunsmoker.ru/2008/11/unicode.html Регистр в Unicode — это непросто]</ref>.
* Даже с [[арабские цифры|арабскими цифрами]] есть определённые типографские тонкости: цифры бывают «прописными» и «[[минускульные цифры|строчными]]», пропорциональными и [[моноширинный шрифт|моноширинными]]<ref>В большинстве шрифтов для ПК реализованы «прописные» (маюскульные) моноширинные цифры.</ref> — для Юникода разницы между ними нет. Подобные нюансы остаются за программным обеспечением.