В статье не хватает ссылок на источники (см. рекомендации по поиску). |
В цифровой типографике комбинируемые символы — это символы, предназначенные для изменения других символов. Наиболее распространенными комбинируемыми символами в латинице являются комбинируемые диакритические знаки (в том числе комбинируемые акценты).
Юникод также содержит много предварительно составленных символов, так что во многих случаях можно использовать как комбинируемые диакритические знаки, так и предварительно составленные символы по выбору пользователя или приложения. Это приводит к требованию выполнить нормализацию Юникода перед сравнением двух строк Юникода и тщательно разработать преобразователи кодирования, чтобы правильно сопоставить все допустимые способы представления символа в Юникоде с устаревшей кодировкой, чтобы избежать потери данных.
В Юникоде основным блоком для комбинируемых диакритических знаков европейских языков и Международного фонетического алфавита является U+0300…U+036F. Комбинируемые диакритические знаки также присутствуют во многих других блоках Юникода. В Юникоде диакритические знаки всегда ставятся после основного символа (в отличие от некоторых более старых наборов комбинируемых символов, таких как ANSEL[англ.], что позволяет добавлять несколько диакритических знаков к одному символу.
Zalgo-текст
правитьВ другом языковом разделе есть более полная статья Zalgo text (англ.). |
Комбинируемые символы также используются для создания так называемого «Zalgo-текста» — текста, выглядящего искажённым из-за чрезмерного использования диакритических знаков. Это заставляет текст расширяться по вертикали, перекрывая этим другой текст[1].
п̴̢̧̡̧̨̨̨̡̧̢̢̢̢̡̡̢̨̡̧̢̛̛͈͕̩̱̼̲͚̼̻͉̱̤͔̞̤̝̠̗͍̯̰̹̺̺̘͎̝̦̱̤̩͉̼͕̳̹͕͙̘̘̝̘̦̜͇̞͇̰̙̘͙̞̖̝̰̘̰̫̰͉͉͚̥͉̝̣̥̠̳̘͕̖̹̪̘̦̝̗͖̭̺̪̱͓̝̻͈̟̲̳̞̫̥̞̝̹̜̱̺̹͕̟̖̰̫̟͇̭͇̩͖̘̩̺̱̥̯̮̜̰̘̹̼̲̬̣̞̬̥͖͇͎̤̠̠̜̮̱̱̩͙̥͔̯͕̘͍̳͚̝̼͍̱̳̼͓̱̟̫̭͓̬̘̻̟̜̮̹͍̳̙̟̙̝̦͇̣̤̮̘͉̭͙̩͓̯̥̳̳̠̻̭̭͕̝̮̞̠̺͈̮̦̥̺̩͉̞͔̗̬̣̣̬͔̦̩̬̘̟̹͎͎̤̖̻̱͍͍̝͔̠̼͔̦͚̦͍̤̭̝͖͈̥̱͉͉̟̲̫̻̤͓̮̖̜̱̖͍̦̺̦͍̩̱͔͆̈́̈́̎͑̉͋͑͂̾̐̿͑̈́̈͌̇͗̏̔̓̓̐̇̈́̾̇̈̐̾͐̐̊̊̔̋̀̍͌͒͌͌̎͊̔̓̒͑̈́͒̅̂̈́̊̔̄̾͐̃͋͋̐̈̒̂̆͌͐͐͛́͋̏̿͒̋̀̃̕̕̚̕͘̚̕͜͜͜͜͠͝͝͝ͅͅͅͅͅͅͅͅͅр̷̨̧̡̧̨̡̛̛̛̛̛̰̙͔̯͚͔̠͓͙̭̼̱̫̹̪̪̞̤̪͔̻͓̪̥̣̫̪̬̰̘͙͋̆̏̔͛́̀̀̒̊̆̊̅͌͌̓̊̌̍͊͒͊͆̎̀̅̏̃̆̅͒͒͑͒͗̇̈́̈́̓̒̾̂̀̈́͛̈̌̉͂̉̓̊̓͋̈́̀̌̍̉̆̈̊͋̀͐͂̀̃̄̒̋͒̈̄̐̈̈́̒͊̀̀̂͒̍̂̃͋̋̌̑͊́̅̿̌̌̆̆́́́͛̒̃̔̋̆̊̐̀̐͊̉͗͑̂͒͐̿̇͊̍͋̏̏͊͛́̉̌̿̇̔̀̓̒̈́̂̀͋̉͗̎̽͐̍̀͊́́̉̍̿̉̉̆͒̀̃͛̈́̏̇̾͛̏̎̓̋̈́̽̚̚͘̚̚̕͘͘͘̕̚̚͜͜͠͝͠͠͠͝͠͠͠͝͝ѝ̴̡̡̢̛̟͚͉̲̞͓͍͚̱͉͖͕̙̮͎̳̣̰͙̞͍͊̐͐̂̃͛̽̈́̇̒͌̓̿̑̑̽̀̉́̑̏̚͝͝͝͝ͅм̸̡̡̢̛̛̛̣͉̗̪͚͔̹̜̣̱̜̠͎̥̘͎̟̥̬̘́̄̂̌͌͑͛̾͒̑̈̋̌̉̾͑͛̒̓͗̈́́̿̇́́̎͒̌̓̎̊͋͛́̊̅̃̇͛̄̽̒̋̋̇͂̋̐̈͐̆͑̎̂̔͂͊̈́̔̑̎̾̽̔́̃́̌̒̐͑̌̐͋̅͆̇̈́̏̃̋̈́̍͛̿̈́̅̿̌̔̈́̅̄͐̈́̔͋̄̎͑̇͊́̇̌͊̃̏̄͂̊͌̇͗̆̈́̿͋̍̈̎̑̿̈́͗̋̎̓̐̆̾̈́͋̎̎̍̀̈́̈́͋͗̾͐̉̃̌͋͊̕͘͘͘̚̚̚͠͝͠͝͝͝͠͝͝͠͝͝͠͠͝ͅͅе̴̧̨̡̡̛̛̜͈͇̗̦̳͙̪͍̼̯̬̳̺͖̲͖͓̖̦̮̪̗͉̖͈̏̽̅̍̌́̒̿́̾̈̀͛̈́̈̆̊̏͐̈́̀̃̍͊̈́̔̋͋̇̍̈̓̾̊͐̓̋̓̄̇̾̿́̓̽̃͒̀̆̀̏̅̈́͆̐̄͂̅̾̓͂̓̇̎͊̽̀͐̈́͑͐̑̏̈́̐̈́̋̈̂̈́̀̈́̈́̽̏̈͛̽̋͛̀̈́́͋̿̈̋̑̌̿̆͐̍͗́̓́̊̌̊̍͊͊͒̓̉͛̈͑̀͑̉̾͊̅̍̅̈́̾̊̀̾̎̐͒̾́̏̃̇̅̑͆̅͂̊̄͐́̔͑͑̍́͌̂́͗͆͛͋̎̈́̀̋̅̀͋̆̔̄͂̅̒̋͊̉̽͊̀̉̄͌͒͌͛̈̈̆͊̉̋̿̈͋̎́̆̂͊̉̇̾̉̓̑͗̌͊͂͋̎́͋̽̈́͑̇̆̚̕̚̚̕̚͘̕͘̚̕̕̕̕̚̚̚̚͜͝͝͠͠͝͝͝͠͝͠͝͝͝͝͠͝͝р̵̛̛̛̤̖̩̺̖̹̯̮̄͊̈͋̑͒͆͋͗̌̇̈͒̃̎͌̇̔̋̄̓̔̍̑͗͆̈́̒́̾̉̅͒͒̇̄̎̋͌̅̽̀͌̈́͐̈̆̑̍̒̅̄̑̀̽̆͌̈́̊̋̔̀̓̌̓́̊̑̓̋̀͋̑̍̊̔̃̄́̔̂͂̾͋̅͋͗̏͒͊̔̏̽̽̏̽̍̓́̈̔̑͊̀̌́̓̕͘̕̚͘͘̚̕͘̕͘͝͝͝͝
Диапазоны в Юникоде
правитьЮникод содержит следующие блоки, предназначенные специально для комбинируемых диакритических знаков:
- Комбинируемые диакритические знаки (англ. Combining Diacritical Marks, U+0300…U+036F)
- Расширенные комбинируемые диакритические знаки (англ. Combining Diacritical Marks Extended, U+1AB0…U+1AFF)
- Дополнение к комбинируемым диакритическим знакам (англ. Combining Diacritical Marks Supplement, U+1DC0…U+1DFF)
- Комбинируемые диакритические знаки для символов (англ. Combining Diacritical Marks for Symbols, U+20D0…U+20FF)
- Комбинируемые полузнаки (англ. Combining Half Marks, U+FE20…U+FE2F)
Канонический класс комбинируемости
правитьОдна из характеристик символа в Юникоде — канонический класс комбинируемости, принимающий только числовые значения[2].
Значение | Полное английское название | Русский перевод | Описание |
---|---|---|---|
0 | Not_Reordered | Не определён | Некомбинируемые и обрамляющие знаки; также многие знаки для гласных и согласных, даже если они комбинируемые |
1 | Overlay | Накладывающийся знак | Знаки, накладывающиеся на базовую букву или символ |
7 | Nukta | Нукта | Нукта — знак в системах письма, происходящих от брахми |
8 | Kana_Voicing | Знаки звонкости каны | Знаки звонкости в кане — дакутэн и хандакутэн |
9 | Virama | Вирама | Вирама — знак в системах письма, происходящих от брахми |
10—199 | Ccc10—Ccc199 | Канонические классы комбинируемости 10—199 | Классы фиксированных позиций |
200 | Attached_Below_Left | Контактный знак слева снизу | |
202 | Attached_Below | Контактный знак снизу | |
204 | — | ||
208 | — | ||
210 | — | ||
212 | — | ||
214 | Attached_Above | Контактный знак сверху | |
216 | Attached_Above_Right | Контактный знак справа сверху | |
218 | Below_Left | Знак слева снизу | |
220 | Below | Знак снизу | |
222 | Below_Right | Знак справа снизу | |
224 | Left | Знак слева | |
226 | Right | Знак справа | |
228 | Above_Left | Знак слева сверху | |
230 | Above | Знак сверху | |
232 | Above_Right | Знак справа сверху | |
233 | Double_Below | Двойной знак снизу | |
234 | Double_Above | Двойной знак сверху | |
240 | Iota_Subscript | Подстрочная йота | Только греческая подстрочная йота |
См. также
правитьПримечания
править- ↑ How does Zalgo text work? Stack Overflow. Дата обращения: 11 апреля 2019. Архивировано 27 мая 2019 года.
- ↑ Unicode Standard Annex #44 — Canonical Combining Class Values . Дата обращения: 6 июня 2019. Архивировано 8 июня 2019 года.