Генератор текста: различия между версиями

[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
Стало красивее
Метки: с мобильного устройства из мобильной версии
Строка 9:
[[Джонатан Свифт]] в [[Путешествия Гулливера|«Путешествиях Гулливера»]], пародируя [[w:Раймунд Луллий#Иллюстрация схемы разумной связи|Ars magna]] [[Раймунд Луллий|Раймунда Луллия]], сатирически описал [[w:en:The Engine|машину из Лагадо]], генерирующую тексты.
 
Подписывайтесь на мой инстаграм @korona.group
== Типы генераторов ==
Генерация текста путём составления из полностью случайных слов даёт мусорный результат: бессмысленный для человека и легко распознаётся анализаторами текстов, и поэтому не применяется. Обычно применяется генерация по вручную написанным фразам-шаблонам.
 
В случаях когда не важен смысл генерируемого текста, он составляется из «мешанки» предложений из разных исходных текстов, или из частей предложений. Такой метод совместно с шаблонами и синонимизацией используется в [[чат-бот]]ах и ботах-комментаторах в соцсетях и блогах. Такие боты копируют собеседнику фразы, записанные с других чатов или сайтов. Более продвинутые чат-боты сортируют фразы по [[ключевые слова|ключевым словам]], поэтому их ответ более приближен к теме диалога.
 
=== Синонимайзеры и генерация фраз по шаблонам ===
Часто генераторы текстов совмещены с программами-синонимайзерами, которые автоматически меняют слова на [[синоним]]ы, в целях [[рерайт]]а и придания уникальности фразам. Слова, которые надо заменять в шаблоне на синонимы, заменяются [[макрос]]ами.
 
Чем длиннее текст, тем заметнее неестественность в автоподставленных синонимах. Поэтому в текстах «сделанных для людей» (''СДЛ'') синонимайзеры могут применяются только для создания уникальных коротких текстов: заголовков и [[анкор]]ов с [[ключевые слова|ключевыми словами]], комментариев и абзацев. Синонимайзеры более успешно применяются в английском языке, который, в отличие от русского языка, имеет простую [[морфология|морфологию]].
 
Виды синонимизации:
* Программа-переводчик. Иногда, для синонимизации советуют помещать тексты в программу-переводчик, переводить на иной язык, а затем обратно переводить на русский. Однако, результатом будет бредотекст, ибо переводчики тоже плохо поддерживают [[Склонение (лингвистика)|склонения]] слов и их правильный порядок в предложениях.
* Генерация по заданному шаблону. Популярен ''SEO anchor generator'', он имеет онлайн-версию с несколькими базами, которые, однако, нельзя редактировать.
* Генерация по шаблону с возможностью подключения базы синонимов. Самые известные генераторы: ''Generating the web, Article clone easy'', и генератор входящий в ''Allsubmitter'' (программа для раскрутки сайта ссылками).
* Синонимизация по базе синонимов. Известен синонимайзер ''SmartRewriter'', он позволяет редактировать базы, немного понимает морфологию. Есть синонимайзеры с функцией «разбавления» текста, например, путём добавления прилагательных. Один из таких — ''Ifritus'', расширяющий текст «описательными связями»<ref>Официальная страница [http://sbfactory.ru/?p=23 SmartRewriter]</ref>.
* Онлайн синонимизация сложных текстовых форм. Русскоязычный онлайн синонимайзер ''TextoRobot'' производит синонимизацию текстов не только путём подбора синонимов к отдельным словам, но и синонимов и аналогов к фразам, словосочетаниям и наборам слов, в том числе указанных через знаки препинания. Сервис основан на ручном словаре синонимов, что положительно влияет на читабельность текстов<ref>Онлайн синонимайзер [https://textorobot.ru textorobot.ru]</ref>.
* С учётом морфологии. Такие программы редки ввиду своей сложности. Бывают в виде программ, [[Библиотека (программирование)|библиотеки функций]], онлайн-сервиса, или онлайн-[[API]] для программистов. Например, ''Морфер'' способен склонять словосочетания, и ''phpMorphy, pyMorphy'' склоняют только отдельные слова.
 
=== «Мешанка» текста из разных источников ===
[[дорвей|Дорвеи]] быстро «вылетают» из [[поисковая выдача|поисковой выдачи]] из-за некачественности своих текстов. Поэтому дорвейщики стараются генерировать текст по минимуму. Случайно генерируются только небольшие фразы в разных элементах страницы, подходящие по смыслу. А абзацы текста [[парсер|парсятся]] целиком с других сайтов такой же тематики, и, возможно синонимизируются, или используется «мешанка».
* Обычно в генерируемом тексте используется «мешанка» предложений, взятых из различных текстов. Источниками могут быть сборки рассказов в несколько мегабайтов текста, или страницы сайтов схожей тематики. Но если источниками являются только 1-3 сайтов, простая онлайн-[[Выявление плагиата|проверка на плагиат]] это покажет. Вполне возможно, что такую проверку делают и поисковики, имея базу всех текстов когда-либо выложенных в интернет.
* Также предложения генерёнки могут составляться из частей предложений нескольких источников, разделяясь запятой. Проверка по ''Advego'' показывает, что уникальность такой мешанки выше на 30 % и более.
* Некоторые доргены (генераторы дорвеев) собирают текстовые фрагменты, [[парсинг|парся]] [[Сниппет#Сниппеты в поисковых системах|сниппет]]ы поисковой выдачи в интернет. Таковы доргены ''Seodor'' и ''SED''.
 
=== «Умные» генераторы ===
Ряд компаний развивает более сложную технологию. — Создаются [[Синтаксис|синтаксические структуры]] по [[Часть речи|частям речи]] и [[Член предложения|членам]] в предложениях, слова в словарях категоризируются по семантике, с дальнейшей автоподстановкой их в предложения. Однако, ввиду крайней сложности и объёма работ, авторских прав на эти разработки, и коммерческой тайны (подобные системы в принципе позволяют создать очень прибыльные коммерческие проекты), вряд ли стоит ожидать появления общающихся роботов и роботов-переводчиков в ближайшие годы.
 
== Применение ==