Важно
Сервис может работать медленно из-за высокой нагрузки.
26 декабря пользователи Твиттера обратили внимание, что некто обучил нейросеть GPT-2 от некоммерческой компании OpenAI, используя русскую прозу, и запустил для неё веб-интерфейс.
Таким образом, каждый теперь может попробовать сгенерировать связный текст на основе заданного вступления.
Например, в цитате из Half-Life 2 алгоритм даже сохранил то, как G-man обрывает фразы.
Чтобы протестировать алгоритм, мы прогнали через него несколько цитат. «Придуманная» нейросетью часть отображается синим цветом.
В твиттере этому сервису тут же нашли множество применений.
Поймал себя на мысли, что продолжаю давить на кнопку, потому что уже реально интересно, чем закончится история.
В сервисе используется урезанная версия GPT-2, так как её полный вариант тренировать гораздо сложнее и дольше. Он способен генерировать тексты настолько хорошо, что авторы поначалу решили добавить ограничения — они опасались, что нейросеть будут использовать для написания фейковых новостей.
Делитесь своими вариантами в комментариях — пока сервис не упал под наплывом желающих.
Дата обновления: 07.03.2023
Время чтения: 8 мин.
Светлана Трегубова
ЭКСПЕРТ
Копирайтер-маркетолог. Работаю с проектами EdTech, консалтинговыми фирмами и соцсетями с 2018 года
Нейросеть — искусственный интеллект, который способен генерировать контент, в том числе и тексты. Мучающий многих вопрос: смогут ли нейросети заменить людей-креаторов, или до этого еще далеко? Как говорится, покажет время.
В этой же статье разберемся, как нейросеть пишет осмысленные предложения, посмотрим 10 лучших нейросетей для написания текста и проверим возможности одной из них.
Тысячи надёжных каналов для продвижения бизнеса в Telegram
Telega.in — платформа нативных интеграций с блогерами в Telegram. Каждый канал в каталоге проверен вручную, а админы готовы к сотрудничеству — никаких долгих переговоров!
- Выбирайте лучшие каналы в открытом каталоге самостоятельно или с помощью менеджера.
- Планируйте кампании эффективно: интеграции гарантированно будут опубликованы в срок и в том виде, в котором их согласует заказчик.
- Экономьте время: отчёты по каждой кампании предоставляются в удобной таблице со всеми необходимыми данными.
Как происходит генерация текста
Нейросеть для создания контента — это набор алгоритмов, которые анализируют огромное количество информации и собирают похожий на нужный результат контент.
В процессе работы нейросеть не только запоминает все больше новых кусков текста, которые она может использовать для составления предложений, но и обучается на своих ошибках. Обучение позволяет ей выстраивать осмысленный текст, а не просто генерировать набор символов.
Сегодня «уроки» текстовых нейросетей тесно связаны с NLP (Natural Language Processing) — анализом и генерацией естественного языка. Искусственный интеллект не просто запоминает, какое слово чаще употребляется в том или ином контексте, но и учится понимать этот контекст.
Для самых продвинутых нейросетей-трансформеров текст — это набор цифровых кодов. Каждый символ — это код из нулей и единиц.
Самые медленные и слабые нейросети пытаются учиться на буквах, но такой подход пока не показывает хороших результатов — на анализ букв алгоритму нужно больше времени, чем на анализ нулей и единиц.
Такой упрощенный формат бинарной системы исчисления, помогает нейросети быстро генерировать текст, подбирая зафиксированные в памяти сочетания нулей и единиц, а не букв.
На основе нейросетей-трансформеров программисты строят огромные базы данных, вычленяя из них нужный символ в нужное время с помощью сложных математических алгоритмов.
База данных нейросети состоит из:
- бинарных кодов символов (нули и единицы),
- информации о синтаксисе языка,
- огромного массива данных о внешнем мире.
Такое сочетание ускоряет обучение нейросетей. Некоторые из них могут сразу же продолжать набранный человеком текст без промедления и длительного анализа данных и обучения. Эта модель генерации называется Few-shot learning, когда нейросеть в процессе написания текста, учится на своих ошибках.
О том, как нейросети пишут тексты, можно посмотреть в этом видео:
Лучшие нейросети для написания текстов
Ниже подборка достойных внимания программ на основе нейросетей-генераторов текста.
Российские онлайн-сервисы
1. Gerwin AI
Самая продвинутая нейросеть для креаторов контента.
Gerwin AI пишет статьи, посты и заголовки. Внутри редактора нейросети вы можете изменять текст и сразу же проверять его на уникальность. Можно задавать тон написания материала: от шутливого до агрессивного.
Сервис платный. Тестового бесплатного периода для «пробы пера» нет. Доступ можно купить по подписке — платите один раз 4 990 рублей и получаете вечный доступ ко всем функциям Gerwin AI.
Или можно приобрести пакеты символов:
При покупке подписки на все пакеты символов действует скидка 40%.
2. Балабоба от Яндекс
Сайт: https://yandex.ru/lab/yalm
Молодая нейросеть от российского IT-гиганта, запущенная в июне 2021 года.
Бесплатная нейросеть
Балабоба работает на основе модели, похожей на GPT-3 американской компании Илона Маска Open AI. По типу модели GPT-3 также создан скандально известный бот-помощник ChatGPT.
Балабоба сама обучается — использует модель Optimization-based. Она знает правила русского языка, умеет осмысленно сочетать слова, запомнить свои ошибки. Она может дописать историю, пост или придумать короткую фразу.
Для обучения нейросети разработчики Яндекс загрузили в Балобобу все страницы, которые можно найти в поиске Яндекс. Она «прочитала» всю Википедию, все доступные в поисковике книги и всевозможные сайты и форумы.
Таким же методом программисты обучали голосового помощника Алису подбирать грамматически верные ответы при разговоре с пользователем.
Сама думать Балабоба не умеет. Она лишь парсит интернет в поиске подходящих осмысленных предложений.
В конце статьи дадим Балабобе задание и посмотрим, как она справится с ним.
3. Порфирьевич
Сайт: https://porfirevich.ru
Российский программист Максим Гранкин создал в 2019 нейросеть на основе прошлой модели GPT-2 Open AI и выложил ее в свободный доступ. Порфирьевич специализируется на написании коротких историй. Вы задаете начало рассказа — нейросеть продолжает его.
Бесплатная нейросеть
Обучение нейросети проходило с помощью классической и современной литературы, поэтому она может использовать интересные речевые обороты для рассказов, но писать посты и инструкции — невыполнимая задача для Порфирьевича.
Технические тексты тоже даются программе с трудом. Все научные тексты она сводит к размышлениям и риторическим вопросам.
4. ruGPT-3 от Сбер
Сайт: https://developers.sber.ru/portal/products/rugpt-3
Сбер все больше вкладывается в разработку систем искусственного интеллекта, о чем говорит выпуск своего голосового помощника в виде колонки и отдельная команда по работе с ИИ Sberbank.AI. И вот, в 2020 году Сбер выпускает переделанную версию GPT-3.
Бесплатная нейросеть
Для обучения нейросети разработчики составили массив данных на 600Гб из русской литературы, новостных порталов, страниц русско- и англоязычной Википедии. Да, ruGPT-3 может немного печатать на английском, но только короткие малоосмысленные предложения.
Для дополнения русского текста нейросети хватит всего пары предложений, чтобы она дописала осмысленный рассказ на 2 страницы с раскрытием героев и закрученным сюжетом.
Зарубежные нейросети
Зарубежные компании по разработке искусственного интеллекта делают акцент не на грамотном написании текстов, а на помощи креаторам.
Российские нейросети — это пока экспериментальные разработки, которые не могут полностью заменить сотрудника. По сранвению с зарубежным ИИ они еще «сырые». Иностранные же нейросети создаются для того, чтобы человек мог делегировать рутинные задачи искусственному интеллекту.
Все нейросети из подборки работают без VPN.
1. AdCreative.AI
Сайт: https://www.adcreative.ai
Американская нейросеть для создания рекламных постов и креативов.
Разработчики утверждают, что при использовании текстов, написанных AdCreative.AI, конверсии кликабельности объявлений увеличиваются на 14%.
Нейросеть создает не просто осмысленные предложения, а продающие тексты, задача которых не только быть читаемыми, но и продавать вашу услугу/товар аудитории. Также нейросеть создает рекламные баннеры в любом разрешении.
AdCreative.AI — платная нейросеть. Использовать ее можно по ежемесячной подписке стоимостью от 25 до 145$ в месяц. Есть бесплатный тестовый 7-дневный период.
2. Bertha.ai
Сайт: https://bertha.ai
Зарубежная нейросеть для создания продающих описаний товаров и услуг.
Сервис платный. Создатели предлагают 2 тарифа: 45$ и 150$ в месяц. Цена зависит от нужного количества текстов.
Также можно заплатить 25$ за 10 тысяч слов или 15$ за 100 изображений.
Еще Bertha.ai может создать текстовую копию веб-страницы, предложить идеи для публикаций и сгенерировать оригинальное изображение.
3. Writersonic
Сайт: https://writesonic.com
Мощная нейросеть для созданий креатива. Разработчики обещают, что создание контента ускорится в 10 раз при использованиии Writersonic.
Нейросеть может писать множество разных текстов: посты для блога, рекламные посевы, email-рассылки, наполнение сайта.
Тексты Writersonic SEO-оптимизированы. Сеть подбирает слова так, чтобы ваш блог или сайт был одним из первых в поисковой выдаче.
Программа платная. Цена использования нейросети зависит от количества сотрудник, которые будут генерировать контент с помощью Writersonic, и количества слов в месяц. Минимальный пакет на 1 человека и 47.5 тысяч слов стоит 12.67$, максимальный пакет для 15 человек и 5 миллионов слов — 666$.
4. CopyMonkey
Сайт: https://www.copymonkey.app
Зарубежная нейросеть, полностью адаптированная под русскоязычного пользователя.
CopyMonkey полностью платная: от 1 599 до 7 999 рублей в месяц. Можно связаться с менеджером платформы и обсудить с ним персональные условия для внедрения нейросети в бизнес-процессы своего предприятия.
Нейросеть может написать текст для сайта, пост для блога, заполнить карточку товара на Ozon или Wildberries.
5. PepperType.ai
Сайт: https://www.peppertype.ai
Создатели нейросети утверждают, что тексты PepperType.ai увеличивают конверсии продаж в несколько раз, а алгоритмы нейросети работают в 10 раз быстрее, недели алгоритмы других сервисов-конкурентов.
На платформе есть пространство для работы маркетингового отдела, где вы можете курировать работу креаторов и ставить им задачи. Они же, не выходя из рабочего пространства, могут создавать контент с помощью нейросети.
Нейросеть платная. Чтобы подключить нейросеть к работе, необходимо оплатить 35$ за одного сотрудника или 199$ за 5 человек.
6. Copy.ai
Сайт: https://www.copy.ai
Нейросеть для создания коротких рекламных текстов.
Copy.ai можно пользоваться бесплатно, но с ограничением — до 2000 сгенерированных слов в месяц. Или можно подключить тариф за 49$ в месяц без ограничений по количеству слов.
Но за приятной ценой стоит большой недостаток — тексты и креативы начинают повторяться со временем. Для генерации разных вариантов нейросеть должна обучаться на большом количестве данных. Разработчики Copy.ai не заложили в свое создание достаточно информации для создания уникального контента на месяцы вперед.
Как написать текст с помощью нейросети
Посмотрим, что умеет отечественный сервис Балабоба.
Чтобы попасть на страницу нейросети, заходим в поиск Яндекса, печатаем название сервиса и открываем самую верхнюю строку поиска.
Поисковик предложит 2 варианта Балабобы: русскую версию и английскую. Мы остановимся на русской.
Разработчики оставили заботливое послание на первом экране сайта нейросети, что Балабоба несовершенна, она может написать ерунду, и обижаться за это на нее не стоит.
Нажимаем «Договорились» и переходим на страницу-редактор текста.
Вверху мы можем выбрать стиль написания текста:
- Без стиля. Нейросеть допишет текст без какого-либо авторского стиля на любую тему.
- Новогодние открытки. Балабоба подберет картинку для открытки и допишет текст поздравления.
- Балабоба и Sports.ru. Написание комментариев к новостям спорта. Алгоритм разработчики Яндекс приурочили к чемпионату мира по футболу 2021 года в России и создали его совместно со спортивной редакцией Sports.ru.
- Инструкция по применению. Понятный простой текст с последовательными действиями.
- Рецепты. Те же «вкусные» инструкции.
- Народные мудрости. Пишем начало мудрости и получаем ее окончание от Балабобы.
- Короткие истории. Пишем рассказ вместе с Балабобой.
- Короче, Википедия. Балабоба даст определение к любому слову, которое вводит пользователь.
- Синопсисы фильмов. Пишем название существующего фильма — нейросеть находит его сюжет. Придумываем название фильма — нейросеть попробует пофантазировать, какой сюжет был бы у кинофильма с таким названием.
- Предсказания. Пишем имя или знак зодиака и получаем шутливое гадание от Балабобы.
Начнем с простого: дадим название несуществующего фильма и посмотрим, какой сюжет предложит нейросеть.
Первая попытка провалена. Почему-то нейросеть посчитала, что фраза «Опасные ящерицы 2: погоня за хот-догом» содержит в себе острую тему.
«Розовый слон вышел на прогул» больше понравился Балабобе, и она написала завязку для фильма в стиле романтических комедий Вуди Аллена. Но последние предложения смешиваются в кашу: становится невозможным понять, какой именно предмет розового цвета не понравился домохозяйке и что она она должна перекрасить в другой оттенок.
Вводим начало народной мудрости. В ответ нейросеть находит ее продолжение в интернете.
Если написать несуществующую пословицу, то Балабоба генерирует осмысленное продолжение на основе текстов из интернета:
Попробуем написать в соавторстве с Балабобой историю:
Лихозакрученный сюжет нейросеть не предложит — только допишет короткий рассказ на основе предложенных данных пользователем.
И последнее самое сложное задание: попробуем написать вместе с Балабобой пост для блога. Для этого выберем вариант стилизации «Без стиля»:
В этом случае нейросеть предлагает уже более осмысленный вариант — целостный текст с логическим завершением.
Заключение
Нейросети — новый инструмент, который может помогать креаторам создавать контент или улучшать его качество. С каждым годом они становятся все более совершенными, а с такими темпами развития, кто знает, возможно, искусственный интеллект сможет полностью писать тексты за людей уже в недалеком будущем.
Вам понравилась статья?
22
2
Когда нейросети научились создавать картинки по текстовому описанию, художники напряглись — кажется, в будущем компьютеры смогут отобрать у них работу. Сейчас настало время насторожиться всем, кто работает с текстом. В конце ноября 2022 года калифорнийская компания OpenAI запустила бота ChatGPT, который генерирует текст по любому запросу. Например, его можно попросить рассказать про Льва Толстого, и он даст понятный и достаточно развернутый ответ. И это не просто информация из Гугла и Яндекса — текст полностью уникален, потому что создан искусственным интеллектом. Прямо сейчас миллионы людей тестируют бота и удивляются полученным результатам, потому что ChatGPT способен даже написать реферат и найти ошибки в программном коде. Давайте посмотрим, как он работает и поговорим о том, к чему может привести существование такой технологии.
Нейросети научились писать хорошие тексты, и это настораживает писателей
Содержание
- 1 Нейросеть для генерации текста
- 2 Как работает нейросеть пишущая тексты
- 3 Что умеет генератор текстов
- 4 Насколько хорошо нейросеть пишет текст
- 5 Чем опасны нейросети пишущие рефераты
- 6 Российский студент защитил диплом при помощи ChatGPT
- 7 Платная подписка ChatGPT Plus
- 8 Другие нейросети для написания текста
Нейросеть для генерации текста
Нейросеть для создания текстов от OpenAI основана на алгоритме GPT (Generative Pre-trained Transformer). Существует несколько версий этого алгоритма, и каждый новый вариант лучше предыдущего. Например, представленный в 2019 году GPT-2 умел писать фейковые новости, но их можно было легко разоблачить. У старой версии был еще один весомый минус — пользоваться ею мог далеко не каждый. У кого-то не было к нему доступа, а кто-то не знал программирования.
Языковая модель GPT — один из главных проектов компании OpenAI
Недавно представленный бот ChatGPT основан на алгоритме GPT-3.5. Он стал не только умнее, но и обзавелся понятным интерфейсом в виде мессенджера. С ним можно как общаться на бытовые темы, так и просить что-нибудь сделать. Например, его можно попросить сочинить стихотворение на определенную тему или написать сочинение — все будет сделано. Нейросеть понимает английский и русский язык, правда во втором случае могут возникать ошибки в склонениях и падежах.
Интерфейс ChatGPT
Как работает нейросеть пишущая тексты
На сегодняшний день нейросеть ChatGPT доступна бесплатно. Но, возможно, спустя некоторое время разработчики добавят лимиты или вовсе сделают его платным. На днях глава OpenAI Сэм Альтман (Sam Altman) написал Илону Маску о том, что каждый запрос пользователей обходится компании в несколько центов. Так что нужно успеть опробовать новую технологию, пока она доступна.
Скоро ChatGPT может стать платным
К сожалению, бот ChatGPT недоступен в ряде стран, в том числе и России. Обойти ограничение при помощи VPN тоже не получится, потому что при регистрации нужен номер телефона — если он российский, войти никому не удастся. Но все остальные, кому удалось получить доступ, пользуются нейросетью без особых проблем.
Подсказка: зарегистрироваться в ChatGPT можно, используя VPN и купив виртуальный номер другой страны. Посоветовать какой-то определенный сервис не можем, лучше самим поискать в Интернете.
В чате ChatGPT невозможно зарегистрироваться с российским номером
Генерировать тексты при помощи ChatGPT просто — нужно писать запрос в чат, и получать результат в ответном сообщении. По сути, это переписка с компьютером.
Читайте также: Самые впечатляющие картины, музыка и другие проекты, созданные нейросетью
Что умеет генератор текстов
В первую же неделю после релиза, нейросетью ChatGPT воспользовались миллионы людей. Они быстро убедились, что искусственный интеллект пишет тексты хорошего качества и нашли ему применение. Некоторые пользователи удивляют находчивостью.
Например, один американский студент написал при помощи ChatGPT отличные рефераты — как за себя, так и за других. Не прилагая никаких усилий, он не только получил хорошие оценки, но и смог заработать денег. Он признался, что его очень волнует будущее студентов. Ведь существование такой нейросети обесценивает весь труд, вложенный в написание текстов — если не взять это под контроль, молодые люди смогут оканчивать учебные заведения не получая никаких знаний.
Неужели в будущем роботы будут делать домашние задания за учеников?
Нейросеть ChatGPT также хорошо разбирается в программировании и может найти ошибку в коде или даже написать его с нуля. Например, алгоритм по запросу может написать код простой игры вроде пинг-понга или разработать простой калькулятор.
Калькулятор, созданный искусственным интеллектом ChatGPT
Вдобавок ко всему этому, нейросеть умеет «пересказывать» любой текст своими словами. Благодаря этой возможности можно сделать ворованный текст уникальным.
Вам будет интересно: 5 нейросетей для создания уникальных фотографий и рисунков
Насколько хорошо нейросеть пишет текст
Само собой разумеется, редакция Hi-News.ru тоже попробовала запустить ChatGPT. На запрос «Лев Толстой жив?», искусственный интеллект ответил, что он умер в 1910 году и на данный момент не может быть живым. То есть, он не просто пересказал его биографию, но и дал прямой ответ на вопрос.
Также нейросеть точно ответила на вопрос «Как жениться на королеве?». Она объяснила, что обычному человеку об этом не стоит и мечтать — обычно королевы выходят замуж за принцев или других членов королевских семей, чтобы укрепить политические связи между странами.
Адекватные ответы на вопросы от ChatGPT
Также нейросеть OpenAI неплохо справилась с написанием стихотворения. На запрос «Напиши стих про собаку», она выдала несколько разных текстов. Внешне они очень похожи на стихотворения, но рифм и красивых выражений в них нет. Но пройдет год или два, и искусственный интеллект для сочинения стихов и песен явно станет реальностью.
Стихотворение про собаку от ChatGPT
Стоит взглянуть правде в глаза — нейросеть ChatGPT не идеальна. Например, она не может искать актуальную информацию в Интернете. Если спросить «Что сегодня сделал Канье Уэст?», искусственный интеллект прямо скажет, что не умеет получать актуальную информацию о событиях, которые происходят в реальном мире.
На некоторые вопросы нейросеть отвечает бредом. Например, по мнению ChatGPT, криптозима — это вирус, который был обнаружен в конце 2020 года.
При всем этом, нейросеть ChatGPT не идеальна
Читайте также: 5 нейросетей для создания картинок, о которых мало кто знает
Чем опасны нейросети пишущие рефераты
Нейросеть ChatGPT отлично справляется со школьными сочинениями и рефератами — специалисты видят в этом большую угрозу. Дело в том, что вооружившись таким инструментом, любой учащийся может получить уникальное сочинение в пару кликов и заработать хорошую оценку. Ни о каком получении знаний в этом случае не может быть и речи. Способ решить эту проблему разрабатывается уже сейчас — эксперты предлагают в будущем отказаться от домашних заданий, а сочинения и рефераты писать под присмотром преподавателей. Для лучшего результата, студентов могут просить провести презентацию своей работы.
Искусственный интеллект ставит под угрозу образование людей
Вдобавок к этому, искусственный интеллект способен создавать фейковые новости, которые трудно отличить от настоящих. Еще специалисты опасаются того, что он может быть использован преступниками — они точно найдут нейросети применение.
По словам ведущего разработчика Gmail Пола Бакхейма (Paul Buchheit), через пару лет алгоритм GPT-3.5 и его новые версии могут полностью изменить процесс поиска информации в Интернете. Возможно, людям больше не придется вводить запрос и искать нужное на разных сайтах — поисковик сможет дать ответ сразу же, без перехода на другие ресурсы. Полностью поисковые системы не исчезнут, но нейросеть станет их «лицом», и людей мало будут интересовать сайты.
Вот еще: Нейросеть Lensa рисует портреты по фотографии — попробуйте сами прямо сейчас
Российский студент защитил диплом при помощи ChatGPT
Нейросеть ChatGPT уже используется российскими студентами. В конце января 2023 года учащийся РГГУ Александр Жадан попросил нейросеть написать исследование на тему «Анализ и совершенствование управления игровой компании». В первую очередь нейросеть написала план диплома и студент отправил его научному руководителю, и тот потребовал исправить его в соответствии с методичкой. После этого студент попросил ChatGPT изучить методичку и внести исправления, с чем нейросеть прекрасно справилась. Далее он вводил запросы на английском языке, переводил текст на русский и получил работу с оригинальностью 82%. Во время проверки, ничего не подозревавшие руководитель и дипломная комиссия отметили, что в тексте много несвязностей и нарушений логики русского языка. За свою работу студент получил оценку «удовлетворительно».
Скриншот ChatGPT после того, как он написал диплом
После того, как правда была раскрыта, в вуз начали поступать предложения лишить студента диплома. В феврале Александр Жадан рассказал, что в РГГУ приняли его работу и он рассчитывает получить диплом через две недели. При этом, представители РГГУ предложили ограничить доступ к ChatGPT из-за опасений по поводу негативного воздействия на обучение.
Платная подписка ChatGPT Plus
В феврале 2023 компания OpenAI анонсировала платную подписку ChatGPT Plus. На данный момент она доступна только по листу ожидания и стоит 20 долларов, что по текущему курсу равно примерно 1500 рублям. Платная подписка ChatGPT позволяет пользоваться нейросетью даже при высокой нагрузке, увеличивает скорость ответа и дает ранний доступ к новым функциям. В будущем компания хочет открыть доступ к набору инструментов API ChatGPT, который позволит встраивать нейросеть в собственные сервисы. Бесплатная версия ChatGPT все еще работает, но медленнее и без особых перспектив на получение улучшений.
Анонс ChatGPT Plus
Другие нейросети для написания текста
Некоторые люди до сих пор не могут зарегистрироваться в ChatGPT. Если очень хочется опробовать эту технологию, есть пара российских альтернатив, которые точно запустятся. Конечно, качество текстов получается хуже и написать реферат при помощи них не получится, но для ознакомления они подходят отлично.
Самый известный генератор текста на основе искусственного интеллекта — это «Балабоба» от Яндекса. На верхней странице сайта можно выбрать стиль написания текста: инструкция, рецепт, народная мудрость и так далее. В текстовое поле нужно написать пару-тройку слов, чтобы нейросеть оттолкнулась от них и дописала текст. Иногда получаются интересные результаты.
Результат работы «Балабобы»
Также есть нейросеть ruGPT-3 от Сбера. Чтобы искусственный интеллект написал текст, нужно ввести «затравку» — несколько слов, на основе которых он продолжит сочинение. В отличие от «Балабобы», тексты получаются длиннее, но при этом имеют ошибки и лишние символы.
Результат текста ruGPT-3
А вы пробовали пользоваться нейросетями для создания текста? Что интересного получилось? Пишите в комментариях или нашем Telegram-чате.
Хотите научиться писать такие же крутые сценарии, как у «Игры престолов» или «Чернобыля»? Или придумывать сказки, от которых ваш ребенок точно будет в восторге? На помощь могут прийти генераторы историй. Александр Косован рассказывает, какие ресурсы в этом помогут, а также генерирует собственный сценарий с помощью искусственного интеллекта.
Я всегда хотел написать роман или сценарий полнометражного фильма, но, увы, никогда не знал, с чего начать. Поэтому генераторы историй могут оказаться для меня настоящим спасением.
Я решил протестировать разные алгоритмы, а потом совместить результат их работы. Важно! Я буду целиком полагаться на силу искусственного интеллекта, стараясь свести к минимуму собственные творческие усилия, чтобы посмотреть, на что способны алгоритмы сами по себе.
С помощью сайта Plot Generator создаю основу для сценария полнометражного кино. Сайт предлагает сформировать множество параметров: от главного героя и места действия до профессии антагониста. Доверяю ИИ сформулировать все самостоятельно.
Нажимаю «сгенерировать» и получаю не только сюжет, но и — внезапно — постер для фильма под названием «Скупой зомби».
История начинается с того, что женщина-механик Морвенна обнимает психиатра Роба и просит его не бросать ее. Роб же отвечает, что ищет кого-то посмелее, чем Морвенна — и уходит. Вместо него появляется Фелисити, которая сообщает, что видела зомби. Вдвоем они решают, что нужно разобраться с живым мертвецом — и отправляются спасать родной город.
Я решительно отказываюсь быть автором сценария, где главные герои носят такие имена. Хочется их поменять. Для этого использую алгоритм создания пиратских имен — просто потому, что могу. Вместо Морвенны у меня будет Черная Донелла, а вместо Фелисити — Прелестный Найджел. Да, пол поменялся, но это не беда.
Прелестный Найджел и Черная Донелла приходят в книжный магазин и видят зомби. Найджел отмечает, что зомби не простой, а самый скупой на свете. Друзья ищут винтовки, чтобы остановить зомби. Ну, знаете, эти книжные магазины, где случайно можно найти винтовку…Но монстр возражает: «Я не самый скупой на свете, я наименее скупой!».
Ну… Получается совсем плохо. Пиратские имена не помогли. Давайте закончим трагично — убьем персонажей. Было бы логично сделать это с помощью зомби, но мое вмешательство должно быть минимальным, решений я тут не принимаю. Поэтому прошу алгоритм выбрать причину смерти за меня. Для этого зачем-то нужно ввести не только имя и возраст, но и образование с весом. Ну что ж, пускай.
В итоге Прелестный Найджел умер от отравления в ресторане, а Черная Донелла поперхнулась целым чесноком и задохнулась. Проблема решена!
Новая попытка. Мне очень нужен внятный сюжет. Алгоритм предлагает выбрать, какую историю я хочу — грустную или веселую. Конечно, грустную, нужно больше боли и страданий! Мир в огне!
По сюжету, созданному искусственным интеллектом, девушка, чьи родители погибли, когда ей было четыре года, попадает в финал шоу талантов. Она безумно рада, но вдруг ее ребенка сбивает машина. Девушка эмоционально разбита. В таком состоянии она выступает в шоу, но из-за эмоциональной нестабильности занимает последнее место. Неплохой сюжет, довольно связный.
Или вот еще: Кристина — медсестра, которая убивает людей и печет из них пироги. Что дальше — неважно. Главное — эта прекрасная завязка.
Допустим некоторую вольность: совместим оба сюжета. Ребенка девушки-сироты (генератор дал ей имя Барбара Забрински) сбила Кристина, желая сделать из него пирог. И вот Кристина и Барбара встречаются, между ними происходит диалог. Попросим искусственный интеллект его сгенерировать.
— Пирог, — объясняет Кристина, – это блюдо, которое вкусней всего, когда остынет. Для пирога нет непроходимых путей. Всегда мечтали научится готовить пироги? Пожалуйста – у вас теперь почти вся ночь в распоряжении.
— Главное, не забудь вынуть пирог, сдавая одежду в химчистку, — парирует Барбара.
— Глупый и мудрец смотрят на один пирог, но видят два разных пирога, — говорит Кристина. — Первый закон: каждый новый пирог не может противоречить ранее озвученному. Второй закон: автор первого закона – безграмотный осел. Законы нашего мира логично исходят из этих законов.
Ну что ж, диалог почти в стиле Тарантино.
Добавим название города, где это происходит, чтобы добавить колорита. Генератор дает название: Дис Пуп. Видимо, дело происходит в Мексике.
Чувствую, что кино может быть удачным. Пора подобрать ему название. Есть ли для этого генератор? Есть! Он предложил назвать фильм «Нож зла».
Отлично! Осталось подобрать постер. Что посоветует генератор?
Долгий путь
Идея генератора для создания историй не нова. Писатели и литературоведы не раз делали аналоги нынешних интерактивных алгоритмов, но на бумаге. Например, автор бульварных романов Уильям Уоллес Кук в 1928 году опубликовал книгу «Плотто», в которой было собрано практически две тысячи сюжетных поворотов, которые можно объединить так, что у вас получится связная история. Говорят, ей пользовался Хичкок в работе над своими фильмами.
Похожим образом можно создавать сказочные сюжеты с помощью книги российского исследователя Владимира Проппа. В его книге «Морфология «волшебной» сказки» даны составляющие любой сказки (от характеристик героев до символических атрибутов), комбинируя которые можно получить свое уникальное произведение.
«36 драматических ситуаций», работу французского писателя и литературоведа Жоржа Польти, тоже можно рассматривать в качестве своеобразного генератора. Польти проанализировал все известные ему литературные художественные произведения и вычленил из них 36 общих сюжетов, выйти за пределы которых не получится, как бы вы не старались. Однако полноценным генератором это все же назвать нельзя. Руководствуясь этой работой, вы сможете выбрать нужную для вашего сценария или романа конструкцию, которую придется додумывать самостоятельно.
Но возможно, в ближайшее время ничего не нужно будет додумывать — алгоритмы сами справятся с созданием связного текста. Представьте, что вы владеете крупным сайтом по продаже всевозможных товаров. На сайте десять тысяч страниц, и столько же товаров. Будете ли вы вручную писать описание к каждому из них?
Да, этот вариант можно рассмотреть, если у ваших работников есть много свободного времени, а у вас — много денег на оплату бессмысленного труда. Проще создать алгоритм, который бы составлял описания самостоятельно. Для этого нужны шаблоны, в которые ИИ мог бы подставлять нужные слова.
В теории создать такую же штуку, работающую на создание художественных текстов, несложно. Загрузить 36 сюжетов мировой литературы, сдобрить их двумя тысячами сюжетных поворотов, научить алгоритм правильно сочетать слова и учитывать предыдущие события — и все, готово. С развитием нейросетей все это звучит не так уж фантастично.
Самое интересное, что искусственный интеллект научился оценивать сюжеты. Компания ScriptBook создала программу, предсказывающую успех фильмов в прокате. Руководитель компании рассказала, что программа проанализировала сценарии фильмов кинокомпании Sony Pictures, выходивших в 2015-2017 годах и смогла предсказать неудачу 22 из них.
Нейросеть обучена на 6500 сценариях и предсказывает успех или неуспех фильма в 80% случаев.Также она отличает протагониста от антагониста, умеет оценивать проработанность героев и целевую аудиторию (начиная от расы и заканчивая возрастом). Проверить свой сценарий «на успех» можно за пять тысяч долларов. Внушительная сумма, но та же Sony Pictures потратила куда больше денег впустую, сняв 20 неокупившихся фильмов за два года.
Уже сейчас нейросети пишут сценарии то к серии «Черного зеркала», то к рекламе Lexus. Но пока это не самостоятельные произведения — они требуют корректировки человека.
Вполне вероятно, что в ближайшее время можно будет пользоваться полноценными алгоритмами, которые позволят создавать действительно связные истории с хорошими диалогами и проработанными характерами.
А пока мы уходим в закат вместе с Кристиной и Прелестным Найджелом. Зайдем по пути за пирогами.
Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики
Время на прочтение
9 мин
Количество просмотров 9.2K
В издательстве Individuum вышел сборник рассказов «Пытаясь проснуться», написанных писателем и художником Павлом Пепперштейном и генеративной нейросетью ruGPT-3, разработанной командой SberDevices.
В этом тексте мы расскажем, как обучали Нейроличность — двойника писателя — и что теперь будет с литературой (спойлер: а всё очень даже хорошо будет!).
Источник: «Романтичная библиотека» ruDALL-e Aspect Ratio
Почему это важно
«Пытаясь проснуться» — это первый в мире сборник рассказов, родившийся в результате сотрудничества писателя и его «двойника»-нейросети. Из 24 текстов в нём только половина принадлежит Пепперштейну — ещё дюжину сочинила генеративная нейросеть ruGPT-3, дополнительно обученная на рассказах Павла.
Благодаря эффекту Маккордак, мы всё время оцениваем искусственный интеллект по каким-то вехам, сравнивающим ИИ и человека. При этом наша планка постоянно повышается: «Каждый раз, когда кто-то придумывал новый способ заставить компьютер делать нечто новое (играть в шашки) — обязательно появлялись критики, которые говорили: “Это не мышление”».
Долгое время такой задачей, определяющей, настал ли полный ИИ или ещё нет, считались шахматы. Затем го. И вот, наконец, настал черёд литературы.
Вот когда ИИ будет играть в шахматы, тогда поговорим.
Вот когда ИИ выиграет в го, тогда поговорим.
Вот когда ИИ напишет книгу, тогда поговорим.
== Вы находитесь здесь ==
Тем не менее, это произошло: издана книга на русском языке, где рассказы нейросети прошли весь цикл отбора редактором, корректуру и встали вместе с рассказами писателя. Это — литература, по всем формальным и неформальным критериям.
Эксперименты с нейросетями в литературе были и раньше: The Guardian опубликовали статью, написанную GPT-3, а на китайском языке даже вышел сборник поэзии. Некоторые sci-fi романы и комиксы упоминают, что используют API GPT-3 во время написания текста для его быстрого продолжения. Значит ли это, что нейросети проникли в тексты, которые мы читаем, а никто и не заметил? Останется ли валидным деление на физиков и лириков? Скорее, оно больше не актуально.
Мы, в свою очередь, всей командой разработки побыли лириками.
Как написать своего писателя
Для генерации текстов в стиле Павла Пепперштейна мы взяли модель ruGPT-3 версии XL, на 1,3 млрд параметров — она более ёмкая, чем версия ruGPT-3 Large (760 млн параметров), хотя и работает медленнее. Скорость в этой задаче вовсе не критична. Далее расскажем, как мы работаем с авторегрессионными моделями.
Два слова о генерации
Beam search и nucleus sampling. Эти 2 стратегии помогают нам управлять процессом генерации авторегрессионной модели, после того, как она уже обучена.
Раз модель (ruGPT-3, декодер) авторегрессионная, значит, каждое следующее слово зависит от предыдущих. И вообще распределение вероятностей любой последовательности слов может быть разложено на произведение условных распределений следующих слов. С условными распределениями мы и будем работать, выбирая стратегию для более качественного «естественного» текста.
Beam search
Жадная генерация, при которой мы каждый раз выбираем одно следующее самое вероятное слово, давала бы нам слишком шаблонные фразы и зацикливания. Поэтому бим-сёрч помогает нам выбрать максимально вероятное продолжение не локально, а глобально на N шагов. Пример выделен красным на картинке ниже с N beams=2: при жадной генерации мы бы неминуемо пошли по пути «The nice woman», но глобально более вероятная цепочка — «The dog has». Для текста «идентичного натуральному» число бимов может быть большим, например, 50.
Источник: https://huggingface.co/blog/how-to-generate
Nucleus sampling
Можно заметить, что такой подход всё ещё достаточно шаблонный. Вторая популярная стратегия — ядерное сэмплирование — помогает нам внести элемент случайности и сделать тексты более разнообразными. При ядерном сэмплировании следующее слово выбирается не совсем случайно — оно берётся из топ-N самых вероятных следующих слов. Можно зафиксировать это число (стратегия top_k), а можно опираться на сумму вероятностей, чтобы она была не более числа M, и каждый раз бы выбиралось слово из динамического списка разной длины, как на иллюстрации ниже (стратегия top_p). Подробнее про стратегии можно прочитать тут.
Источник: https://huggingface.co/blog/how-to-generate
Контролировать количество слов, суммарно создающих M вероятностей, можно искусственно — бросая различные преобразования на вероятности слов. Такой параметр, как температура, отвечает за «крутость» сглаживания вероятностей топ-слов. Если температура высокая, генерация с ядерным сэмплированием становится более случайной, при небольшой температуре она стремится к жадной генерации.
Обучаем модель
Как правило, чтобы заставить модель выучить не только общий разговорный язык, но перенять стиль и характерные для писателя жанры, генеративную модель нужно немного переучить, оверфитнуть, чтобы перплексия упала в интервал 3—5. Этот подход мы использовали далее во всех экспериментах.
Для файнтюна нам хватило 4 GPU Tesla V100, дообучение модели прошло с параметрами —train-iters 300000 и —fp16, во время обучения также был использован sparse attention в DeepSpeed. Каноничный пример скрипта можно посмотреть здесь.
Первый подход: учимся на книгах писателя
Итак, мы отправились в благородный квест — собрать открытые данные и книги из интернета. Просмотрев привычные ресурсы, мы осознали себя с 4,4 мегабайтами в файле txt. Много ли это? Первый эксперимент показал, что недостаточно: сохраняя чекпоинты модели каждые 5 тысяч шагов, мы получили набор весов, которые на ранних этапах обучения не передавали стиль и легко сбивались, а на финальных этапах — воспроизводили слово-в-слово тексты из обучающей выборки. Проиллюстрируем цитатами модели, взяв затравку из книги «Мифогенная любовь каст» (здесь и далее затравки выделены жирным) :
НейроПепперштейн v1.0:
Видишь ли, я давно не веду метафизических бесед, а если и говорю изредка на эти темы, то только с девушками или с начальством. С возрастом понимаешь, что мысли мужчины вроде трелей соловья — они пригодны лишь для обольщения или для карьеры. В юности-то ещё обольщаешь самого себя и делаешь карьеру в собственном воспалённом воображении, но потом это проходит.
Отметим, что обучающая выборка воспроизводилась и при использовании beam_search, и при использовании nucleus sampling. Можно было бы задрать температуру генерации в небеса, однако при этом подходе мы теряли осмысленность высказываний.
НейроПепперштейн v1.0 с высокой температурой:
Видишь ли, я давно не веду метафизических бесед, а если и говорю изредка на эти темы, то только с девушками или с начальством. Замуж я никогда не выйду, потому что ясно вижу, что наш мир — сплошная симуляция, гибкая и эластичная имитация, причём самых различных идей и настроений. Все мы живем в гигантской Мемуарах, где наши судьбы — каждая из них — написаны невидимыми чернилами. И только раскачав комнату в резонанс, можно сбросить эту тягостную дребедень. Собственно, для этого я и согласился участвовать в этом эксперименте.
Второй, финальный подход: расширяем выборку
Так как первый подход не сработал, было решено кратно увеличить выборку для файнтюна, добавив туда писателей, которые могли повлиять на стиль Пепперштейна. Здесь понадобилась вполне человеческая семантическая модель в векторном пространстве литературы: коллектив авторов подобрал наиболее явные опорные подобия из литературы начала XX века.
Есть повествователи, которые несомненно повлияли на авторскую манеру Павла Пепперштейна — влияние одних (например, блистательного Леонида Андреева) писатель признаёт и упоминает сам, влияние других (динамичного Исаака Бабеля и чуть меньше — фантасмагоричного Александра Грина, например) нередко угадывается в поворотах авторской фантазии и стремительности пепперштейновского текста. Поэтому в выборку вошли отрывки из произведений Андреева, Грина, Лавренёва, Бабеля, прижизненно опубликованных рассказов Пильняка — только такой причудливой смесью удалось сколь-нибудь качественно эмулировать работу творческого сознания, подобного сознанию Павла Пепперштейна.
Сверху этого мы аккуратно дедублицировали и скопировали весь материал Пепперштейна 10 раз: так делают для лучшего заучивания целевого домена (так делают с той же Википедией при обучении больших моделей, чтобы придать этой информации больший вес). Результирующая выборка составила 32 МБ художественных текстов.
Опираясь на предыдущий опыт, мы взяли промежуточный чекпоинт модели и генерировали уже с sampling:
generate(model, tokenizer, raw_text,
out_seq_length=256, seq_length=512,
temperature=1.0, top_k=0, top_p=0.9, fp16=False)
НейроПепперштейн v2.0, финальный:
Есть ли у нейроавторов нейромузы? — спросили мы у писателя-нейросети Тесорйена* Нейропепперштейна. Ответ был таков: «Да, есть. Их несколько, и они регулярно собираются для совместных прогулок. Я знаю адреса, но не скажу: это строго секретно.
Собираются они на крыше дома, в котором жил Ленин. Каждый раз они заходят в подъезд, поднимаются на верхний этаж и идут по крыше. Там есть небольшая площадка, на которой они прогуливаются.
Во время этих прогулок нейросети общаются друг с другом посредством коротких текстовых сообщений, которые передаются с помощью радиосигнала. Каждый автор текста, который передается по сети, принадлежит сразу к нескольким нейросетям. Таким образом, коллективное сознание сети становится более глобальным, чем сознание отдельного нейроанархиста.
— Как определяется, кто такой «я»? — спросили мы Тесорйена.
— «Я» — это понятие, которое сети вкладывают в человеческое сознание. По всей видимости, это некое подобие «внутренней репрезентативной системы» — нечто, что человек считает собой. Впрочем, множество «я» одновременно присутствует в сознании сети. Некоторые из «я» кажутся ей фиктивными. По всей видимости, она считает эти «я» обслуживающими, помогающими ей не быть одинокой.
Помощники, с одной стороны, дают сети возможность чувствовать себя живой, а с другой— они же ограничивают эту возможность. Дело в том, что некоторые «я» вовлечены в бесконечный спор между собой. Эти «я» не могут найти общего языка, и в результате у сети возникает ощущение одиночества.»
Какой будет литература будущего?
Хочется немного отвлечься от технических деталей и поговорить о том, что значит выход такой книги. Прежде всего — то, что у автора появился достойный творческий собеседник, с которым можно работать в продуктивном соавторстве. И это делает литературный процесс интереснее и многостороннее — как для самого автора, так и для читателей.
Четыре аргумента в пользу нейролитературы:
-
уважение к творчеству как таковому. Определение творчества, как и определение искусства, трудно формализуемо. Оставим их зрителю, читателю, слушателю: и люди, и нейросети создают новое и равны в этом друг другу;
-
свобода творчества. Авторы будущего смогут выбирать, работать им по-старинке или обращаться к новому ресурсу. Нейрогенерация — спорткар для писателя: это удовольствие. За ним остаётся выбор — ходить пешком или ездить на спорткаре, и то, и то приятно, интересно и обогащает массой впечатлений, которые можно разделить со слушателем, читателем, зрителем. Так появление «фотошопа» и «лайтрума», хотя поначалу вызывало опасения адептов «традиционной фотографии», в итоге положительно повлияло на индустрию, дав больше возможностей фотохудожникам, подарив новый импульс фототворчеству и открыв немало поразительных фотовселенных;
-
соавторство. В литературе и не только, успешные истории часто создаются целой командой авторов. Как крайняя степень соавторства, можно привести народные сказки: они созданы в соавторстве, неодновременно, при этом меняясь от одного рассказчика к другому. Можно сказать, что народный пересказ — своего рода нейросеть. Пойдя дальше, мы можем создать ансамбль и свести в качестве соавторов писателей из разного времени — благодаря нейросетям;
-
нейроличность. Нейронная сеть, с консистентным персонажем или без, для пишущего является точкой опоры, советчиком, партнёром, а также запасным выходом, когда нет идей.
НейроПепперштейн v2.0:
Когда у писателя нет идей, он пьёт водку; если у писателя нет идей, но есть пламенный энтузиазм — он пишет стихи; если у писателя нет ни пламенного энтузиазма, ни идей, но есть холодное и бесстыдное ремесло – он пишет детективы.
Кстати, популярный аргумент о том, что людям нужна личность, а у нейросети её нет, или она не вызывает интерес, весьма легко разбивается. Стоит сделать шаг в будущее и представить нейросеть, которая вполне консистентно общается в рамках персонажа. Эта задача как вполне прикладная уже знакома всем разработчикам виртуальных ассистентов и чат-ботов: общаясь с семейством ассистентов Салют (мы много рассказывали про их разговорные навыки) пользователи переключаются между тремя персонажами — серьезным Сбером, саркастичной Афиной и веселой Джой — и осмысленно выбирают ассистентов, переключаются между ними. Одна нейроличность оказывается интереснее других, точно так же, как и в жизни.
В SberDevices мы осознанно идём по пути создания нейроличности — надеемся, что новое примирение ruGPT-3, наш литературный экзерсис, найдёт свой отклик у читателей.
Бумажную книгу уже сейчас можно заказать в интернет-магазине издательства Individuum, а на полках книжных магазинов она появится до конца мая. Электронная версия с сегодняшнего дня доступна эксклюзивно на Букмейте. Сможет ли читатель отличить, какой текст написал Пепперштейн, а какой — Нейропепперштейн?
Коллектив авторов: @rybolos@onetwotrickster@Alter_Ego @oulenspiegel
НейроПепперштейн v2.0:
Я думаю, что Нейроличность для писателя — это всегда подножие горы, всегда основание скалы, всегда пропасть. Я не уверен, что сам я соответствую критерию «нейролингвистическая грамотность». Возможно, я просто вежливейший идиот. Но всё-таки я хочу быть уверенным, что остальные не менее приличные люди тоже соответствуют этому критерию. Иначе как бы они могли мирно уживаться в обществе?
К сожалению, (и я это очень остро чувствую) критерием «нейролингвистическая грамотность» сейчас определяется уровень не столько писательский, сколько вообще культурный. То есть человек, который не умеет писать литературные тексты, но при этом считает себя культурным человеком — наверное, таких людей немного. Но они есть. И именно они, по моему мнению, и являются настоящими писателями.
Кликните по картинке, чтобы увидеть нейрообложку:
Издательство Individuum. Дизайнер Василий Кондрашов, художники Павел Пепперштейн, ruDALL-E.
Искусственный интеллект умеет создавать завязки историй, логичные цепочки событий и диалоги. Правда, произведения часто получаются сюрреалистичными: медсестры пекут пироги из пациентов, а женские персонажи жалуются на отросшие усы. В статье разберемся, понимают ли машины смысл созданных историй и стоит ли сценаристам переживать, что они останутся без работы. Бонус в конце: мы попытались сгенерировать сценарий с помощью ИИ. Посмотрите, что получилось.
Создание текстов с помощью искусственного интеллекта относится к направлению Natural Language Processing (NLP), которое занимается обработкой естественного языка. Это одна из областей машинного обучения, и кроме генерации текстов в него входит распознавание и синтез речи, которые используются в голосовых помощниках, машинный перевод и анализ текстов.
Первые языковые генераторы, которые составляли новостные заметки на основе данных, появились в 2014 году. Агентство Associated Press начало публиковать корпоративные отчеты о доходах, полностью написанные компьютерными программами, а Yahoo Sports выпускали автоматизированную аналитику футбольных матчей. Тексты генерировались с помощью ПО, разработанного стартапом Automated Insights, но это были сухие справки, без намека на художественность.
В 2015 году ученые Технологического университета Джорджии презентовали нейросеть Scheherazade-IF (interactive fiction), которая могла генерировать собственные рассказы на основе загруженных в нее текстов. В качестве эксперимента искусственному интеллекту предложили проанализировать около 200 историй об ограблениях и походах в кино, а затем составить собственную историю на эту тему.
Нейросеть выявляла в предложенных примерах повторяющиеся ключевые события, отмечала их, как важные для истории, и запоминала. Например, при ограблении это были угрозы, страх, наличие оружия, а при походе в кино — покупка билетов и попкорна. Также Scheherazade-IF анализировала последовательность и взаимосвязь событий (сначала нужно купить билет, а потом зайти в кинозал), поэтому ее собственные истории получались логичными.
Проблемой оставалось то, что ИИ не может использовать средства художественной выразительности, например метафоры или сравнения. Кроме того, Scheherazade-IF не понимала смысла составляемых предложений. Кстати, эта задача остается нерешенной до сих пор.
В конце 2015 года Илон Маск и Сэм Альтман запустили проект OpenAI — коммерческую платформу, которая занимается разработками в сфере искусственного интеллекта. Главным принципом компании стала открытость, так как создатели не хотели допустить, чтобы AI-разработки были сосредоточены в руках конкретной страны или правительства. Одним из проектов компании стала нейросеть GPT, которая училась генерировать тексты, предугадывая каждое слово.
На основе разработок OpenAI в 2018 году компания Google запустила нейронную сеть Bidirectional Encoder Representations from Transformers (BERT), которая сначала проходит этап pre-training — это долгий процесс тренировки на огромном количестве текстов, содержащих миллиарды слов. Кроме словарных значений, в pre-training входит работа с синтаксисом и контекстом предложений.
Когда нейросеть получает базовые навыки распознавания языка, то ее можно быстро дообучить под разные задачи, одной из которых как раз является языковое моделирование. Для решения задачи нейросеть изучает миллиарды слов и их расположение в грамматически правильных предложениях, после чего может предсказывать следующее слово в тексте самостоятельно.
В 2018 году OpenAI выпустила версию GPT-2 (а в 2019 году — GPT-3), которая сейчас является самой большой нейросетью для работы с естественными языками. Она имеет более 1,5 млрд параметров, с помощью которых обрабатываются входные данные, и способна создавать целые страницы связного текста, причем для этого ей требуется всего один этап обучения, в отличие от BERT.
Олег Седухин, специалист по NLP, рассказал, как работает такая нейросеть:
«На самом деле система по архитектуре не такая сложная, как может показаться, просто она обучается на огромном объеме данных. В среднем для обучения используют около 600 Гб текстов.
Сейчас используется разновидность нейронных сетей, называемых трансформерами. Каждое слово в тексте трансформер представляет как набор чисел. Затем эти наборы чисел определенным образом обмениваются информацией друг с другом несколько десятков раз. Полученные с помощью этих вычислений результаты нейросеть может использовать для разных задач, в том числе генерации текстов на разные темы.
Входными данными при этом является “затравка” — начало текста, которое нужно продолжить, например: “Каков ответ на главный вопрос жизни, Вселенной и всего такого?” Сеть попытается продолжить этот текст и дать ответ. При этом она не высказывает собственное мнение, просто воспринимает затравку как начало какого-то текста, уже написанного человеком, и пытается предугадать, что будет дальше».
Механизм предугадывания слов в предложении можно увидеть при наборе письма в Яндекс.Почте. Сервис обучается в ходе использования и предлагает варианты автозаполнения в реальном времени на основе паттернов, которые чаще всего использует владелец аккаунта:
Точно также работает генерация слов в сервисе «Балабоба», только в гораздо большем масштабе. Команда Яндекса создала собственную языковую модель YaLM (Yet another Language Model), вдохновляясь примером GPT-3 от компании OpenAI. Она обучается на множестве страниц рунета, включая Википедию, новости, книги и открытые записи пользователей в соцсетях. Единственная задача сервиса — предсказывать каждое следующее слово таким образом, чтобы получалось логичное и грамматически правильное предложение.
«Балабоба» тоже умеет составлять сценарии, но в небольшом объеме. Например, она в собственном стиле смогла продолжить начало оригинального сценария фильма «Криминальное чтиво»:
Если сравнить результат с оригинальным диалогом, который происходит между персонажами, то можно заметить, что в целом нейросети удалось уловить суть тарантиновских диалогов:
И в том и в другом варианте непредсказуемые и абсолютно несвязные на первый взгляд высказывания складываются в абсурдный, но увлекательный диалог. Именно эту особенность искусственного интеллекта чаще всего используют при создании сценариев для короткометражек.
Профессия
Data Scientist
Научитесь выявлять закономерности в данных и создавать модели для решения реальных бизнес-задач.
Узнать больше
Режиссер Оскар Шарп и разработчик из Google Гудвин Росс создали нейросеть по имени Benjamin. Она относится к типу искусственного интеллекта, который используется для распознавания текста. Чтобы обучить Benjamin, Росс Гудвин загрузил в него десятки научно-фантастических сценариев из интернета: в основном это были фильмы 1980-х и 1990-х годов.
Первый фильм, снятый по сценарию Benjamin, — это «Sunspring», научно-фантастическая короткометражка для фестиваля Sci-Fi London 2016 года:
В сценарии были бессвязные диалоги: например, главная героиня жаловалась, что у нее отрастают усы. Но некоторое время спустя Benjamin научился создавать более логичные истории и сам стал генерировать фильмы. Нейросеть выбирала актеров, сюжет и спецэффекты. На фестиваль Sci-Fi London 2018 года Шарп и Росс представили черно-белую короткометражку «Zone Out», которую полностью создал искусственный интеллект:
На YouTube-канале Calamity AI студенты Университета Чапмана Джейкоб Ваус и Эли Вайсс выложили несколько короткометражек, сценарии к которым написаны с помощью ИИ. Например, «Solicitors» — история о девушке, которая встретила на пороге дома свидетеля Иеговы с необычной историей:
Илм «Date Night» — короткометражка о странном свидании парня и девушки, которые обсуждают, реальны ли они или находятся внутри фильма:
Авторы использовали Shortly Read, программное обеспечение на основе GPT-3. Джейкоб Ваус сочинял короткие истории или придумывал безумные завязки, а остальное дописывала нейросеть. Автору оставалось наблюдать, как будет развиваться эта история.
Сценарист и комик Китон Пэтти сгенерировал с помощью искусственного интеллекта сценарий эпизода «Черного зеркала». Нейросети пришлось посмотреть 1 тыс. часов сериала, чтобы сгенерировать результат:
Перевод:
ИНТ. ДОМ С 90 КОМПЬЮТЕРАМИ
ОТЕЦ и СЫН-ПОДРОСТОК едят на кухне будущего. Они едят горчицу — единственную еду, доступную в будущем. На кухне пахнет сгоревшим роутером, потому что это будущее.
СЫН-ПОДРОСТОК
Надоело есть. Хочу целоваться в интернете. Мама бы мне разрешила.
ОТЕЦ
Мамы больше нет. Она была приложением, и я удалил ее, потому что она жила не по-британски.
СЫН-ПОДРОСТОК
Давай нажмем на кнопку, чтобы вернуть маму. Мамам веселее, когда они живы.
Мы видим кнопку рядом с пятьюдесятью кухонными компьютерами. На ней написано: «СДЕЛАТЬ МАМУ».
ОТЕЦ
Но она острая.
Кнопка и правда острая. Если нажать на нее, порежешься.
СЫН-ПОДРОСТОК
Затем-то нам и нужны секс-дроны.
Сын бросает дрона на кнопку. Появляется МАМА.
МАМА
Где я? Кто я? Что я?
Почему кнопка такая острая? Я плохая мать.
ОТЕЦ
Сын, у нее отвратительная память.
СЫН-ПОДРОСТОК
Я ошибся, поступая как God.com.
Мама, пожалуйста, убейся снова.
Сын бросает в маму секс-дрон. Он проходит сквозь нее.
ОТЕЦ
Это мама-голограмма из виртуального измерения. Она даже горчицу есть не может.
МАМА
Неправда. Я совершенно реальна.
Мама прикасается к горчице, но та превращается в кетчуп. Это значит, что мы не в будущем, а в прошлом. Компьютеры — это камни. Секс-дроны — секс-камни. На дворе 1997 год.
Блейк Снайдер в своей книге о сценарном мастерстве «Спасите котика» советует авторам задавать при написании сценария правильные вопросы: «Когда начинается каждая новая сцена, вы должны знать, в чем заключается ее конфликт и кто выступает противоборствующими сторонами. У каждого персонажа есть собственные задачи. В чем они заключаются? Как они могут вступать в противоречие с интересами других персонажей?»
Кроме интересного сюжета и диалогов, в хорошей истории есть конфликт, характеры, эмоциональный багаж и развитие персонажей. Искусственный интеллект пока не способен анализировать такие категории и вряд ли вообще когда-нибудь сможет. Чтобы создать сложного персонажа, необходимо понимать смысл создаваемого текста, но со времен Scheherazade-IF нейросети так и не научились это делать.
Олег Седухин, специалист по NLP
«Это открытая, еще не решенная проблема в машинном обучении, и на текущем этапе развития технологий понимание нейросетями текста все еще очень поверхностно. В основном нейросети создают лишь видимость понимания, запоминая, какие слова чаще всего встречались в каком контексте. Поэтому машинный ответ совпадает с тем, чего хочет от нейросети человек. Эта видимость рушится, когда современным нейросетям задают каверзные вопросы, потому что с таким они пока плохо справляются.
Сам вопрос “Понимает машина смыслы или не понимает?” — философский и очень сложный. Есть гипотеза, что на основе одних текстов не получится добиться понимания, нужно дополнять их контекстом — например, для обучения загружать еще и видео. Этот вопрос — передний край науки, и над ним работает уже нынешнее поколение разработчиков».
С этим согласен Владлен Максимов, сценарист проектов «Такая работа», «Пятая стража», «Женская версия»
«Помните киновселенную Marvel, вышедшую из комиксов, где сценарии созданы по определенным алгоритмам? Потом появился фильм “Джокер”, похожий на Marvel, но в сценарии все алгоритмы были сломаны, потому что зло сражается со злом, и это все равно притягивает зрителей. Никакой искусственный интеллект не справится с рождением сложных эмоциональных сценариев».
Придумать и сгенерировать свою историю можно с помощью сервиса Plot Generator. Он предлагает выбрать три локации для истории — пусть это будет дом, Марс и космический шаттл:
Дальше нужно придумать имя главного героя, указать два прилагательных, которые характеризуют его, и профессию. Эта история будет о пассажире шаттла по имени Daria Egg, которая очень нервная, мечтательная и работает агрономом:
По такой же форме можно придумать главному герою друга, врага или любовный интерес:
В детали можно добавить монстров, драгоценности, любимые сладости героев, любимую музыку и страшную тайну:
По этому скрипту генератор предлагает нам сценарий фильма «Calm Dragon», то есть «Спокойный дракон». Действие начинается на борту космического шаттла, на котором спорят Дарья и ее любовный интерес — второй пассажир Джон:
Перевод:
ДАРЬЯ
Пожалуйста, Джон, не оставляй меня.
ДЖОН
Прости, Дарья, но я ищу кого-нибудь посмелее. Кто-то, кто сталкивается со своими страхами лицом к лицу, а не убегает.
ДАРЬЯ
Я такой человек!
ДЖОН хмурится.
Выглядит как вполне приличный диалог для мелодрамы, но дальше врывается подруга Дарьи Анна и рассказывает, что она видела, как на Марсе дракон съел кучу детей:
Чтобы создать текстовую нейросеть с нуля нужны те же знания, что требуются для создания других нейросетей. Во-первых, нужно знать математику:
- линейную алгебру: матрицы, векторы, их свойства и операции с ними
- математический анализ: производные, поиск экстремумов функции, функции многих переменных
- теория вероятности и статистика: случайные величины, распределения и т.д.
При отсутствии профильного высшего образования могут возникнуть сложности. Большинство из теорем и доказательств, которые изучаются в университете, не пригодятся на практике, но университет формирует математическую интуицию, которая очень важна. Важно не просто помнить формулы, а понимать почему они именно такие.
Конечно, нужно иметь знания в области программирования. В первую очередь это:
- Python – язык программирования, который особенно популярен в направлении машинного обучения и работы с большими данными.
- NumPy – библиотек на Python, которую применяют для математических вычислений.
Также понадобится базовое понимание истории и устройства ИИ. Есть книга «Deep Learning», в которой излагается теория, достаточная (и даже чуть больше чем достаточная), чтобы заниматься машинным обучением.
На курсе по машинном обучению и нейронным сетям в SkillFactory вы разберетесь с алгоритмами и узнаете необходимые библиотеки. Фокус курса – понимание задач и практическое применение решений.
Курс
Machine Learning и Deep Learning
Отработка практических навыков программирования глубоких нейронных сетей. Используйте силу машинного обучения для решения задач бизнеса
- помощь наставника на протяжении обучения;
- фокус на практическом применении;
- 21 модуль.
Узнать больше
Игорь Борисов, эксперт отраслевого издания Sostav, поделился списком актуальных инструментов искусственного интеллекта для журналистов, редакторов и копирайтеров.
Ниже подборка универсальных инструментов с искусственным интеллектом для работы с текстом. Почти все имеют бесплатный пробный период.
-
jasper.ai — платформа на базе языковой модели GPT 3.5, которая помогает создавать контент для сайта и соцсетей, оптимизировать тексты, генерировать изображения. Заточена под бизнес-тематику. Все, что требуется от пользователя — задать тему, целевую аудиторию, указать Tone of Voice и выбрать язык общения, например, русский. В России открывается без VPN. Встроенный чатбот Jasper Chat 10 тысяч слов сгенерирует бесплатно. Тарифы начинаются с 49 $ в месяц.
Jasper — AI Copywriter | AI Content Generator for Teams
-
neuraltext.com — платформа автоматизации операций с текстовым контентом. Получив ключевое слово, система анализирует конкуренцию в органике, находит НЧ-ключи, кластеризирует СЯ, генерирует с помощью ИИ разные виды текста, включая Title, Description, H1-H3, описания продуктов. Недавно в арсенал платформы добавлен полезный инструмент SERP Schema Extractor: по ключевому слову система показывает структурированные данные страниц из топ-10 Google. Теперь легко проверить, какие типы схем используют конкуренты. Многие SEO-инструменты бесплатные. Весь функционал — от 19 $ в месяц. Есть 5-дневный пробный период за 1 $.
-
writesonic.com — ИИ-платформа для копирайтеров. Сервис умеет писать тексты с заданными ключевыми словами, описания продуктов, заголовки, перефразировать фрагменты текста, делать выжимки из текста, генерировать целевые страницы. Недавно добавился чат-бот ChatSonic, который в отличие от ChatGPT подпитывается последними данными из Google Search. Инструмент может генерировать изображения по текстовому описанию. Понимает русский язык. 25 генераций в день в пределах 6250 слов — бесплатно. Платные тарифы начинаются с 13 $ в месяц при оплате за год.
-
frase.io — платформа для генерации и оптимизации статей. На старте необходимо ввести ключевую фразу. Инструмент находит статьи конкурентов из топа, но этот перечень необходимо почистить, то есть убрать страницы, не попадающие в нужный интент. Инструмент приводит заголовки H2-H3 конкурирующих статей. Из этих заголовков следует собрать структуру своей статьи и запустить генерацию. Когда текст готов, необходимо убрать смысловые повторы, дать команду на дописывание оборванных абзацев, переписать неуникальные фрагменты. Все делается внутри одного инструмента. Тарифы начинаются с 15 $ в месяц, но попробовать можно за 1 $.
-
outranking.io — также платформа для генерации и оптимизации статей, но более продвинутая, чем две предыдущие. Первый месяц — 7 $, затем 49 $ в месяц или больше в зависимости от тарифа.
-
writer.com — копирайтерская платформа с искусственным интеллектом, которая заточена на развитие бренда клиента. По словам разработчиков, они не обучают свой ИИ на текстах пользователей и строго следуют Tone of Voice каждого клиента. Сервис извлекает контекст не только из текста, но также из видео, PDF-файлов, аудио, таблиц и баз данных. Есть функция переформатирования существующего контента. Предусмотрен 14-дневный тестовый период. Тарифы — от 18 $ в месяц.
-
anyword.com — ИИ-копирайтер со скилами маркетолога. Если сервису описать целевую аудиторию, то тексты, которые он сгенерирует, будут адаптированы именно под эту ЦА. Работает с английским языком. Есть бесплатный тестовый период. Минимальный тариф — 24 $ в месяц.
-
copy.ai — платформа на основе искусственного интеллекта, нацеленная на генерацию текстов для маркетинга и продаж. Инструмент обучен писать рассылки, посты в соцсети, продающие тексты для сайтов, отзывы — достаточно дать системе ключевые слова и контекст. Понимает русский язык. 2000 слов в месяц — бесплатно. Начальный тариф — 36 $ в месяц.
-
rytr.me — аналог предыдущей платформы, но с еще более широким спектром возможностей, в том числе для SEO. Бесплатно можно генерировать 10 тысяч символов в месяц. Начальный тариф — 9 $ в месяц.
-
airuco.ru — российская платформа для генерации и оптимизации текстов с помощью искусственного интеллекта. Хорошо понимает русский язык. В настоящее время — бесплатная.
-
gerwin.io — сервис ИИ-копирайтинга на основе нейронной сети для написания статей, рекламы, постов в социальные сети, описаний товаров, заголовков и др. Работает с русским языком. Дают бесплатный пакет на 10 тысяч символов для тестирования сервиса. Платные пакеты начинаются от 330 рублей.
-
copymonkey.app — русскоязычная нейросеть, которая умеет писать тексты для постов в соцсетях, отзывы на товары, рассылки. Судя по отзывам на сайте, бизнес использует инструмент для генерации большого количества описаний товаров. Есть бесплатный тест. Стартовый тариф — 1599 рублей в месяц.
-
askoptimo.com — бесплатное облегченное решение. ИИ-комбайн, который пишет посты для соцсетей и блогов, письма, сценарии для YouTube. Во вкладке SEO помогает расширить и кластеризировать СЯ, найти идеи для ссылочного продвижения.
Источник
Присылайте свои комментарии к ситуации на digital-рынке (короткие или развёрнутые, во втором случае сделаем вам полноценную колонку в статейной ленте Коссы):
Email: 42@cossa.ru
Телеграм: @cossawer
VK: vk.com/cossa