Нейронные сети всего за несколько месяцев успели обосноваться на рынке «одноразового контента» — генерации текстов и изображений. Рассмотрим популярные проекты нейросетей и некоторые неочевидные аспекты работы с ними.

При чтении множества новостных сайтов возникает предположение, что писали тексты и рисовали иллюстрации — не люди. Если раньше в подобных махинациях подозревали рептилоидов и другие неземных созданий, то теперь можно с полной уверенностью говорить: перед нами результат работы нейросетей (нейронных сетей, то есть одного из видов искусственного интеллекта, ИИ). Впрочем, следующий логический шаг предполагает, что за созданием нейросетей также могут стоять пришельцы. 

Современные нейросети — это не только корпоративные датацентры. Многие сервисы доступны бесплатно каждому, без политических и прочих ограничений.

В криптовалютной индустрии нейросети также пытались применять. Не только для банального предсказания биржевых курсов криптовалют, но и более аутентично — например, для переключения майнинговых устройств между разными криптовалютами и пулами для получения максимальной прибыльности майнинга. Все эти начинания или не принесли ожидаемого эффекта, или принесли его слишком много, поэтому публично известных сервисов такого типа нет.

Кто разрабатывает алгоритмы нейросетей

Разработкой алгоритмов нейросетей занимаются как ведущие технологические компании, так и более узкие специализированные проекты. Неофициальным стандартом нейросетевой генерации в первое время стали алгоритмы от компании Open AI, созданной Илоном Маском и выходцами из технологических корпораций США. Для генерации изображений компания разрабатывает алгоритм Dall-E (текущая версия 2.0), а для текстов — GPT (текущая версия 3.0). Причем именно алгоритм обработки текстов GPT опередил конкурентов и применяется в самых разных прикладных целях.

На основе GPT, например, создан текстовый ИИ Chat GPT, который способен поддерживать беседу лучше многих людей и даже помогать выносить судебные решения. Сейчас целый ряд нейросетевых сервисов генерации контента использует GPT для разбора текстовых запросов, полученных от пользователей.

Собственные нейросети имеют Google, Apple, Microsoft, Nvidia и другие корпорации. Но их продукты, как правило, применяются в корпоративных нуждах и публикуются для общего пользования только на стадии тестирования. Сами компании чаще всего рассматривают их не как готовый продукт, а как один из универсальных прикладных инструментов своей экосистемы.

Почему существуют бесплатные нейросети и в чем их особенности

Сейчас общедоступные нейросети сосредоточились на массовых востребованных услугах, таких как создание уникальных текстов и картинок. Часть из них условно или полностью бесплатны. Выгода разработчиков состоит в том, что их продукты в ходе массовой эксплуатации проходят интенсивный курс обучения на реальных данных, а не синтетических тестах. Кроме того, увеличивается публичная осведомленность и формируется потенциальная клиентская база.

Пока главный недостаток общедоступных нейросетей для генерации изображений — это необходимость самообучения не только нейросети, но и ее заказчика. Получить качественную картинку, соответствующую ожиданиям, из простого набора слов или фраз очень сложно. Нужен наработанный навык в правильной формулировке запроса.

Если вы всерьез собираетесь заменить своего дизайнера или иллюстратора нейросетью, будьте готовы к длительным тренировкам по оптимизации запросов. А интенсивное использование нейросети обойдется не всегда дешево. Большинство платных сервисов предоставляют клиентам автоматизированных помощников по написанию запросов, а большое количество запросов для массовой генерации изображений можно автоматизировать с помощью API.

Вопреки распространенному заблуждению, нейросети генерируют изображения не на основе перебора миллиардов шаблонов, полученных из интернета и других источников. Они анализируют по базе собранных изображений математические закономерности и перерабатывают их, формируя «собственное мировоззрение». Поэтому нейросеть создает действительно уникальное изображение, даже если задан стиль, присущий определенному художнику, школе или эпохе.

Результат работы нейросети может не подчиняться человеческой логике и тем более представлениям о симметрии, красоте или рациональности. Большая часть результатов похожа на работу больной фантазии или бредогенератора. И только очень малый процент продуктов деятельности существующих нейросетей годен для практического применения.

Популярные алгоритмы нейросетей для генерации изображений

Dall-E

Первым необходимо упомянуть самую развитую из публичных нейросетей, а именно Dall-E от Open AI. Актуальная версия алгоритма Dall-E v2 была публично запущена в сентябре 2022 года. Официально проект до сих пор считается исследовательским и находится в стадии бета-тестирования. Нейросеть создает уникальные изображения на основе текстового запроса с использованием GPT или другого изображения.

Для генерации изображений необходимо зарегистрироваться на сайте. Регистрация недоступна с российских API, так же как и из многих других стран за пределами Евросоюза и Северной Америки. Поэтому придется воспользоваться VPN, телефонным номером страны выхода в публичную сеть и виртуальной банковской картой европейского или американского эмитента, если планируете пополнять количество кредитов. Стоит ли прохождение этого квеста ожидаемых результатов — решать только вам.

После регистрации станет доступно разовое создание изображений или массовое с использованием API-запросов. Использование ресурса нейросети условно бесплатное. На старте выдается 50 внутренних кредитов, и по 15 кредитов начисляется ежемесячно. Генерация до четырех изображений по одному запросу или файлу от пользователя стоит 1 кредит. Этого достаточно для обучения и экспериментов, но для интенсивного использования и тем более коммерческих задач нужно будет покупать много кредитов.

RuDall-e

Из российских проектов публичных нейросетей наиболее развит национально стилизованный и существенно доработанный клон Dall-E v1 с почти одноименным названием, входящий в экосистему Сбера. Использование генератора изображений полностью бесплатно, по крайней мере пока. Никаких дополнительных условий кроме ввода капчи не требуется. Только самый продвинутый алгоритм Kandinsky 2.0 при мобильном использовании требует регистрации по номеру телефона, но остается бесплатным.

Заготовкой для нейросети служит текстовый запрос на русском или английском языке, либо пользовательская картинка. Результата придется подождать в среднем от 2 до 5 минут. Сервис состоит из нескольких алгоритмов, заточенных под определенный вид картинок:

  1. ruDALL-E Kandinsky (XXL) — самый прокачанный из алгоритмов, обрабатывающий до 12 млрд параметров. Он создает или перерабатывает сложные композиции, причем может придерживаться стиля одного из известных художников.

  2. Сберовский Малевич на основе 1.3 млрд параметров рисует не черные квадраты и прочие геометрические формы, а стал действительно художником широкого профиля: может сгенерировать как пейзаж, так и портрет животного/человека, не существующих в реальном мире. Но детализация изображений ниже, чем у нейро-Кандинского.

  3. А вот самый простой в семействе ruDALL-E Emojich специализируется исключительно на смайликах и прочих мелких аватарах, генерируя пакеты из сразу 64 иконок.

На мобильных устройствах сервис ruDall-E реализован в виде мобильного приложения «Салют», которое отзывается на кодовую фразу «Включи художника».

Stable Diffusion

Значительная часть публичных нейросетевых сервисов основывается на алгоритме Stable Diffusion, разработанном компанией CompVis, созданной при Мюнхенском университете. Проект был обнародован в августе 2022 года. Это бесплатный облегченный алгоритм с открытым кодом. Он может запускаться на обычном ПК с достаточно мощным процессором и видеокартой. Возможна даже установка на современные смартфоны. От аппаратных ресурсов зависит не качество, а скорость создания изображений.

В основе анализа текстовых запросов лежит алгоритм от германской некоммерческой организации LAION. Разработчики Stable Diffusion не регулируют использование алгоритма и авторские права на созданные им изображения. То есть при установке ПО на свои устройства без использования сторонних сервисов можно не беспокоиться о копирайте и претензиях в области авторских прав. Однако настройкой и обучением своего «домашнего ИИ» придется заниматься самостоятельно.

Как свободное программное обеспечение Stable Diffusion очень удобен для условно бесплатных публичных сервисов. Его возможности в сложных задачах уступают Dall-E и другим корпоративным продуктам, но их хватает для удовлетворения запросов большинства пользователей, как для экспериментов, так и для частного применения, например, в интересах малого бизнеса.

С помощью Stable Diffusion, например, можно создать уникальный аватар для соцсетей, собственный приукрашенный портрет, творчески оформить подарок близким или бизнес-партнерам, или создать несложные, но уникальные элементы интерфейса и иллюстрации на своем сайте.

Поскольку Stable Diffusion бесплатен для разработчиков проектов, они могут предложить более выгодные тарифы по сравнению с теми, кто использует корпоративные нейросети, либо сделать свою нейросеть полностью бесплатной. Таких проектов существуют десятки. После начальной настройки сервиса его монетизация будет зависеть только от популярности и требовать минимум затрат.

GauGan

Еще один представитель корпоративных нейросетей — GauGan от Nvidia. Сервис свободен для использования через веб-интерфейс, но API для массовой генерации нет, исходные коды закрыты.

Интерфейс сервиса напоминает простой графический редактор, но освоение потребует немалого времени для новичка. Язык текстовых запросов также придется изучать самостоятельно. Качество итоговых изображений получается достаточно высоким, однако может не окупить времени на освоение по сравнению с аналогичными сервисами.

Использование GauGan бесплатное и не требует регистрации. Однако ограничено использование сгенерированных изображений: Nvidia прямо запрещает любое коммерческое применение, а также реверс-инжиниринг и другие попытки «проникнуть под капот» алгоритма. При этом компания оставляет за собой право использования введенных пользователем запросов и загруженных изображений в своих целях, то есть для машинного обучения нейросети.

GauGan опубликован еще в 2020 году, но с тех пор интерфейс и условия использования практически не меняются, информация о развитии алгоритма также отсутствует. Компания не проясняет политику дальнейшего использования продукта.

MidJorney

Нейросеть MidJorney за последние месяцы успела обскакать в популярности более именитых конкурентов. Многие из пользователей, попробовавших различные нейросетевые сервисы, считают Midjourney лучшим по качеству генерируемых изображений на основании текстовых запросов.

Для временного бесплатного использования сервиса достаточно зарегистрировать аккаунт в Discord и отправить себе приглашение, не требующее дополнительных условий. Взаимодействие с нейросетью тоже происходит через канал в Discord.

Сервис делает упор на генерацию изображений по текстовому запросу. Загружать свои картинки можно, но будет сложнее и результат окажется хуже, чем при составлении качественного текстового запроса.

После регистрации вы получаете бесплатные 25 минут (очевидно, подразумевается время работы ИИ над запросом). Когда они закончатся, придется купить платную подписку.

Качественно обрабатываются только запросы на английском языке. По тексту на других языках вы скорее всего получите негодный продукт. В личном кабинете можно настроить базовые параметры, такие как версия алгоритма, стили, разрешение и публичность созданных изображений, а также использование платной подписки. Дальнейшее управление осуществляется через команды Discord.

MidJourney предоставляет огромное количество параметров для настройки генератора. Именно поэтому на нем проще получить ожидаемый результат, а не тратить ресурсы нейросети на перебор текстовых запросов методом научного тыка. Но придется изучать команды Discord, если вы ранее им не пользовались, и собственно MidJourney.

Еще одна особенность MidJourney — после получения первого результата вы можете многократно оптимизировать запрос или улучшать качество изображения. Это быстрее и обойдется дешевле и самой нейросети, и пользователю.

Сервис строго соблюдает законодательные ограничения и следит за использованием «запрещенных слов». При их частом употреблении учетная запись может быть заблокирована. Поэтому стоит ознакомиться со списком заранее. Зато не лишним будет использование в запросах художественных и архитектурных стилей, а также имен знаменитых художников.

Для российских пользователей с регистрацией на MidJourney могут возникнуть проблемы — не допускается использование российских телефонных номеров, адресов электронной почты, платежных сервисов и банковских карт российских банков. Здесь придется пройти такой же сложный путь, как и для работы с Dall-E. Но многие считают, что оно того стоит.

NFT от нейросети

Первые массовые коллекции NFT, такие как криптокотики или скучающие обезьянки, изначально работали по сходным с нейросетями алгоритмам, создавая случайные изображения по встроенным или задаваемым пользователям шаблонам. Разумеется, эти алгоритмы и их возможности примитивнее, чем у Dall-E или Midjourney, их нельзя считать настоящим ИИ.

Некоторые сервисы нейросетей откликнулись на спрос и создали интерфейс не только для создания самой картинки для NFT, но и немедленной генерации токена и отправке его в блокчейн. Для проведения транзакции пользователю необходимо будет дополнительно оплатить комиссию блокчейна.

Генерировать NFT с помощью нейросети можно на любом популярном сервисе из перечисленных выше, но существуют
и узкоспециализированные, предназначенные для создания  NFT.

Авторское право на созданные нейросетями изображения

Генерируемые нейросетями картинки используются все шире, в том числе и в коммерческих целях. Кто будет получать прибыль от них и кто может обвинить в плагиате за копирование без указания источника, или коммерческое использование продуктов нейросетей без разрешения правообладателя? Юридическому сообществу придется озаботиться вопросом, кому же принадлежат авторские и имущественные права.

Вариантов здесь немного. Созданное нейросетью изображение, аудио или видео могут принадлежать:

  1. Создателям нейросети или ее алгоритма.

  2. Заказчику изображения, составившему и отправившему запрос.

  3. Самой нейросети, то есть обезличенному искусственному интеллекту.

При этом есть два нюанса:

Во-первых, авторские и имущественные права могут принадлежать разным юридическим сущностям. Также возможна частичная передача прав (лицензирование или аренда) на использование. Подобная практика применяется для контента, созданного традиционными методами.

Например, автор статьи в СМИ — это журналист, и авторские права неотъемлемо принадлежат ему. Он может требовать указания своего имени при любой публикации статьи. Однако правообладателем текста, как правило, становится работодатель — информационное агентство или владелец сайта, если иное не определено трудовым договором. Именно правообладатель может подавать иски за использование контента без его согласия. Для таких сложных объектов, как музыкальный альбом или фильм, авторов могут быть десятки, но правообладателем конечного продукта будет одно или несколько юридических лиц — киностудий или продюсеров.

Во-вторых, имеют значение правила использования нейросети, определенные ее разработчиком. Например, многие проекты разрешают использовать бесплатно созданный контент только в личных целях и с обязательным указанием источника, то есть оставляют права на него за собой. Однако права на изображения, полученные в рамках подписки, могут передаваться клиенту полностью или в рамках ограниченной лицензии. Он может использовать изображения в коммерческих целях и требовать соблюдения своих прав, в том числе через суд.

Исходя из уже складывающейся практики, права на нейросетевой контент скорее всего и дальше будут определяться владельцами проектов, а они, в свою очередь, будут делать отчисления разработчикам алгоритмов. В этом случае значимых изменений в действующем законодательстве не потребуется.

Что касается начавшихся в СМИ спекуляций насчет передачи прав на контент создавшему его искуственному интелекту (ИИ) — это еще на много лет будет не более чем попыткой раздуть инфоповод и сопутствующие заработки на нем. Дискуссия о «правах роботов» была поднята 70 лет назад фантастом Айзеком Азимовым, создавшим «три закона робототехники». Но и тогда, и сейчас она не выходит за рамки чисто теоретических рассуждений.

Никакие современные ИИ не обладают самосознанием и свободой воли, поэтому не могут сами представлять себя в суде и распоряжаться своими доходами. А значит, за них это будут делать создатели нейросети и нанятые ими юристы. То есть любая инициатива придать ИИ независимый юридический статус будет не более чем попыткой уйти от налогов или иным способом заработать на обходе традиционных юридических процедур.

Сейчас при коммерческом использовании созданного нейросетями контента нужно читать лицензионное соглашение, обычно присутствующее на сайте проекта. Иначе со временем можно получить повестку в суд.

Нейросети: угроза или помощь?

Несмотря на ограниченную функциональность и юридические нестыковки, публичные нейросети начинают входить в повседневную жизнь и приносить практическую пользу, заменяя «несовершенных людей» там, где, казалось бы, машинам нет места — в творчестве.

Не случайно художники и дизайнеры устроили забастовку
и подали иск против популярных нейросетей, опасаясь потерять заработки. Точно так же несколько лет назад таксисты митинговали за запрет Uber, а сотню лет назад извозчики громили автомобили такси.

Но история уже не раз доказывала, что митингами прогресс не остановить. Поэтому, чтобы не остаться на обочине рынка, лучше присоединиться к освоению новых технологий и начинать пользоваться нейросетями. Это не так просто. Для получения картинки, за которую не будет стыдно перед аудиторией, придется освоить язык запросов, который у каждой нейросети свой. И потратить много часов на эксперименты.

Необходимо учитывать, что даже лучшие из современных публичных нейросетей не способны создать изображение, точно соответствующее заданию и пожеланиям заказчика. Они действуют исключительно в рамках алгоритма. Самообучение увеличивает количество вариантов для генерации, но не может заменить воображение и опыт человека. Поэтому ответственные и дорогостоящие проекты будут требовать участия живых профессионалов. Однако нейросети действительно нанесут серьезный удар по низовому сегменту — начинающим дизайнерам, художникам и копирайтерам, тем, кто привык работать по шаблонам.

Нейросети еще долго не будут способны заменить настоящих творцов, но помогут молодым проектам с небольшими бюджетами сэкономить много времени и ресурсов.