Midjourney и другие нейросети обработки изображений - страница 13

 
Vitaliy Kuznetsov #:

Вот ещё один зарубежный сервис внедрил AI. Генерация интерьера или ландшафтный дизайн.

https://interiorai.com/

Загружаете своё фото, выбираете стиль, описание и клацаете генерации

Профессия Ландшафтный и Дизайнер Интерьера переходят в разряд Оператор AI Интерьера

//но сейчас ещё есть проблемы с некоторыми элементами, однако прогресс на лицо.

с внутренними интерьерами (логикой организации и тем паче визуалом) им ещё плыть и плыть до  современных. Почти любой CAD поставит такой AI на колени.

 
Vitaliy Kuznetsov #:

Селфи животных


Портреты девушек


Ну и как по Вашему, что лучше генерирует Midjourney 5, животных или людей?

люди вроде лучше получаются с точки зрения реалистичности.

кто нибудь знает как Миджорни работает со светом? есть тут специалисты по освещению что бы оценить правильность теней и отражения/преломления? ну стопудоф же сеть не делает трассировку, тогда как сеть реализует освещение? 

 
Andrey Dik #:

люди вроде лучше получаются с точки зрения реалистичности.

кто нибудь знает как Миджорни работает со светом? есть тут специалисты по освещению что бы оценить правильность теней и отражения/преломления? ну стопудоф же сеть не делает трассировку, тогда как сеть реализует освещение? 

Не специалист по освещению, но уверен что свет здесь совсем не причем. Сеть не анализирует ни правильность теней, ни отражение\преломление. И не делает трассировку лучей. Сеть НЕ реализует освещение.

Сеть обрабатывает данные взятые с обучающего сета и компилирует их таким образом, чтобы они подходили под промпт. Находит нужные последовательности и каким то образом "подгоняет" их так, чтобы они составили целостное изображение. 

 
Andrey Dik #:

люди вроде лучше получаются с точки зрения реалистичности.

кто нибудь знает как Миджорни работает со светом? есть тут специалисты по освещению что бы оценить правильность теней и отражения/преломления? ну стопудоф же сеть не делает трассировку, тогда как сеть реализует освещение? 

Просто надо написать как должно быть освещение, какая пленка (если хотите аналог), ISO, какой объектив, все настройки, и так далее, как на камере. И так и сделает. Можно даже написать в стиле какого фотографа сделать.

 
Vasile Verdes #:

Просто надо написать как должно быть освещение, какая пленка (если хотите аналог), ISO, какой объектив, все настройки, и так далее, как на камере. И так и сделает. Можно даже написать в стиле какого фотографа сделать.

значит какое никакое освещение рассчитывается. вот и интересно. каким образом. глядя на картинки Миджорни можно заметить правильно поставленные свето/тени, значит распространение света как то учитывается. вообще, свет - это одно из тех вещей которые мозг обрабатывает наилучшим образом, любые несоответствия и нелепости в освещении любое живое существо определяет мгновенно, даже если не сможет описать что именно не так.
 

Заранее скажу, что практически ничего не знаю о принципах работы сетей Midjorney и Stable Diffusion. Слышал кое что о "шумо-генераторе", из которого "рождается" изображение, но ничего конкретного рассказать про этот метод не могу. Технология остается покрытой тайной. Несмотря на осознание своего невежества, свербит желание развить некоторые идеи.) Вдруг получится понять?

Через некоторое, время мы все узнаем об AI намного больше и будет интересно почитать свои сегодняшние догадки.

И так, как работает Midjorney? (упражнение для ума)

1. Создаем многослойную сеть. Тысячи слоев нейронов и миллиарды параметров.

2. Подготавливаем обучающий сет данных: берем изображения и печатаем к ним текстовое описание. Когда достигаем миллионов изображений и подробных описаний, завершаем этап подготовки данных.

3. Приступаем к обучению. Последовательно загружаем на входной слой картинки, а на выходной слой их текстовое описание. Повторяем процедуру с миллионами изображений обучающего сета: картинка на вход - текст на выход, картинка на вход - текст на выход...

4. В процессе обучения, в сети происходят следующие процессы: (1) Повторение визуальных данных формирует визуальные паттерны. (2) Эти паттерны связываются с отдельными словами, выражениями или кусками текстовых описаний находящимися на выходном слое. Укрепляется связь общих частей множества изображений с фрагментами множества описательных текстов. Осуществляется как бы "именование" складывающихся общих паттернов сотен и тысяч изображений. Наверное поэтому, когда мы пишем промпт, мы как бы "вытаскиваем" определенные паттерны из сети с помощью слов. То есть, мы обращаемся к выходному слою и забираем данные с входного. Но, для формирования качественной картинки этого мало.

5. На этом этапе, происходит нечто таинственное и до конца мною не понимаемое.

И так, наш промпт активирует некоторые паттерны изображений, и далее, они забираются из сети и переносятся в некий "миксер".

Нужно понимать, что именно представляют из себя эти паттерны. Это просто цепочки данных. Общие для группы изображений последовательности цвета представленные в числах. Если их соединить вместе в исходном виде, целостного изображения не получится. Значит, эти цепочки данных (последовательности) нужно как то "подогнать" друг под друга. Но как? 

Предполагаю следующее: сеть (или некий соединенный с ней модуль алгоритмов) берет эти последовательности и начинает пытаться их совмещать внутри бесконечного цикла. Каждую компиляцию он проверят на обучающем сете. Смотрит, насколько компиляция последовательностей совпадает с оригинальными изображениями. То есть, пытается "узнать" в каждом варианте те формы, которые рисует. Наверное, здесь включают алгоритм генетической оптимизации. Некая фитнес функция сравнивает каждую новую трансформацию "перевариваемых" цепочек с исходными вариантами и вычисляет процент совпадения. В определенный момент, совпадение оказывается максимальным и цикл генерации прерывается.


Возможно, в моем предположении много ошибок и неточностей, ведь это всего лишь догадка.

Высказывайте свои предположения о том, как работают такие сети как Midjorney и Stable Diffusion.

 

Готов спорить, что создание AI полностью имитирующего всю жизнь человека реализовать не сложно.

Более того, всё утро думал над этим и пришёл к выводу, что и человек сродни нейроинтерфейсу. Если интересно, могу прямо подробно описать.

Но если пойти глупым (но быстрым) путём, то можно обучить AI поведению, обучив на поведении людей тест группы.

Тогда Вы не сможете отличить кто перед Вами, человек или AI в коже. Тут не фантастика, судя по всему база обучения для создания готова или вот-вот будет завершена.

 

В конечном счёте человек будет отличаться от AI лишь ограничениями.

Но и AI с развитием кол-ва (условно роботов) не сможет всегда использовать неограниченно мощности.

Получится, что их кол-во надо будет ограничить до золотого миллиарда, а продуктивность (усталость) ограничить количеством неких условных единиц в день.


На эти мысли меня натолкнуло ограничение бота в одном канале:

Получается, что чем больше бот использует информации, которую запомнил, тем больше тратится ресурсов.

Помогает "Сброс Диалога"


У человека эти функции выполняет короткая и долгая память. Мозгу приходится сбрасывать полученную информацию, оставляя лишь некоторые значимые вещи.

Для улучшения эффективности предлагают переключаться на другое дело. Всё очень и очень похоже.

Человек очень легко переключается на что-то новое (Сброс Диалога), но стоит углубиться в теме, как может пропасть интерес и появиться усталость (Большая трата токенов после запоминания инфы и её последующей обработки)


Если AI обучить поведению с точки зрения расходования своих ресурсов, выданных на день и запрограммировать что-то вроде инстинктов и пирамиды Маслоу, то мы увидим изменение поведения/программы, исходя из инстинктов, "голода" и "нехватки энергии".

Накопление токенов для AI - будет процесс некой дефрагментации и упорядочивания инфы (короткая и долгая память), при которой проще отключать и минимизировать другие функции.

Аналог - сон человека.


Есть ещё более значимые "доказательства" и сходства между AI и человеческим обществом, но на эту тему уже ничего писать не буду, ибо не хочу в это поверить.

 
Andrey Dik #:
значит какое никакое освещение рассчитывается. вот и интересно. каким образом. глядя на картинки Миджорни можно заметить правильно поставленные свето/тени, значит распространение света как то учитывается. вообще, свет - это одно из тех вещей которые мозг обрабатывает наилучшим образом, любые несоответствия и нелепости в освещении любое живое существо определяет мгновенно, даже если не сможет описать что именно не так.

Что значит правильно? В смысле если делает так как ты пишешь ему что бы он делал? Если так, то да. Просто надо научится писать хорошо и точно что требуется.

P.S. Неделю назад разоблачили очень популярного в IG портрет фотографа, на самом деле, он делал все портреты с ИИ.

 
Vasile Verdes #:

Что значит правильно? В смысле если делает так как ты пишешь ему что бы он делал? Если так, то да. Просто надо научится писать хорошо и точно что требуется.

P.S. Неделю назад разоблачили очень популярного в IG портрет фотографа, на самом деле, он делал все портреты с ИИ.

правильно - значит с учетом законов распространения света, без учета этих законов картинка всегда будет страдать нереалистичностью. если сеть не учитывает никак распространение света, то хоть как ей пиши она не сделает это правильно.

поэтому у меня возник вопрос, какие принципы заложены в сети для обработки освещения сцены, явно не трассировкой лучей, потому что что бы правильно обработать сцену нужно обладать информацией не только о глубине и форме сцены и предметов, но и отражающих/преломляющих свойствах материалов предметов в сцене. явно Миджорни генерирует картинки каким то иным способом, интересно каким.


скорее всего там нет никаких расчетов физического поведения света, сеть просто обучили КАК должна выглядеть освещённая сцена. наверное если детально разбирать освещение - то можно найти косяки.