Midjourney и другие нейросети обработки изображений - страница 600

 

Косяки есть конечно, но и запросы жесткие)

Промт: Гуманоидный крокодил гладит капибару у костра. А сама капибара играет на гитаре. Опушка леса, рядом с рекой. Лебеди плывут по реке.

Видео в прикреплении


 
Реter Konow #:
... Генерация по вольному промпту - это посложнее. Мягко говоря. Другая технология по сути.

По идее это генерация фото и дальнейшее анимирование. Как по мне, экономнее сначала сгенерировать картинку нужную, а потом уже её анимировать

 
Maxim Dmitrievsky #:
Технология та же самая по сути
Так дипфейк разве не требует на порядки меньше обучения? Для свободной генерации по промпту нужно нереально много видео данных. Может я не прав?
 
Реter Konow #:
Так дипфейк разве не требует на порядки меньше обучения? Для свободная генерации по промпту нужно нереально много видео данных. Может я не прав?
Да, больше модель нужна, больше обучающих примеров. Ну и text-to-image встроенный.
 
Maxim Dmitrievsky #:
Да, больше модель нужна, больше обучающих примеров. 
Дипфейк, если правильно понимаю, это строго заточенная на один образ генерация. Никакой универсальности. Обучили сеть на изображениях лица одного человека и наложили его образ как слой на лицо другого. Вот и все. А генерация по свободному промпту - это ж совсем другой уровень технологии. 
 
Vitaliy Kuznetsov #:

"А вот если бы так и так, то я бы поверил в прогресс..."

Генерация претензий также бесконечна, как и прогресс ИИ.

Петр готов признать уровень, это уже показатель адекватности. 

Николай тоже писал, что готов признать уровень. 

Адекватность некоторых сделала шаг вперед. Пусть и с оговорками, но они всетаки видят, что контент не имеет содержательных границ, только временные (развитие). 

Это логично, ведь виртуальная среда не подчиняется материальным законам, здесь в перспективе попросту не во что упираться, кроме как в ожидании самой перспективы, когда обучат, отладят, отполируют, изменят, донастроят и тд и тп. 

В результате, с увеличением качества и количества информационной вместимости  материального носителя пропорционально будут увеличиваться возможности виртуального содержания
 
Реter Konow #:
Дипфейк, если правильно понимаю, это строго заточенная на один образ генерация. Никакой универсальности. Обучили сеть на изображениях лица одного человека и наложили его образ как слой на лицо другого. Вот и все. А генерация по свободному промпту - это ж совсем другой уровень технологии. 
Надо на конкретной архитектуре нейросети разбирать, так сложно общаться. Грубо - это конструкторы, комбинируя слои нейросетей можно получать разную функциональность. Конечно, более сложные модели устроены несколько сложнее. Но принцип обобщения множества образов и описаний к ним один и тот же.

Технически все упирается только в производительность железа и наличие архивов с обучающими данными (баз данных).
 
Vitaliy Kuznetsov #:

По идее это генерация фото и дальнейшее анимирование. Как по мне, экономнее сначала сгенерировать картинку нужную, а потом уже её анимировать

Честно, не вижу прорыва по сравнению с Sora. У нее и видео дольше и качество получше. А уж о тех видео со знаменитостями из рекламных роликов здесь и речи нет. Разве не так? Ну, обьективно и беспристрастно.
 
Реter Konow #:
Честно, не вижу прорыва по сравнению с Sora. У нее и видео дольше и качество получше. А уж о тех видео со знаменитостями из рекламных роликов здесь и речи нет. Разве не так? Ну, обьективно и беспристрастно.

Sora доступна только нескольким людям. Kling всем. Есть и 10 секундные генерации и картинка-старт, картинка-стоп. Что там не видишь со знаменитостями? Выкладывал уже или надо мне саму ещё раз это сгенерировать?

Мне так пофиг, веришь или нет. Записался в критиканы, вот и критикуй, не мешай другим наблюдать за развитием технологий.

 
Maxim Dmitrievsky #:
Надо на конкретной архитектуре нейросети разбирать, так сложно общаться. Грубо - это конструкторы, комбинируя слои нейросетей можно получать разную функциональность. Конечно, более сложные модели устроены несколько сложнее. Но принцип обобщения множества образов и описаний к ним один и тот же.

Технически все упирается только в производительность железа и наличие архивов с обучающими данными (баз данных).
Окей, чисто технически технологии могут быть похожи. Но масшаб моделей и возможности генераций явно не сопоставимы. 

Дипфейки уже как лет 10 существуют, а генерации лишь год с небольшим. И хоть они проделали путь развития, но до реализма дипфейков им далеко. Поэтому я и говорил о подделке рекламы Клинг.