Midjourney и другие нейросети обработки изображений - страница 469

 
Aleksey Nikolayev #:

Упущена важная часть процесса обучения, необходимая даже для приблизительного его описания.

Обязательно должна быть стадия оценки исполнения промптов от реальных людей и учёт этих оценок для корректировки весов модели. Буквально, где-то сидит толпа индусов, задают промпты и оценивают результаты. Без этого этапа ничего не заработает. Именно отсюда растёт "интеллектуальность" моделей.

Отсюда же растут и ограничения модели. Например, задавал уже в ветке вопрос промптусам - может ли графический ИИ осмысленно изображать не просто одиночных персонажей или их несвязанные группы, а их взаимодействие - игра в теннис или совместное перетаскивание груза, например. Естественно, вопрос был проигнорирован промптусами. Если кто не верит пусть сам попробует попромптить свой любимый графический ИИ. На практике, продолжают по старинке юзать фотошоп.

Имхо, это вряд ли возможно на современном уровне по чисто комбинаторным соображениям. Например, если для обучения модели рисованию одиночных персонажей нужно, условно, 1000 индусов, то для рисования пар - уже 1000*1000=1е6. А если нужно обучать рисованию произвольных взаимодействий, то нужно число индсуов умножить (условно говоря) ещё на тысячу и в итоге их нужно уже 1е9.

При этом, любой средний художник справится с этой задачей, что явно показывает различия между И и "ИИ".

Спасибо за дополнение. Мне как неспециалисту в области полезно узнать эти подробности. Очень информативно.

 
Aleksey Nikolayev #:

Ерунда написана. Человека отличает способность к абстрагированию, практически неограниченная. Понятно что самостоятельно создают новые абстракции далеко не все люди, но это особенность человека как вида. Дети-маугли могут быть лишены её, но самая умная обезьяна растущая среди людей не обретёт её.

Ерунда написана. Нет никаких доказательств, что работу мозга человека нельзя имитировать ни сейчас и никогда в будущем. А некоторые возможности абстрагирования LLM демонстрирует уже сейчас.
 
Aleksey Nikolayev #:

Отсюда же растут и ограничения модели. Например, задавал уже в ветке вопрос промптусам - может ли графический ИИ осмысленно изображать не просто одиночных персонажей или их несвязанные группы, а их взаимодействие - игра в теннис или совместное перетаскивание груза, например. Естественно, вопрос был проигнорирован промптусами. Если кто не верит пусть сам попробует попромптить свой любимый графический ИИ. На практике, продолжают по старинке юзать фотошоп.

Имхо, это вряд ли возможно на современном уровне по чисто комбинаторным соображениям. Например, если для обучения модели рисованию одиночных персонажей нужно, условно, 1000 индусов, то для рисования пар - уже 1000*1000=1е6. А если нужно обучать рисованию произвольных взаимодействий, то нужно число индсуов умножить (условно говоря) ещё на тысячу и в итоге их нужно уже 1е9.

При этом, любой средний художник справится с этой задачей, что явно показывает различия между И и "ИИ".

Видео, сгенерированные Sora. Там есть фестиваль с кучей людей, как кот мешает хозяйке спать и другое. Про это взаимодействие речь?

// Когда будет больше видео, то модель станет ещё умнее, до полного идеала. А любой стоп кадр - единичная генерация картинки.


 

Одни придумывают ограничения. Другие их ломают.

В этой ветке мы следим за прогрессом ИИ и нет никаких сомнений в том, что AGI будет создан в ближайшие годы.

Дата центры строят, технологии улучшают. Сейчас прогресс на самом начальном этапе, но за год был невероятный прорыв, а скептики всё что-то там плавают в своих фантазиях о невозможности прогресса.

 
Vitaliy Kuznetsov #:

Видео, сгенерированные Sora. Там есть фестиваль с кучей людей, как кот мешает хозяйке спать и другое. Про это взаимодействие речь?

// Когда будет больше видео, то модель станет ещё умнее, до полного идеала. А любой стоп кадр - единичная генерация картинки.


Посмотрите видео еще раз. Там внизу под каждым отрезком сначала пишут промпт, а затем указывают на косяки модели. Отличный пример - 7:00. Сюжет про раскопки стула. Написано, что модель не может воспроизвести точную физику стула когда несколько человек извлекают его из песка руками. То есть да, Николай сказал правильно. Модель не справляется со сложными взаимодействиями.

 
Andrey Dik #:
А некоторые возможности абстрагирования LLM демонстрирует уже сейчас.

Например?

 

Какой трек нарыл в Suno

https://suno.com/song/f5a86119-2283-4e9a-86ae-9c96476f1450


Сам попробовал создать на китайский мотив. Он там ещё спел что-то

https://suno.com/song/6eeced1d-d1cb-442f-afbb-01fcb0c7868f


 
Реter Konow #:
Николай сказал правильно. Модель не справляется со сложными взаимодействиями.

Что будет через год, два три? Есть уверенность, что проблема не будет решена?

Стоит сразу уточнить, что с многими взаимодействиями модель справляется и сейчас.

 
Aleksey Nikolayev #:

Например?


Помощь в написании кода. Сначала описывается абстрактно концепт проекта, а потом прорабатываются детали вглубь.
Или, пример, задача колонизации планеты роботами для последующей добычи ископаемых. Это нигде не описано, LLM предлагает сначала общий план и последовательно продолжает детализировать план, вплоть до последовательности от загрузки космического аппарата вплоть до детального развёртывания на планете.
 
Vitaliy Kuznetsov #:

Видео, сгенерированные Sora. Там есть фестиваль с кучей людей, как кот мешает хозяйке спать и другое. Про это взаимодействие речь?

// Когда будет больше видео, то модель станет ещё умнее, до полного идеала. А любой стоп кадр - единичная генерация картинки.


Посмотрите кусочек с котом покадрово, там ужас с лапами и никакого взаимодействия (кот не смотрит на хозяйку, например). При этом, любой ученик художественной школы сделает набросок кота смотрящего на хозяйку и трогающего её лапкой.
Причина обращения: