Midjourney и другие нейросети обработки изображений - страница 469
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Ерунда написана. Человека отличает способность к абстрагированию, практически неограниченная. Понятно что самостоятельно создают новые абстракции далеко не все люди, но это особенность человека как вида. Дети-маугли могут быть лишены её, но самая умная обезьяна растущая среди людей не обретёт её.
Отсюда же растут и ограничения модели. Например, задавал уже в ветке вопрос промптусам - может ли графический ИИ осмысленно изображать не просто одиночных персонажей или их несвязанные группы, а их взаимодействие - игра в теннис или совместное перетаскивание груза, например. Естественно, вопрос был проигнорирован промптусами. Если кто не верит пусть сам попробует попромптить свой любимый графический ИИ. На практике, продолжают по старинке юзать фотошоп.
Имхо, это вряд ли возможно на современном уровне по чисто комбинаторным соображениям. Например, если для обучения модели рисованию одиночных персонажей нужно, условно, 1000 индусов, то для рисования пар - уже 1000*1000=1е6. А если нужно обучать рисованию произвольных взаимодействий, то нужно число индсуов умножить (условно говоря) ещё на тысячу и в итоге их нужно уже 1е9.
При этом, любой средний художник справится с этой задачей, что явно показывает различия между И и "ИИ".
Видео, сгенерированные Sora. Там есть фестиваль с кучей людей, как кот мешает хозяйке спать и другое. Про это взаимодействие речь?
// Когда будет больше видео, то модель станет ещё умнее, до полного идеала. А любой стоп кадр - единичная генерация картинки.
Одни придумывают ограничения. Другие их ломают.
В этой ветке мы следим за прогрессом ИИ и нет никаких сомнений в том, что AGI будет создан в ближайшие годы.
Дата центры строят, технологии улучшают. Сейчас прогресс на самом начальном этапе, но за год был невероятный прорыв, а скептики всё что-то там плавают в своих фантазиях о невозможности прогресса.
Видео, сгенерированные Sora. Там есть фестиваль с кучей людей, как кот мешает хозяйке спать и другое. Про это взаимодействие речь?
// Когда будет больше видео, то модель станет ещё умнее, до полного идеала. А любой стоп кадр - единичная генерация картинки.
Посмотрите видео еще раз. Там внизу под каждым отрезком сначала пишут промпт, а затем указывают на косяки модели. Отличный пример - 7:00. Сюжет про раскопки стула. Написано, что модель не может воспроизвести точную физику стула когда несколько человек извлекают его из песка руками. То есть да, Николай сказал правильно. Модель не справляется со сложными взаимодействиями.
А некоторые возможности абстрагирования LLM демонстрирует уже сейчас.
Например?
Какой трек нарыл в Suno
https://suno.com/song/f5a86119-2283-4e9a-86ae-9c96476f1450
Сам попробовал создать на китайский мотив. Он там ещё спел что-то
https://suno.com/song/6eeced1d-d1cb-442f-afbb-01fcb0c7868f
Николай сказал правильно. Модель не справляется со сложными взаимодействиями.
Что будет через год, два три? Есть уверенность, что проблема не будет решена?
Стоит сразу уточнить, что с многими взаимодействиями модель справляется и сейчас.
Например?
Видео, сгенерированные Sora. Там есть фестиваль с кучей людей, как кот мешает хозяйке спать и другое. Про это взаимодействие речь?
// Когда будет больше видео, то модель станет ещё умнее, до полного идеала. А любой стоп кадр - единичная генерация картинки.
Посмотрите кусочек с котом покадрово, там ужас с лапами и никакого взаимодействия (кот не смотрит на хозяйку, например). При этом, любой ученик художественной школы сделает набросок кота смотрящего на хозяйку и трогающего её лапкой.