Midjourney и другие нейросети обработки изображений - страница 468

 
Для полноты картины добавлю обьяснение как именно промпт отсылает алгоритм к нужным паттернам в стат.модели.

Все просто. В сеть загружают не просто 100 миллионов изображений. Каждое изображение имеет текстовое описание. Когда строится статистическая модель, то "куски" текстовых описаний "приклеиваются" к повторящимся паттернам. То есть, алгоритм устанавливает связь не только между цепочками последовательностей изображений, но и между частями их текстовых описаний, которым тоже назначаются веса.

 Поэтому когда человек посылает промпт, он активирует генератор, который через текстовые токены этого промпта выходит на привязанные к ним паттерны в стат.модели и использует их для построения нового изображения. Добавлю, что генератор "лепит" новую картинку используя метод предсказания следующего значения в числовом ряду на основе выбранных через промпт числовых паттернов.
 
Реter Konow #:
***

P.S.S. Как видим, никакого творчества кроме человеческого в этом процессе нет. А в машине работает алгоритм.

Промт может быть не точный.

Например: "стол". Какой можно представить стол? Каждый человек представляет разный стол, его размер, цвет, кол-во ножек. У разных людей разный "стол" в представлении, т.к. люди обучены по разным данным. Да и представлять могут разный стол в разных ситуациях и времени, но два человека никогда не представят один и тот же стол.

Нейросеть сгенерирует сотни разных столов с одного лишь промта, не повторяясь. Если бы информация была жёстко зашита, то результат бы не отличался. Однако с одного промта получить один и тот же результат практически невозможно.


Современное развитие ИИ началось непредсказуемо, т.к. никто не ожидал, что ИИ будет выдавать что-то похожее на логическое и последовательно изложение. А в принцип нейросети вошла технология, подсмотренная у нейронов мозга.


Да и не пофиг, что и как там настоящее и искусственное, если это реальный инструмент, заменяющий труд человека. В данном случае рерайт, копирайт, сео-оптимизация, создание музыки и картинок. И никаких авторских прав.

 
Реter Konow #:
Давайте разберем детально:

В сеть загрузили 100 миллионов изображений. Внутри нее они представлены цифровыми последовательностями записанными в массивах. 

Далее, строится статистическая модель. Алгоритмы анализируют числовые последовательности и вычленяют повторяющиеся паттерны. 

Паттерны имеют разную величину и связаны между собой в разных комбинациях, которые тоже повторяются и образуют большие паттерны. Те тоже связаны и сочетаются с определенной вероятностью. Все это подсчитывает алгоритм.

Связям паттернов назначаются веса в зависимости от крепкости. То есть, чем чаще появляется связь между паттернами в данных, тем тем больший вес она имеет. 

Для создания статистической модели ста миллионов изображений нужны коллосальные вычислительные мощности. Они есть у IT-гигантов.

После построения статистической модели, пишется генератор. Он воссоздает или смешивает последовательности из статистической модели и получается новое изображение.

Нужно добавить, что промпт человека "отсылает" алгоритм к нужным последовательностям в стат.модели, где тот находит требуемые для нового изображения числовые паттерны.

P.S. Описание технологии приблизительно и неточно. Я стремился передать общий принцип.

P.S.S. Как видим, никакого творчества кроме человеческого в этом процессе нет. А в машине работает алгоритм.

Точно так же работает мозг человека. Что человеку загрузишь в мозг, то и будет. Мозг - это просто аппроксиматор. Я приводил в пример новорождённого ребёнка, у него нет никаких "мыслей", только безусловные рефлекы но и они закодированы в хромосоме как описание построения простейшей нервной структуры. Если поместить ребёнка в волчью стаю, то такой ребёнок будет бегать на четвереньках и нюхать хвост сородичам, ничего он не сможет сделать, ни написать стихи, ни нарисовать фантастичные гибриды животных, ни прекрасный вид галактики. Ничего.

Человек способен на всё то, что мы представляем о человеке только тогда, когда он получает знания, только после того, как увидит как выглядят на картинках разные животные, звёзды и планеты на изображениях. Человек может сгенерировать что-то "новое" только аппроксимировав имеющиеся у него в голове данные, которые в него загружают целенаправленно в учебных заведениях, из книг, из визуального ряда воспринимаемого глазами, звукового ряда ушами и т.д.

Неужели это непонятно, что человек без знаний всеголишь кусок мяса (при этом, конечно, он не становится менее ценным, чем человек со знаниями)? Разница лишь в способе хранения информации.

Ещё разница в том, что связи в мозге активно формируются на основе получаемой информации, информация форматирует мозг. Ребёнок, не получивший возможность разговаривать до 5-7 лет как правило не способен в дальнейшем освоить речь.

Мозг имеет несколько отделов, имеющих различное строение и функции, это так же, как использование различных архитектур нейронных сетей для выполнения специфичных задач.

Я не говорю про искуственный интеллект и искуственное сознание как свершившейся факт, но хранение информации, её обработка, генерация новой информации путём аппроксимации имеющихся данных и последующей экстраполяции, ничем не отличается принципиально от того, как работает живой мозг. И как я говорил ранее, живой мозг гораздо более случайный, чем машинный, возмущающие факторы находятся прямо в организме.

Напомню, 99% населения обоих Америк было уничтожено просто потому, что абборигенов не считали за людей, потомучто у них небыло знаний, а значит их нельзя называть интеллектуальными и тем более разумными.

Так что, если приводите кучу информации из википедии (кстати, вы берёте информацию извне, загружаете себе в голову), то хотябы пытайтесь выстраивать логические цепочки в рассуждениях, с чем простейшая LLM справляется лучше и быстрее большинства людей.

 
Я выше описал. Стат.модель содержит не только миллионы частей самых разных изображений, но и текстовые описания. Это все разрублено, перемешано и связано. Промпт текстом указывает на элементы изображений в модели которые нужно использовать. Генератор вытаскивает последовательности и лепит статистическое подобие.

Потом не забывайте, что любой результат сети люди склонны воспринимать как проявление разума и творческого начала. 
 
Реter Konow #:
*

Потом не забывайте, что любой результат сети люди склонны воспринимать как проявление разума и творческого начала. 

Откуда это утверждение? И что главнее, в чём проблема то. С самого начала результат сети воспринимается как результат Искусственного Интеллекта. Если человек не понимает разницы между Интеллектом и Разумом, то это проблема тех людей, а не наша. Иногда устаёшь в этой ветке решать проблемы человечества. :) Отдыхать надо от этого иногда.

 
Есть мнение что мозг работает как описанная выше исскуственная нейросеть. Мол, делает ту же аппроксимацию и эктраполяцию. Оперирует загруженными данными визуального и звукового ряда. Отвечу на это мнение позже.
 
Реter Konow #:
Давайте разберем детально:

В сеть загрузили 100 миллионов изображений. Внутри нее они представлены цифровыми последовательностями записанными в массивах. 

Далее, строится статистическая модель. Алгоритмы анализируют числовые последовательности и вычленяют повторяющиеся паттерны. 

Паттерны имеют разную величину и связаны между собой в разных комбинациях, которые тоже повторяются и образуют большие паттерны. Те тоже связаны и сочетаются с определенной вероятностью. Все это подсчитывает алгоритм.

Связям паттернов назначаются веса в зависимости от крепкости. То есть, чем чаще появляется связь между паттернами в данных, тем тем больший вес она имеет. 

Для создания статистической модели ста миллионов изображений нужны коллосальные вычислительные мощности. Они есть у IT-гигантов.

После построения статистической модели, пишется генератор. Он воссоздает или смешивает последовательности из статистической модели и получается новое изображение.

Нужно добавить, что промпт человека "отсылает" алгоритм к нужным последовательностям в стат.модели, где тот находит требуемые для нового изображения числовые паттерны.

P.S. Описание технологии приблизительно и неточно. Я стремился передать общий принцип.

P.S.S. Как видим, никакого творчества кроме человеческого в этом процессе нет. А в машине работает алгоритм.

Упущена важная часть процесса обучения, необходимая даже для приблизительного его описания.

Обязательно должна быть стадия оценки исполнения промптов от реальных людей и учёт этих оценок для корректировки весов модели. Буквально, где-то сидит толпа индусов, задают промпты и оценивают результаты. Без этого этапа ничего не заработает. Именно отсюда растёт "интеллектуальность" моделей.

Отсюда же растут и ограничения модели. Например, задавал уже в ветке вопрос промптусам - может ли графический ИИ осмысленно изображать не просто одиночных персонажей или их несвязанные группы, а их взаимодействие - игра в теннис или совместное перетаскивание груза, например. Естественно, вопрос был проигнорирован промптусами. Если кто не верит пусть сам попробует попромптить свой любимый графический ИИ. На практике, продолжают по старинке юзать фотошоп.

Имхо, это вряд ли возможно на современном уровне по чисто комбинаторным соображениям. Например, если для обучения модели рисованию одиночных персонажей нужно, условно, 1000 индусов, то для рисования пар - уже 1000*1000=1е6. А если нужно обучать рисованию произвольных взаимодействий, то нужно число индсуов умножить (условно говоря) ещё на тысячу и в итоге их нужно уже 1е9.

При этом, любой средний художник справится с этой задачей, что явно показывает различия между И и "ИИ".

 
Реter Konow #:
Есть мнение что мозг работает как описанная выше исскуственная нейросеть. Мол, делает ту же аппроксимацию и эктраполяцию. Оперирует загруженными данными визуального и звукового ряда. Отвечу на это мнение позже.

Не надо, пожалуйста, википедию читать умеют все. Если хотите, то делайте это в своей, почему-то пустующей, ветке.

 
Andrey Dik #:

Точно так же работает мозг человека. Что человеку загрузишь в мозг, то и будет. Мозг - это просто аппроксиматор.

Ерунда написана. Человека отличает способность к абстрагированию, практически неограниченная. Понятно что самостоятельно создают новые абстракции далеко не все люди, но это особенность человека как вида. Дети-маугли могут быть лишены её, но самая умная обезьяна растущая среди людей не обретёт её.

 
Aleksey Nikolayev #:

Упущена важная часть процесса обучения, необходимая даже для приблизительного его описания.

Обязательно должна быть стадия оценки исполнения промптов от реальных людей и учёт этих оценок для корректировки весов модели. Буквально, где-то сидит толпа индусов, задают промпты и оценивают результаты. Без этого этапа ничего не заработает. Именно отсюда растёт "интеллектуальность" моделей.

Отсюда же растут и ограничения модели. Например, задавал уже в ветке вопрос промптусам - может ли графический ИИ осмысленно изображать не просто одиночных персонажей или их несвязанные группы, а их взаимодействие - игра в теннис или совместное перетаскивание груза, например. Естественно, вопрос был проигнорирован промптусами. Если кто не верит пусть сам попробует попромптить свой любимый графический ИИ. На практике, продолжают по старинке юзать фотошоп.

Имхо, это вряд ли возможно на современном уровне по чисто комбинаторным соображениям. Например, если для обучения модели рисованию одиночных персонажей нужно, условно, 1000 индусов, то для рисования пар - уже 1000*1000=1е6. А если нужно обучать рисованию произвольных взаимодействий, то нужно число индсуов умножить (условно говоря) ещё на тысячу и в итоге их нужно уже 1е9.

При этом, любой средний художник справится с этой задачей, что явно показывает различия между И и "ИИ".

Спасибо за дополнение. Мне как неспециалисту в области полезно узнать эти подробности. Очень информативно.