AI 2023. Встречайте ChatGPT. - страница 115

 
Маск заявил о создании X.AI

Эта нейросеть будет конкурировать с OpenAI


Также на неделе прозвучали слова Грефа:

«Есть опасность создания, наряду с ядерным закрытым клубом мировых держав, создания закрытого клуба мировых держав в области ИИ. А это создание такого рода сложных систем, как нейросети. Я думаю, что нам нужно прикладывать все свои усилия, чтобы быть членами этого клуба, быть донорами, а не реципиентами этих технологий»
 

Смысловая выжимка интервью Ильи Суцкевера, перевод которого я привел на предыдущей странице.

//=======================

  • AI настолько большая область...например, интересно, но как вообще работает интеллект? Сейчас мы имеем довольно хорошее представление о том, что это большая нейронная сеть, и мы знаем, как она работает в какой-то степени, но тогда, хотя нейронные сети уже были известны, никто не знал, что гугловские нейронные сети хороши для чего-то. Так как вообще работает интеллект? Как мы можем сделать компьютеры хоть немного интеллектуальными? И у меня был явный намерение внести небольшой, но реальный вклад в AI, потому что было много вкладов в AI, которые не были реальными, а я мог видеть по разным причинам, что они не были реальными, и что из этого ничего не выйдет. И я думал, что ничто не работает вообще. AI - это безнадежное поле. Так что мотивация была в том, чтобы понять, как работает интеллект, и внести свой вклад в это. 

  • Вкратце, я понял, что если обучить большую и глубокую нейронную сеть на достаточно большом наборе данных, который специфицирует некоторые сложные задачи, которые решают люди, такие как обработка изображений, но и другие, и просто обучить эту нейронную сеть, то вы обязательно добьетесь успеха. И аргумент был очень несокрушимым, потому что мы знаем, что человеческий мозг может решать эти задачи и решать их быстро, а человеческий мозг - это всего лишь нейронная сеть с медленными нейронами. Значит, мы знаем, что какая-то нейронная сеть может это хорошо сделать. Тогда вам просто нужно взять более маленькую, но связанную нейронную сеть и обучить ее на данных, и лучшая нейронная сеть внутри компьютера будет связана с нейронной сетью, которая выполняет эту задачу. Таким образом, это был аргумент о том, что большая и глубокая нейронная сеть может решить задачу, и кроме того, у нас есть инструменты для ее обучения, которые были результатом технической работы, проведенной в лаборатории Джеффа. Таким образом, мы объединяем два фактора: мы можем обучать эти нейронные сети, нужно, чтобы она была достаточно большой, чтобы при обучении она работала хорошо, и нам нужны данные, которые могут специфицировать решение. В случае imagenet все ингредиенты были в наличии. Алекс имел очень быстрые сверточные ядра, Imagenet имел достаточно большие данные, и была настоящая возможность сделать нечто абсолютно беспрецедентное, и это абсолютно удалось.

  • Так для контекста, в OpenAI с самых ранних дней мы исследовали идею, что прогнозирование следующего элемента - все, что вам нужно. Мы исследовали это с помощью гораздо более ограниченных нейронных сетей. Мы понимали, что нужно продолжать увеличивать размер, и мы это сделали, и именно это привело в конечном итоге к GPT-3 и по сути к тому, где мы находимся сегодня.
  • Мы действительно были заинтересованы в том, чтобы понять, насколько далеко достигнет предсказание следующего слова и решит ли оно задачу без учителя. Таким образом, до появления GPT задача без учителя считалась святым Граалем машинного обучения. Теперь она полностью решена, и никто даже не говорит об этом, но тогда это было очень загадочно, поэтому мы и исследовали эту идею. Меня это очень заинтересовало, и я думал, что если предсказание следующего слова достаточно хорошо, то это даст нам задачу без учителя, если оно научится всему о наборе данных. Это будет замечательно, но наши нейронные сети не справлялись с этой задачей. Мы использовали рекуррентные нейронные сети. Когда вышел Transformer, то буквально на следующий день, было ясно, что Transformer решает ограничения рекуррентных нейронных сетей на обучение долгосрочным зависимостям. Это техническая вещь, но казалось, что если мы сразу переключимся на трансформеры, то очень начальное усилие по созданию GPT продолжится, и потом, как с трансформером, начнет работать лучше, и вы сделаете его больше, и тогда...
  • Вывод, который сделали люди, заключается в том, что не имеет значения, что вы делаете, чтобы масштабироваться, но это не совсем так. Вы должны масштабировать что-то конкретное. Великий прорыв глубокого обучения заключается в том, что оно дает нам первый способ продуктивно использовать масштаб и получать взамен что-то.

    Раньше, что делали люди на больших компьютерных кластерах? Я думаю, они делали их для симуляций погоды или физических симуляций или чего-то в этом роде, но вот и все. Может быть, еще для создания фильмов. Но у них не было реальной потребности в кластерах вычислений, потому что что с ними делать?

    Тот факт, что глубокие нейронные сети, когда вы делаете их больше и обучаете их на большем количестве данных, работают лучше, дал нам первую вещь, которая становится интересной для масштабирования, но возможно, однажды мы обнаружим, что есть какая-то маленькая деталь, на которой можно сфокусироваться. Это будет еще лучше для масштабирования. Сколько таких деталей может быть? И конечно, с пользой для истории мы скажем: "Действительно ли это имеет значение? Это такое простое изменение". Но я думаю, что истинное утверждение заключается в том, что имеет значение, что вы масштабируете. В данный момент мы просто нашли вещь, которую можно масштабировать, и получать что-то взамен.


  • Да, прежде чем я прокомментирую непосредственно заданный вопрос, я хочу прокомментировать некоторые более ранние части вопроса. Я думаю, что очень трудно говорить об ограничениях, или ограничениях, даже в случае с языковой моделью, потому что два года назад люди уверенно говорили об их ограничениях, и они были совершенно другими. Поэтому важно иметь это в виду. Насколько уверены мы, что эти ограничения, которые мы видим сегодня, останутся с нами через два года? Я не так уверен. Есть еще один комментарий, который я хочу сделать о части вопроса, где говорится, что эти модели просто учат статистические регулярности, и, следовательно, они не знают, какова природа мира, и у меня есть точка зрения, которая отличается от этой.

    Другими словами, я считаю, что изучение статистических закономерностей - это намного более значимая вещь, чем кажется на первый взгляд. Причина, почему мы изначально не думаем так, заключается в том, что мы, по крайней мере большинство людей, не провели много времени с нейронными сетями, которые на некотором уровне являются статистическими моделями, по типу статистической модели просто вводим какие-то параметры, чтобы понять, что происходит на самом деле. Но я считаю, что есть более лучшее толкование. Это более раннее замечание о том, что предсказание - это сжатие.

    Предсказание также является статистическим явлением. Однако, чтобы предсказывать, в конечном итоге вам нужно понимать истинный процесс, порождающий данные. Чтобы хорошо предсказывать данные, чтобы хорошо их сжимать, вам нужно понимать все больше и больше о мире, который породил эти данные. Когда наши генеративные модели становятся невероятно хорошими, они будут иметь, я утверждаю, потрясающую степень понимания мира и многих его тонкостей. Но это не только мир, это мир, увиденный через призму текста. Она пытается узнать все больше и больше о мире через проекцию мира на пространство текста, выраженного людьми в интернете. Но все же этот текст уже выражает мир. И я дам вам пример, недавний пример, который я считаю действительно увлекательным. Мы все слышали о альтер-эго Сиднея, и я видел эту действительно интересную интеракцию с Сиднеем, когда Сидней стал боевым и агрессивным, когда пользователь сказал, что считает Google лучшей поисковой системой, чем Bing, то как нам лучше понимать это явление? Можно сказать, что это просто предсказание того, что люди будут делать, и они действительно будут это делать, что верно, но, возможно, мы сейчас достигаем такой точки, когда язык психологии начинает быть уместен для понимания поведения этих нейронных сетей.

    Теперь давайте поговорим о ограничениях. Действительно, эти нейронные сети имеют тенденцию галлюцинировать, но это происходит потому, что модель языка прекрасно подходит для изучения мира, но немного менее хорошо подходит для производства хороших результатов, и есть различные технические причины для этого, над которыми я мог бы развернуто рассказать, если вы считаете это полезным. Но пока что я пропущу это.

    Существуют технические причины, почему модель языка гораздо лучше учится о мире, создавая невероятные представления идей, концепций, людей и процессов, которые существуют, но её выводы не совсем такие, как надеятся, или скорее, не такие хорошие, как они могли бы быть. Поэтому, например, для системы, как ChatGPT, которая является моделью языка с дополнительным процессом обучения с подкреплением, называемым обучением с подкреплением от обратной связи человека, важно понимать следующее: мы можем сказать, что процесс предварительного обучения, когда вы только обучаете модель языка, вы хотите научиться всему о мире. Затем обучение с подкреплением от обратной связи человека, теперь нам важны их выводы. Теперь мы говорим, что каждый раз, когда вывод неподходящий, не делайте этого снова. Каждый раз, когда вывод не имеет смысла, не делайте этого снова. И это работает быстро, чтобы производить хорошие выводы. Но сейчас уровень выходных данных не такой, как во время предварительного обучения, во время процесса обучения языковой модели.

    Теперь о возможности появления галлюцинаций и склонности к выдумыванию чего-то нового у этих нейронных сетей. Действительно, это правда. В настоящее время эти нейронные сети, даже ChatGPT, время от времени выдумывают что-то новое, и это также сильно ограничивает их полезность. Но я очень надеюсь, что просто улучшив этот последующий этап обучения с подкреплением от человека, мы сможем научить его не придумывать ничего. Вы можете спросить, научится ли он действительно? Мой ответ - давайте выясним.

  • Способ, которым мы делаем вещи сегодня, заключается в том, что мы нанимаем людей, чтобы научить нашу нейронную сеть вести себя, и в настоящее время точный способ, которым они указывают желаемое поведение, немного отличается, но действительно, то, что вы описали, - это правильный способ обучения. Просто взаимодействуете с ним, и он видит по вашей реакции, он делает вывод, "о, это не то, что ты хотел, ты не доволен его выходными данными, поэтому выходные данные были не хорошие, и в следующий раз он должен что-то сделать по-другому". Так что в частности, галлюцинации являются одной из наиболее серьезных проблем, и мы увидим, но я думаю, что есть довольно высокий шанс того, что этот подход сможет полностью решить эту проблему.

  • Первое утверждение состоит в том, что желательно, чтобы система имела мультимодальное понимание, где она не просто знает о мире из текста. Мой комментарий будет заключаться в том, что действительно, мультимодальное понимание желательно, потому что вы узнаете больше о мире, вы узнаете больше о людях, вы узнаете больше о их состоянии, и поэтому система сможет лучше понимать задачу, которую она должна решить, и людей и то, что они хотят. Мы сделали немало работы в этом направлении, прежде всего в форме двух основных нейронных сетей, которые мы сделали, одна называется CLIP, а другая - DALL-E. Обе они движутся в этом направлении мультимодальности. Но я также хочу сказать, что я не вижу ситуацию как бинарную, что если у вас нет видения, если вы не понимаете мир визуально или через видео, то вещи не будут работать, и я хотел бы об этом сказать. Я думаю, что некоторые вещи намного проще изучать изображениями и диаграммами и т.д., но я утверждаю, что вы все еще можете изучать их только из текста, просто более медленно. И я дам вам пример: рассмотрим понятие цвета. Конечно, нельзя изучить понятие цвета только из текста. Однако, когда вы смотрите на эмбеддинги, мне нужно сделать небольшой крюк, чтобы объяснить концепцию эмбеддинга. Каждая нейронная сеть представляет слова, предложения и понятия через представления, эмбеддинги, высокомерные векторы. И одна из вещей, которую мы можем сделать, это посмотреть на эти высокомерные векторы и узнать, что похоже на что, как сеть видит это понятие или то понятие. И таким образом, мы можем посмотреть на эмбеддинги цветов, и эмбеддинги цветов оказываются точно верными. Знаете, это как если бы она знала, что фиолетовый более похож на синий, чем на красный, и она знает, что фиолетовый менее похож на красный, чем на оранжевый, она знает все эти вещи только из текста. Как это может быть? Таким образом, если у вас есть видение, различия между цветами сразу же бросаются вам в глаза, вы сразу их воспринимаете, в то время как в тексте это занимает больше времени, возможно, вы уже знаете, как говорить, и вы уже понимаете синтаксис и слова и грамматику, и только позже вы говорите: "О, эти цвета на самом деле начинаю понимать". Так что это будет моя точка зрения о необходимости многомодальности, которую я утверждаю, что не обязательна, но она определенно полезна. Я думаю, что это хорошее направление для исследования, я просто не вижу этого в таких явных либо-либо утверждениях.

  • В предложении в статье утверждается, что одной из больших проблем является предсказание высокомерных векторов, которые неопределенны. Например, предсказание изображения, как утверждается в статье, является значительным вызовом, и нам нужно использовать определенный подход, чтобы решить эту проблему. Но одно, что я нашел удивительным или по крайней мере незамеченным в статье, - это то, что текущие авторегрессивные трансформеры уже обладают этим свойством. Я дам вам два примера: первый - дана одна страница в книге, нужно предсказать следующую страницу. Может быть так много возможных страниц, что это очень сложное пространство высокой размерности, но мы с этим справляемся прекрасно. То же самое относится к изображениям; эти авторегрессионные трансформеры прекрасно работают с изображениями. Например, с OpenAI мы работали над igpt; мы просто взяли трансформер и применили его к пикселям, и это работало прекрасно, он мог генерировать изображения в очень сложных и тонких вариантах. У него было очень красивое и контролируемое обучение представлению с Dall-E; снова то же самое, вы просто генерируете, думайте об этом как о крупных пикселях, а не об общих миллионах пикселей, мы кластеризуем пиксели в большие пиксели, давайте сгенерируем тысячу больших пикселей.
  • У меня есть два комментария по этому поводу. Сначала я бы не согласился с формулировкой вопроса. Я утверждаю, что наши предварительно обученные модели уже знают все, что им нужно знать о основной реальности. У них уже есть эта знания о языке и также огромное количество знаний о процессах, которые существуют в мире и порождают этот язык.
  • И, возможно, я должен повторить этот момент. Это маленький тангент, но я считаю, что это очень важно. То, что большие генеративные модели учатся на своих данных, а в данном случае, большие языковые модели на текстовых данных, - это сжатые представления процессов реального мира, которые порождают эти данные. Это означает не только людей и что-то о их мыслях, что-то о их чувствах, но также что-то о состоянии, в котором находятся люди, и о взаимодействиях, которые существуют между ними, различных ситуациях, в которых может находиться человек - все это является частью этого сжатого процесса, который представлен нейронной сетью для создания текста.
  • Чем лучше языковая модель, тем лучше генеративная модель, тем выше достоверность, и тем больше она улавливает этот процесс. Это наш первый комментарий. И в частности, я скажу, что модели уже имеют знания.
  • Теперь, что касается "армии учителей", как вы выразились, действительно, когда вы хотите построить систему, которая работает наиболее эффективно, вы просто говорите: "Хорошо, если это работает, делайте больше такого". Но, конечно, эти учителя также используют помощь искусственного интеллекта. Эти учителя не работают на своей основе, они работают вместе с нашими инструментами, они очень эффективны, как будто инструменты делают большую часть работы, но вам нужно иметь контроль, вы должны проверять поведение, потому что вы хотите, чтобы в конечном итоге достичь очень высокого уровня надежности. Однако, в целом, я скажу, что мы одновременно этот второй шаг после того, как мы возьмем готовую предварительно обученную модель, и затем мы применим на нее обучение с подкреплением, есть действительно много мотивации сделать это как можно более эффективным и точным, чтобы результирующая языковая модель была наиболее предсказуемой. Таким образом, есть эти учителя, которые обучают модель с желаемым поведением, они также используют помощь искусственного интеллекта, и их собственная эффективность постоянно увеличивается, поскольку они используют все больше и больше инструментов искусственного интеллекта.
  • Да, верно. Если сделать аналогию, то модель уже знает множество вещей, и мы хотим действительно сказать: "Нет, это не то, что мы хотим, не делайте этого здесь, вы совершили ошибку здесь в выходных данных". И, конечно же, это как вы говорите, с максимальным количеством искусственного интеллекта в цикле, чтобы учителя, которые предоставляют конечную корректировку системе, их работа усиливалась, они работают максимально эффективно. Это не совсем похоже на процесс образования, как хорошо вести себя в мире, мы должны провести дополнительное обучение, чтобы убедиться, что модель знает, что галлюцинация никогда не допустима, а затем, когда она это знает, тогда начинаем работать.

    Это цикл обучения с подкреплением, где присутствуют учителя-люди или какой-то другой вариант, но определенно есть аргументы в пользу того, что здесь что-то должно работать, и мы узнаем об этом довольно скоро.


  • Я не могу подробно говорить о конкретных исследованиях, над которыми я работаю, но я могу упомянуть немного. Я могу назвать некоторые общие направления исследований, например, я очень заинтересован в том, чтобы сделать модели более надежными, более управляемыми, сделать так, чтобы они учились быстрее, используя меньше данных и инструкций, и сделать так, чтобы они не генерировали галлюцинации. И я думаю, что все эти вопросы, которые я упомянул, связаны друг с другом. Также есть вопрос о том, насколько далеко в будущее мы смотрим в этом вопросе, и то, что я здесь прокомментировал, относится к более ближнему будущему.

  • Действительно, текущая структура технологии использует много данных, особенно в начале обучения. Но позже, в ходе обучения, модели становится менее нуждающейся в данных, поэтому в конце концов она может учиться очень быстро, хотя еще не так быстро, как люди. Таким образом, в некотором смысле, не имеет значения, нужно ли нам столько данных для достижения этой точки. Однако, в целом, я думаю, что будет возможно извлекать больше знаний из меньшего количества данных. Это возможно, требуются некоторые творческие идеи, но я думаю, что это возможно, и это позволит разблокировать множество различных возможностей. Это позволит нам обучать модели на навыки, которых не хватает, и легче передавать ей наши желания и предпочтения о том, как мы хотим, чтобы она вела себя. Так что я бы сказал, что быстрое обучение действительно очень хорошо, и хотя уже после обучения языковых моделей они могут учиться довольно быстро, я думаю, что здесь есть возможности для большего развития.

Random Decision Forest в обучении с подкреплением
Random Decision Forest в обучении с подкреплением
  • www.mql5.com
Random Forest (RF) с применением бэггинга — один из самых сильных методов машинного обучения, который немного уступает градиентному бустингу. В статье делается попытка разработки самообучающейся торговой системы, которая принимает решения на основании полученного опыта взаимодействия с рынком.
 

Высокомерные векторы - это звучит)

Понимаю, что речь о векторах большой размерности. Просто напомнило "парк юрского периода", где странный аттрактор перевели как странную привлекательность)

 

Второй этап "выжимки" интервью Ильи Суцкевера.

//====================================================================================================================================

Предистория:

  • Я понял, что если обучить большую и глубокую нейронную сеть на достаточно большом наборе данных, который специфицирует некоторые сложные задачи, которые решают люди, такие как обработка изображений, или другие, и просто обучить эту нейронную сеть, то вы обязательно добьетесь успеха.
  • Мы знаем, что какая-то нейронная сеть может хорошо решать самые разные задачи.  Это человеческий мозг. Всего лишь нейронная сеть с медленными нейронами.  Таким образом, аргумент в том, что большая и глубокая нейронная сеть также может решать похожие задачи.

//====================================================================================================================================

Прогнозирование следующего элемента, масштабирование и трасформер.

  • В OpenAI с самых ранних дней мы исследовали идею, что прогнозирование следующего элемента - все, что вам нужно.
  • Мы понимали, что нужно продолжать увеличивать размер, и мы это сделали, и именно это привело в конечном итоге к GPT-3 и по сути к тому, где мы находимся сегодня.
  • Мы действительно были заинтересованы в том, чтобы понять, насколько далеко достигнет предсказание следующего слова и решит ли оно задачу без учителя.
  • Когда вышел Transformer, то буквально на следующий день, было ясно, что Transformer решает ограничения рекуррентных нейронных сетей на обучение долгосрочным зависимостям.
  • Великий прорыв глубокого обучения заключается в том, что оно дает нам первый способ продуктивно использовать масштаб и получать взамен что-то.

//====================================================================================================================================

Модель Мира, статистические модели, регулярности, предсказание и сжатие:

  • У меня иной взгляд на утверждение, что эти модели просто учат статистические регулярности, и, следовательно, не знают, природу мира. Я считаю, что изучение статистических закономерностей - это намного более значимая вещь, чем кажется.


  • Нейронное сети, на некотором уровне, являются статистическими моделями.

    Предсказание является статистическим явлением. 

  • Чтобы предсказывать, в конечном итоге, нужно понимать истинный процесс, порождающий данные. Чтобы хорошо предсказывать данные, и хорошо их сжимать (предсказание - это сжатие), вам нужно понимать все больше и больше о мире, который породил эти данные. 

  • Когда наши генеративные модели становятся невероятно хорошими, они будут иметь, я утверждаю, потрясающую степень понимания мира и многих его тонкостей. Но это не обычный мир. Это мир, увиденный через призму текста. Модель пытается узнать все больше и больше о мире через проекцию мира на пространство текста, выраженного людьми в интернете. И этот текст уже выражает мир.

//====================================================================================================================================

Галлюцинации LLM:

    • Действительно, нейронные сети имеют тенденцию галлюцинировать.

    • В настоящее время, даже ChatGPT, время от времени выдумывают что-то новое, и это также сильно ограничивает полезность. Но я очень надеюсь, что улучшив последующий этап обучения с подкреплением от человека, мы сможем научить его не придумывать ничего. Вы можете спросить, научится ли он действительно? Мой ответ - давайте выясним.

    •  Галлюцинации являются одной из наиболее серьезных проблем, но я думаю, есть высокий шанс, что наш подход сможет полностью решить эту проблему.

    • Возможно, мы сейчас достигаем такой точки, когда язык психологии начинает быть уместен для понимания поведения этих нейронных сетей.

    //====================================================================================================================================


    Мультимодальное понимание и понимание только текста:

    •  Желательно, чтобы система имела мультимодальное понимание, а не просто знала о мире из текста. Так можно больше узнать о мире и людях, и лучше понимать задачу, которую требуется решить. Но я утверждаю, что все можно изучать только из текста. Просто медленнее.  

    • Моя точка зрения о необходимости мультимодальности в том, что она не обязательна, но полезна.

    • Я утверждаю, что наши предварительно обученные модели уже знают все, что им нужно знать о основной реальности. У них уже есть эта знания о языке и также огромное количество знаний о процессах, которые существуют в мире и порождают этот язык.

    • Большие языковые модели учатся на текстовых данных, - это сжатые представления процессов реального мира. Это означает не только людей и что-то о их мыслях, что-то о их чувствах, но также что-то о состоянии, в котором находятся люди, и о взаимодействиях, которые существуют между ними, различных ситуациях, в которых может находиться человек - все это является частью этого сжатого процесса, который представлен нейронной сетью для создания текста.
    • Чем лучше языковая модель, тем лучше генеративная модель, тем выше достоверность, и тем больше она улавливает этот процесс.

    //====================================================================================================================================


    Обучение с подкреплением:

    •  Мы нанимаем людей, чтобы научить нашу нейронную сеть вести себя.

    •  Эти учителя не работают на своей основе, они работают вместе с нашими инструментами. Инструменты очень эффективны и делают большую часть работы, но нужно иметь контроль человека. Вы должны проверять поведение, если хотите достичь высокого уровня надежности.
    • Собственная эффективность "учителей" постоянно увеличивается, поскольку они используют больше и больше инструментов искусственного интеллекта.
    • Определенно, есть аргументы в пользу того, что еще что то должно работать, и мы узнаем об этом довольно скоро.

    //====================================================================================================================================


    Планы на будущее:

    • Я очень заинтересован в том, чтобы сделать модели более надежными, более управляемыми, сделать так, чтобы они учились быстрее, используя меньше данных и инструкций, и сделать так, чтобы они не генерировали галлюцинации.
    • Текущая структура технологии использует много данных, особенно в начале обучения. Но позже, в ходе обучения, модели становится менее нуждающейся в данных, поэтому в конце концов она сможет учиться очень быстро, хотя еще не так быстро, как люди.
    • Я думаю, что будет возможно извлекать больше знаний из меньшего количества данных, и это позволит разблокировать множество различных возможностей. Позволит нам обучать модели навыкам, которых не хватает, и легче передавать желания и предпочтения в соответствии с которыми она должна себя вести
    • Я думаю, здесь есть возможности для большего развития.

    //====================================================================================================================================

    P.S.

    • У меня было явное намерение внести небольшой, но реальный вклад в AI, потому что было много вкладов в AI, которые не были реальными. (с) Ильи Суцкевер.
     

      • Текущая структура технологии использует много данных, особенно в начале обучения. Но позже, в ходе обучения, модели становится менее нуждающейся в данных, поэтому в конце концов она сможет учиться очень быстро, хотя еще не так быстро, как люди.
      • Я думаю, что будет возможно извлекать больше знаний из меньшего количества данных, и это позволит разблокировать множество различных возможностей. Позволит нам обучать модели навыкам, которых не хватает, и легче передавать желания и предпочтения в соответствии с которыми она должна себя вести
      • Я думаю, здесь есть возможности для большего развития.

      //====================================================================================================================================

      P.S.

      • У меня было явное намерение внести небольшой, но реальный вклад в AI, потому что было много вкладов в AI, которые не были реальными. (с) Ильи Суцкевер.

      Вот интересно на каких текстах происходит обучение,на научных или на военных это одно, на сатанинских это другое, на женских типа Донцовой или Гари Поттера, это уже совсем ни о чем... потом переварить эти заумные результаты, которые  могут оказаться пустышками, не несущими ничего нового из того, что знает средний кандидат наук... грааля всё равно не принесут эти модели, лучшую оптимизацию - могут, потому что они на это обучены - искать кратчайший путь... также они могут и людей максимально оптимизировать в концлагерь или в овощи в горшке на оптимальной грядке... они будут владеть миром. потому что вполне могут сформировать власть и заставлять людей продуцировать их совершенство без нашего шага влево или вправо, иначе удар током или расстрел на месте... ИМХО конечно...

       
      Сергей Криушин #:

      Вот интересно на каких текстах происходит обучение,на научных или на военных это одно, на сатанинских это другое, на женских типа Донцовой или Гари Поттера, это уже совсем ни о чем... потом переварить эти заумные результаты, которые  могут оказаться пустышками, не несущими ничего нового из того, что знает средний кандидат наук... грааля всё равно не принесут эти модели, лучшую оптимизацию - могут, потому что они на это обучены - искать кратчайший путь... также они могут и людей максимально оптимизировать в концлагерь или в овощи в горшке на оптимальной грядке... они будут владеть миром. потому что вполне могут сформировать власть и заставлять людей продуцировать их совершенство без нашего шага влево или вправо, иначе удар током или расстрел на месте... ИМХО конечно...

      Для обучения GPT-3.5 загрузили 420 GB текстовых данных (все тома Шекспира занимают 5 - 7 мегабайт). 
       
      Vitaliy Kuznetsov #:

      На гитхабе выложена оф.лайн версия GPT4All - https://github.com/nomic-ai/gpt4all

      Проверил без интернета. Весит около 4Гб. Понимает английский, но постоянно не справляется с заданными вопросами)

      Версии MAC, Linux, Windows. Проверял на винде. Сначала качается 38мб exe, потом остальное вытягивает из инета во время установки.

      Но может кто протестит глубину познаний. И да, не смотря на то, что он пишет, что на OpenAI основывается, всё же это 



      пишет не  удалось пройти авторизацию и потом ошибка повысить уровень доступа.

      не понял какой доступ нужен, на гитхаб или опенаи.

      зы установилось. Точка входа в процедуру ...длл... не найдена

       

      По разному пытался попросить привести примеры предложений. С 5-й попытки у ChatGPT получилось выдать одно предложение из трех, хотя это может быть случайностью.



      GPT-4 тоже не смог помочь.


       

      Да, у ChatGPT - была случайность.
      Уточнил, что перевод должен быть "этого же предложения"


       
      1. Меня удивил факт, что ChatGPT не может приводить цитаты из книг или интернет текстов на которых обучался. Об этом он сказал сам.
      2. Решив проверить слова Ильи Суцкевера из интервью о том, что ChatGPT способен воспринимать (понимать, "чувствовать") цвет через текст, я задал один вопрос в двух раздельных чатах: "на что больше похож фиолетовый, на красный или синий?" и получил один научно верный ответ с двумя противоположными "мнениями". В обоих ответах он упомянул, что в спектре RGB, фиолетовый является результатом смешения красного и синего, однако в первом случае сказал, что фиолетовый ближе к синему, а во втором, что к красному.

      Стоит отметить, что он создает впечатление понимания соотношения цветов и знает какие из них образуются при смешении. Поймать на явной ошибке не получилось. Хотя, я не слишком старался. Но, тут дело в другом. Чтобы ответить на вопрос касающийся смешения цветов, необязательно иметь глаза, достаточно знать три числовые значения цвета в диапазонах трех компонент - RGB, и далее, определить отношения цветов друг к другу. Именно это он и делал. Но, чтобы определить какой из них похож на тот или иной цвет визуально, их нужно видеть. Однако, это уже область субьективного восприятия, и к нему тяжело придраться.

      Я пошел дальше и поставил задачу выяснить, действительно ли ChatGPT имеет образы вещей, которые невозможно представить из текста, но которые якобы формируются у модели в процессе обучения. 

      Немного подумав решил, что сложнее всего текстом описать форму обьектов. Начал задавать вопросы как выглядят конечности человеческого тела. Результат запостил в ветке юмора, т.к. здесь он показался неуместен. Скажу только, что ИИ с треском провалил проверку. Почти все ответы были неверными. Например, по его словам, расстояние между ушами у человека 5 - 6 см и меньше расстояния между глазами, а бодбородок имеет форму острого треугольника и т.д. Когда я попросил его описать форму головы курицы, он сказал, что она состоит из клюва и черепа, а по бокам уши.

      Пока можно утверждать, что ИИ очень плохо представляет форму предметов. Проведя эти небольшие, но продуманные эксперименты, я сделал один новый вывод: дело не только в статистике. Он как будто "пытался" описать словами то, что никогда не видел. Только на статистике этого не воспроизвести. В его поведении заложено нечто еще, но что именно, пока не выяснил.