Что подать на вход нейросети? Ваши идеи... - страница 62

 

Обучение - это процесс, а не результат.

Не может быть 100% или 50% обучения. Нет таких категорий.

Качество обучения проверяется только на валидации и тесте, как ученик усвоил уроки. Оно не проверяется на трейне, когда ученик просто повторяет за учителем или читает свой конспект.

Способность как к обучению так и к запоминанию разная у всех моделей, не надо сводить все к деревьям и лесам.

И здесь происходит магия, когда более тупой ученик (модель) часто лучше предсказывает, чем умный. Все как в жизни. И этому есть обоснование.

Все это написано в теории машинного обучения, о которой никто из здесь присутствующих даже не слышал, хотя это основа основ.

В мире МО творится магия, но никак не весь этот ваш бред.
 
mytarmailS #:
Это раздел оптимизации о минимизации шумной функции. Noise function optimization или что то типа того, пишу по памяти. 
На самом деле все уже придумано, если трейдер делает какой то ноу хау то это скорей от безграмотности.

А Сабер просто делал раннюю остановку те банально и примитивно и врятли там плато какое то находилось скорей просто спокойствие для души.
Один из примеров шумной оптимизации

Как я понимаю общая философия подхода такая : 
1. Есть модель которая изучает шум оптизируемой функции (в разных участках он разный) и предсказывает его.
2. Считаеться некое среднее от значения + предсказный шум.

3. Получаем так называемое плато, а не абсолютное значение
 
Forester #:

Вернусь к технической реализации...

Оптимизация присутствует при выборе сплита в дереве. Есть разные формулы для этого.
В случае с 100%-ным обучением дерева эта оптимизация определяет только путь по которому шли к абсолютному заучиванию данных. На качество заучивания она не влияет, оно 100%-ное. Истинное обучение понимаю только как 100%-ное. Поэтому обучение (точное запоминание тому чему учат) != оптимизации.

Но если недообучили, т.е. остановили сплитование до полного заучивания, то можем остановиться на разных вариантах этого пути - тогда модели и качество обучения (степень недообученности) будет разным при разных алгоритмах выбора сплита, при разной глубине обучения, разном числе примеров в листе.
Недообучать -  плохая идея в случае обучения однозначным/точным данным (табл. умножения, закон Ома и т.д.). Чем больше примеров дашь на запоминание/обучение тем точнее будет ответ на новых данных.

Но в  ситуации с рыночными данными, чтобы не запоминать шум приходится останавливаться раньше, оценивать и выбирать кого-то из этих недоучек.
В итоге получается, что оптимизация и оценка нужны недоученым/несовершенным моделям. Абсолютно точной БД оценка не нужна, в ней есть всё, чему хотели обучить.

Разверните следующую мысль:

Задание 1:
Существует арифметика и одна из её операций - умножение. И есть числа от 0 до 9. Выучи правило умножения, составь таблицу умножения, перемножив два числа друг на друга, и выучи таблицу умножения. 

Задание 2:
Существует таблица умножения. Вот она
... 
... 
... 
Выучи её. 


Во втором варианте обучаемый не знает правило умножения, но знает правильные ответы. 


И то и другое - обучение? 

Если нет, то как бы вы классифицировали (описали) подобные мероприятия
 
Maxim Dmitrievsky #:

Ну не так ведь. Точность ответов на новых данных (а под новыми данными понимаются другие данные, нежели обучающие) будет зависеть от свойств каждой конкретной модели, а не от количества обучающих примеров.

Если рассматривать случай с закономерными данными. Табл. умножения например. То чем больше примеров дадите, тем точнее будут ответы на новых данных.
Новые данные не должны быть совсем другими, а между обучающими примерами. Т.е. интерполяция пройдет более-менее хорошо. 1 дерево даст ближайший обучающий пример. Если под другими данными понимаете данные за границами обучающих данных, то это уже экстарполяция. Дерево даст крайний пример, т.к. он самый ближний.

Если рассматривать рыночные данные, то при большом значении шума, любой пик от истинной закономерности будет смешан с шумовыми пиками и нам надо как-то выбрать истинны пик, а не шумовой.
Тут  ваши утверждения верны.

 
Forester #:

Если рассматривать случай с закономерными данными. Табл. умножения например. То чем больше примеров дадите, тем точнее будут ответы на новых данных.
Новые данные не должны быть совсем другими, а между обучающими примерами. Т.е. интерполяция пройдет более-менее хорошо. 1 дерево даст ближайший обучающий пример. Если под другими данными понимаете данные за границами обучающих данных, то это уже экстарполяция. Дерево даст крайний пример, т.к. он самый ближний.

Если рассматривать рыночные данные, то при большом значении шума, любой пик от истинной закономерности будет смешан с шумовыми пиками и нам надо как-то выбрать истинны пик, а не шумовой.
Тут  ваши утверждения верны.

Нам ничего не известно про отсутствие или наличие закономерностей. Мы просто делаем обучение и говорим о том же.

Говорим про общепринятый подход и что он означает (магию). Магия обучения контринтуитивна для обывателя, потому что пипл не вкуривает :)

Почему важно не переобучить, почему важно не не дообучить. Почему важно уменьшать кол-во признаков и параметров. и т.д. и т.д.
Что подать на вход нейросети? Ваши идеи...
Что подать на вход нейросети? Ваши идеи...
  • 2024.09.12
  • Maxim Dmitrievsky
  • www.mql5.com
Попробовал подавать на вход: — цены закрытия — разность цен закрытия N свечей подряд — разность цен закрытия N свечей подряд со всех пар-союзников...
 
Ivan Butko #:
Разверните следующую мысль:

Задание 1:
Существует арифметика и одна из её операций - умножение. И есть числа от 0 до 9. Выучи правило умножения, составь таблицу умножения, перемножив два числа друг на друга, и выучи таблицу умножения. 

Задание 2:
Существует таблица умножения. Вот она
... 
... 
... 
Выучи её. 


Во втором варианте обучаемый не знает правило умножения, но знает правильные ответы. 


И то и другое - обучение? 

Если нет, то как бы вы классифицировали (описали) подобные мероприятия

И то и другое обучение. В 1м случае обучают правилу/закону. Во 2м случае заучиваются ответы из 1-го.
Естественно обучение правилам, формулам законам более эффективно, т.к. владея маленькой формулой можно получить миллионы ответов не запоминая их.
Вот и тут на форуме были ветки по законы рынка и граали. Может закон и есть, но шум перекрывает его(

 
Forester #:

И то и другое обучение. В 1м случае обучают правилу/закону. Во 2м случае заучиваются ответы из 1-го.
Естественно обучение правилам, формулам законам более эффективно, т.к. владея маленькой формулой можно получить миллионы ответов не запоминая их.
Вот и тут на форуме были ветки по законы рынка и граали. Может закон и есть, но шум перекрывает его(

Снова шум. 

Все говорят о шуме. 

Но как можно определить шум, если неизвестны правила и законы?

А если каждый тик - это и есть составляющая правил и законов и проблема состоит в неспособности архитектур расшифровывать "код" графика? 

Тут похоже на постулат (идея о шуме на графике цены)

 
Forester #:

Если рассматривать случай с закономерными данными. Табл. умножения например. То чем больше примеров дадите, тем точнее будут ответы на новых данных.
Новые данные не должны быть совсем другими, а между обучающими примерами. Т.е. интерполяция пройдет более-менее хорошо. 1 дерево даст ближайший обучающий пример. Если под другими данными понимаете данные за границами обучающих данных, то это уже экстарполяция. Дерево даст крайний пример, т.к. он самый ближний.

Если рассматривать рыночные данные, то при большом значении шума, любой пик от истинной закономерности будет смешан с шумовыми пиками и нам надо как-то выбрать истинны пик, а не шумовой.
Тут  ваши утверждения верны.

Ivan Butko #:

Снова шум. 

Все говорят о шуме. 

Но как можно определить шум, если неизвестны правила и законы?

А если каждый тик - это и есть составляющая правил и законов и проблема состоит в неспособности архитектур расшифровывать "код" графика? 

Тут похоже на постулат (идея о шуме на графике цены)

О шуме и закономерностях

Неизвестно, каково наличие и количество шума в рыночных данных, а также существуют ли закономерности и в каком объеме.

Об обучении, запоминании и сохранении

Сохранение. Если данные просто записываются в переменные без оценки их качества, это можно назвать сохранением. Примером служит обычная запись данных в переменные (базу данных, таблицу, матрицу и т.д.).

Запоминание. Если в процессе сохранения осуществляется оценка качества, это уже запоминание. Например, оценка процента правильных ответов из числа запоминаемых вопросов. В этом случае чем больше примеров, тем шире охват возможного применения. Например, для задания 2 x 8 ответ будет 16, а для 18 x 67 ответ может быть любым, поскольку этот вопрос не был включен в примеры.

Обучение. На основе сохранённых и запомненных данных возможно обучение с оценкой качества. Обучение представляет собой процесс формирования правил обработки запомненных данных. Например, тренировка применения правила умножения столбиком. Здесь нужно запомнить лишь минимально необходимую информацию (таблицу умножения), а с помощью правила столбиком можно умножать любые комбинации чисел, включая 18 x 67 и даже 1.657875 x 3.876754.

Примером обучения могут служить GPT-подобные модели, которые не просто запоминают данные, но и применяют правила обработки различных данных, выполняя вычисления, такие как умножение столбиком.

Теперь, разобравшись с понятиями обучения, запоминания и сохранения, можно задать вопрос: где в машинном обучении (не затрагивая GPT-подобные модели) применяется обучение для анализа рыночных данных?

P.S. Это базовые вещи, позже мы перейдём к важности оценки и другим интересным аспектам.

P.P.S. Переобученность, недообученность и подобные состояния не могут быть оценены ни количественно, ни качественно, поэтому говорить о них предметно и осмысленно практически не имеет смысла.

 
Andrey Dik #:

Запоминание. Если в процессе сохранения осуществляется оценка качества, это уже запоминание. 

БД, деревья и кластеры запомнившие информацию на 100% не нуждаются в оценке. Но вы можете проверять чему равно 3*3 перебирая все возможные варианты. Дело ваше и время... я займусь более важными вещами.

P.P.S. Переобученность, недообученность и подобные состояния не могут быть оценены ни количественно, ни качественно, поэтому говорить о них предметно и осмысленно практически не имеет смысла.

Только недоученным моделям и нужна оценка.

 
Forester #:

1. БД, деревья и кластеры запомнившие информацию на 100% не нуждаются в оценке.

2. Только недоученным моделям и нужна оценка.

1. Если нет оценки, значит процесс сохранения, а не запоминания. Выше показал разницу.

2. Как определить, какая и когда модель "недоученная" и насколько?