Поясните на пальцах, как реализовать обучение без учителя или с подкреплением

 
Обучение с учителем понятно: в справочнике есть нейросеть, которая решает уравнение.
Есть переменная с фактическим значением, и результат перемножения весов на входные/выходные данные сравнивается с этим фактическим значением. Более простой пример описан бразильцем в статье про перцептрон. Прямой проход——сравнение с фактом——обратный проход с корректировкой весов. Окей. 
Гоняю такую нейросеть по истории, она её заучивает, вплоть до 100% угадывает цвет следующей свечи. Но, как только выходит в форвард, результат с первой же свечки 50%. Вообще не работает. Даже если обучить на результативность 60%, все равно на форварде 50. 


А как быть с обучением без фактических данных? Как это описать? Не могу сообразить. 

Представляется так: каждую свечу делать предположение, что она будет вверх, и, если она вниз, то... что, то? Не пойму. Записывать в переменную, что на этой свече не вверх, а вниз? Потом на следующей итерации предположить, что она вниз? Тогда я просто записываю историю. По сути тоже самое.
 
каждую свечу делать предположение, что она будет вверх, и, если она вниз, то не вверх )
 
Petr Baskakov #:
каждую свечу делать предположение, что она будет вверх, и, если она вниз, то не вверх )

Да, я просто не понимаю алгоритм. Логическая разница методов. Подавать на вход - надо ли? Или система сама должна внутри себя что-то выстроить на основе принятия двух/трёх решений: вверх, вниз, ожидать(ничего не делать), и отдачи/отклика "среды" (графика) в виде "неа" и "угадал!". А если подавать на вход, то для чего? Что нейронка будет делать с входными данными, если нет обратного распространения ошибки, нет корректировки весов. 

 

Да вся научная терминология - бред бухого. Не ищите смысла в названии - его там нет. 

Относишь текущий  паттерн к какому-нибудь классу. Потом смотришь результат - угадал или не угадал. Соответственно + или - к рейтингу паттерна (класса).
 
Обуч с подкреплением не для таких простых задач оптимизационных. Он используется там, где действия агента влияют на среду, тогда возникает множество состояний и нужно найти хорошие переходы. Когда не можете сходу проложить путь из точки А в точку Б не потеряв хитпойнты. Просто давать вознаграждение за правильно открытые сделки это конечно бессмысленно, когда это можно за 1 проход сделать.

В нашем случае голосуй-не голосуй, все равно получишь.. одни и те же состояния-котировки 

Попросите Дмитрия, который статьи пишет, делать в конце статьи нормальные тесты, а не огрызки какие-то. Тогда все понятно станет :)

 
Dmitry Fedoseev #:

Да вся научная терминология - бред бухого. Не ищите смысла в названии - его там нет. 

Относишь текущий  паттерн к какому-нибудь классу. Потом смотришь результат - угадал или не угадал. Соответственно + или - к рейтингу паттерна (класса).

Спасибо за идею

Звучит интересно. Я уже пробовал подобное (собирал статистику), но только статистику на 1 бедующую свечу вперёд. Не пробовал несколько
 
Maxim Dmitrievsky #:
Обуч с подкреплением не для таких простых задач оптимизационных. Он используется там, где действия агента влияют на среду, тогда возникает множество состояний и нужно найти хорошие переходы. Когда не можете сходу проложить путь из точки А в точку Б не потеряв хитпойнты. Просто давать вознаграждение за правильно открытые сделки это конечно бессмысленно, когда это можно за 1 проход сделать.

В нашем случае голосуй-не голосуй, все равно получишь.. одни и те же состояния-котировки

Спасибо за информацию


Maxim Dmitrievsky #:

Попросите Дмитрия, который статьи пишет, делать в конце статьи нормальные тесты, а не огрызки какие-то. Тогда все понятно станет :)

Ахаха)))

Одно большое разочарование: поскольку автор не выкладывает файлы моделей (.nnw), то пришлось поломать голову в тексте статей о том, как их создавать, потратив много времени. И, когда автор частично пояснил, как создавать модель к конкретной статье, то... результат был плачевный: после всех мероприятий, когда нажимаешь кномку "Старт" в тестере, этак, раз 10. 10 раз результат РАНДОМНЫЙ! И, ладно бы, все в +, как в конце статьи графики. Нет, 50 на 50, часть в + часть в -. Не работает, я в шоке)) От потраченного времени.

UPD

Я почему ещё спросил про подкрепление: наткнулся месяц назад на хабре, по-моему, на статью, где была приложена работа зарубежных исследователей МО, где опубликованы результаты работы нейросети на форвардах (пдф, всё на английском, много красивых формул): 59-60% профитных сделок на долгосроке, соотношение СД/ТП неважно, поскольку в итоге в + торгуют. Мол, только с подкреплением такое возможно.
 
Ivan Butko #:
UPD

Я почему ещё спросил про подкрепление: наткнулся месяц назад на хабре, по-моему, на статью, где была приложена работа зарубежных исследователей МО, где опубликованы результаты работы нейросети на форвардах (пдф, всё на английском, много красивых формул): 59-60% профитных сделок на долгосроке, соотношение СД/ТП неважно, поскольку в итоге в + торгуют. Мол, только с подкреплением такое возможно.
Ну статьям верить это тоже такое себе, может они заказные. Есть тесты разных РЛ алогоритмов для трейдинга на питоне, на гитхабе можно найти, со всеми исходниками 

Результаты каждый раз и будут случайными, потому что агент исследует среду случайным образом обычно. Но в конце все должны сходиться к чему-то похожему, если долго обучать. Там наверное агент продолжает обучаться в тестере при каждом запуске, поэтому по разному все время