Обсуждение статьи "Случайные леса предсказывают тренды" - страница 9

 
Reshetov:
Ну вот взял все испортил ) . И как это так твой высокий ИИ сразу не распознал банальную сумму?
 
gpwr:

faa1947, покажите на примере внизу как работает ваша модель. Первый столбец - моделируемый ряд, 2-й и 3-й столбцы - предикторы. Какая предсказательная способность у этих предикторов?

-0.35742 0.461646 -0.81907
0.431277 0.004545 0.426731
-0.00018 -0.4037 0.403528
-0.08575 0.90851 -0.99426
0.773826 0.008975 0.764852
0.426905 -0.96485 1.391757
0.253233 0.487955 -0.23472
0.20994 0.880554 -0.67061
-0.09929 0.160276 -0.25956
0.332911 -0.08736 0.420268
0.032258 0.360106 -0.32785
0.253027 -0.06859 0.321621
-0.66668 -0.54985 -0.11683
-0.5476 -0.13231 -0.41529
-0.75652 0.536488 -1.29301
-0.66109 -0.87314 0.212052
-0.09993 -0.86293 0.763
0.014625 0.715032 -0.70041
-0.48345 -0.62666 0.143206
-0.03596 0.935653 -0.97161
-0.17023 0.678024 -0.84826
0.293376 0.079529 0.213847
0.002922 0.754594 -0.75167
0.329194 -0.05535 0.384546
0.639423 -0.41358 1.053007
0.431631 -0.60334 1.034973
0.59125 0.497989 0.093262
0.266098 -0.79645 1.062549
-0.02624 0.643164 -0.6694
0.055014 -0.46214 0.517154
0.436132 -0.89992 1.336052
-0.30143 0.628619 -0.93005
-0.12168 0.886467 -1.00814
-0.10851 -0.0507 -0.0578
-0.74573 -0.50921 -0.23653
-0.574 0.244825 -0.81883
-0.87313 0.336188 -1.20932
-0.00344 0.117363 -0.1208
-0.20265 0.424326 -0.62697
0.177873 -0.17967 0.357541

Я не являюсь универсальным специалистом-математиком. Стараюсь рассуждать очень конкретно, и на почве трейдинга получить выборку в 10000 строк не составляет труда. Делать какие-либо заключения на 40 строках я не умею и не вижу необходимости учиться, хотя все о чем я рассказываю применимо и для таких выборок. Для медицины 40 строк - это нормально.

1. Вообще я пишу о переобученности модели, в рамках которой возникла  "предсказательная способность". 

2. Занимаюсь предсказанием номинальных величин - "лонг-шорт". Это классификационные модели. Ваш пример, регрессионные модели, которыми я не занимаюсь .

Готов продолжить.

Мне надо котир, на котором можно провести ЗЗ и чтоб было несколько изломов. Отсюда нужен довольно большой файл.

Кроме самого котира несколько предикторов, пусть даже один. Я отвечу на вопрос: обладает ли этот предиктор предсказательной способностью "лонгов-шортов".

И, конечно, нужен файл - или Вы предлагаете набрать все вручную? 

 

TheXpert:

Reshetov:

 Секрет "высокой обобщающей способности" Вашей выборки раскрыт: значение первого столбца - это сумма значений двух остальных столбцов.


Ну вот взял все испортил ) . И как это так твой высокий ИИ сразу не распознал банальную сумму?

А он не предназначен для распознания сумм, поскольку строит модели для бинарной классификации, а задача из раздела множественной регрессии.

Хотя модель для бинарной классификации, но тем не менее, выражение:

double x0 = 2.0 * (v0 + 0.96485) / 1.900503 - 1.0;

double x1 = 2.0 * (v1 + 1.00814) / 2.399897 - 1.0;

y = 0.12981203254657206 + 0.8176828303879957 * x0 + 1.0 * x1 -0.005143248786272694 * x0 * x1;

упрощается до: y ~ v0 + v1

А далее всего лишь осталось проверить гипотезу в электронной таблице.

 

Добрый день, СанСаныч.

По вопросу недоученности,переучености  можно посмотреть драфт книги здесь http://www.iro.umontreal.ca/~bengioy/dlbook/

в разделе 5.3.3 очень хорошо описано всё. Вообще вся книга очень полезна, тем более написана корифеями.

Удачи 

 
vlad1949:

Добрый день, СанСаныч.

По вопросу недоученности,переучености  можно посмотреть драфт книги здесь http://www.iro.umontreal.ca/~bengioy/dlbook/

в разделе 5.3.3 очень хорошо описано всё. Вообще вся книга очень полезна, тем более написана корифеями.

Удачи 

Добрый день!

Спасибо за ссылку.

У меня имеется полный набор инструментов и подбор литературы по этому вопросу. Но это не облегчает практическое применение.

Если желаете, могу поделиться в надежде довести весь этот инструментарий до автоматизма вместе. 

 
faa1947:

Добрый день!

Спасибо за ссылку.

У меня имеется полный набор инструментов и подбор литературы по этому вопросу. Но это не облегчает практическое применение.

Если желаете, могу поделиться в надежде довести весь этот инструментарий до автоматизма вместе. 

Я программно решаю эту проблему. Результаты нормальные.

Удачи 

 
faa1947:

Я не являюсь универсальным специалистом-математиком. Стараюсь рассуждать очень конкретно, и на почве трейдинга получить выборку в 10000 строк не составляет труда. Делать какие-либо заключения на 40 строках я не умею и не вижу необходимости учиться, хотя все о чем я рассказываю применимо и для таких выборок. Для медицины 40 строк - это нормально.

1. Вообще я пишу о переобученности модели, в рамках которой возникла  "предсказательная способность". 

2. Занимаюсь предсказанием номинальных величин - "лонг-шорт". Это классификационные модели. Ваш пример, регрессионные модели, которыми я не занимаюсь .

Готов продолжить.

Мне надо котир, на котором можно провести ЗЗ и чтоб было несколько изломов. Отсюда нужен довольно большой файл.

Кроме самого котира несколько предикторов, пусть даже один. Я отвечу на вопрос: обладает ли этот предиктор предсказательной способностью "лонгов-шортов".

И, конечно, нужен файл - или Вы предлагаете набрать все вручную? 

Понятно. Проверить переобученность модели довольно просто, сравнивая её поведение на обучающей выборке и вне. А вот как сделать модель не переобученной зависит от нашей возможности определить какие предикторы-входы имеют отношение к моделируемому ряду а какие нет, что намного сложнее определения переобученности. Способность обобщения моделью зависит от её переобученности. Пример который я привёл очень простой. Моделируемый ряд y это зашумлённая синусоида. Первый предиктор x1 это случайные числа. Второй предиктор x2 это разница x2 = y-x1. Иначе говоря, модель точно описывается суммой предикторов y = x1+x2. То что вы отказались применить свой метод к данному простому примеру только вызывает подозрение что ваш метод не способен определить релеватность данных, а определение этой релеватности как раз и является главной целью определения переобученности и её устранения. Реальные задачи моделирования намного сложнее моего примера - они включают как релеватные данные так и намного больше нерелеватных данных. Отсеивание одних от других неимоверно сложно. Нейронная сеть со всеми входами будет обучена иметь соединения к релеватным и нерелватным входам и таким образом будет переобучена. Так как определить релеватность данных вы видимо не умеете, то интереса у меня к вашим статьям и книгам нет. Успехов!
 
gpwr:

Проверить переобученность модели довольно просто, сравнивая её поведение на обучающей выборке и вне.

Это большие иллюзии и как я понимаю еще Вами не оплаченные. Приведенная в статье модель имеет одинаково хорошие результаты на трех выборках вне обучения - но эта модель переобучена.

 А вот как сделать модель не переобученной зависит от нашей возможности определить какие предикторы-входы имеют отношение к моделируемому ряду а какие нет, что намного сложнее определения переобученности.

Сначала читаем внимательно статью  - таблица 3 приводит знАчимость предикторов при  предсказании целевой переменной

А затем учим матчасть, например, изучаем специализированные пакеты по выбору предикторов varSerf, Boruta, FSelector. А пакет CORElearn имеет 35 (!) разных алгоритмов по выбору предикторов, которые имеют значение для целевой переменной.  

Из моего опыта по отбору предикторов, имеющих значение для целевой переменной.

1. формируем довольно большой набор предикторов, например штук 50 с количество баров 15000

2. С помощью одного из указанных алгоритмов на этих 15 тысячах баров отбираем предикторы - получается обычно от 15 до 20 штук, который используются при построении модели чаще, чем в 20% случаев.

3. Затем берем меньшее окно, например 2000 баров и начинаем его двигать по одному бару, отбирая знАчащие предикторы из отобранных ранее 20 из 50.

4. Конкретный перечень знАчащих предикторов все время меняется. 

 Так как определить релеватность данных вы видимо не умеете, то интереса у меня к вашим статьям и книгам нет.  

Эффективность использования указанных пакетов в Ваших руках сильно возрастет, если потратите небольшую сумму на мою книгу, которая объясняет зачем это нужно и как это понимать и реальными примерами на реальных данных.

А еще больший эффект будет если мы с Вами вместе попытаемся создать не переобученную модель на Ваших предикторах. Успех не гарантирован, но гарантируется, что столь поверхностных постов после общения со мной Вы писать не будете. Более того, будете гораздо осторожнее на реальных счетах. 

 
faa1947:

1. формируем довольно большой набор предикторов, например штук 50 с количество баров 15000

Ну, теперь понятно, почему вы зарабатываете деньги продажей своей книги, а не трейдингом.

 
faa1947:

Это большие иллюзии и как я понимаю еще Вами не оплаченные. Приведенная в статье модель имеет одинаково хорошие результаты на трех выборках вне обучения - но эта модель переобучена.

Переобученность это устоявшийся и вполне конкретный термин. Вы его мало того что подменяете так еще и не объясняете что это такое в вашем понимании.

Очень султона напоминает ) по манере общения.

Причина обращения: