Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1911

 
Mihail Marchukajtes:
Да Максим извини, это был не твой файл обучения, но смысл посыла я думаю ясен. Ну не могут 24 столбца объяснить 2000 векторов без повторов. Это просто физически не возможно....


в след. раз станцую

 
Maxim Dmitrievsky:

в след. раз станцую

vtreet не использует рса, там вообще не об этом. Я сам не понял что они делают ,

они предобрабатывают пропущенные знч. итп  + они создают новые фичи но не позиционируют это как feature induction так же они считают как то значимость фичей но не позиционируют это как feature selection , так что я хз что это и как это работает.



По поводу "РСА линейный и то что ты там на пцашил можно просто выкинуть в мусор"

Тут поспорю, я могу собрать цену из РСА разложения на новых данных с точностью +- 98% 

могу доказать, так что тут ты ошибаешься, может даже и круто что он линейный, иначе не собрал бы.

 
Maxim Dmitrievsky:


в след. раз станцую

В целом с терминологией согласен где столбцы это входы (объясняющие переменные), строки это вектора обучения или примеры. Вполне возможно что для некоторых алгоритмов обучения это критично когда строк меньше столбцов, НО когда строк становится больше чем столбцов у тебя появляются близ лежащие одинаковые примеры которые притягивают модель в область переобучения. Не возможно описать 350 примеров (строк) с помощью 24 объясняющих переменных (столбцов) и не допустить повторов.

РСА в обще не использую ни каким способом, это был просто пример для другого юзера. С помощью него можно оценить полученный набор насколько он способен быть разделён.


П.С. Под..еб с песенкой засчитан. Молодец!

 
То есть теоретически самая крутая матрица для обучения квадратная, когда количество столбцов и строк одинаково.... ХМ... Кстати это навело на мысль брать такое количествоп римеров для обучение где после пред обработки остаётся такое же количество столбцов.... Это мысль... так то.... В квадратной матрицы 100% нет повторов....
 
Mihail Marchukajtes:

В целом с терминологией согласен где столбцы это входы (объясняющие переменные), строки это вектора обучения или примеры. Вполне возможно что для некоторых алгоритмов обучения это критично когда строк меньше столбцов, НО когда строк становится больше чем столбцов у тебя появляются близ лежащие одинаковые примеры которые притягивают модель в область переобучения. Не возможно описать 350 примеров (строк) с помощью 24 объясняющих переменных (столбцов) и не допустить повторов.

РСА в обще не использую ни каким способом, это был просто пример для другого юзера. С помощью него можно оценить полученный набор насколько он способен быть разделён.


П.С. Под..еб с песенкой засчитан. Молодец!

только если меток классов сильно разное кол-во (классы не сбалансированы)

даром с тобою мучился.. самый известный маг и волшебник )))

 
Mihail Marchukajtes:

 у тебя появляются близ лежащие одинаковые примеры которые притягивают модель в область переобучения.

эти "одинаковые примеры" как раз и создают статистически значимые структуры - что такое статистика?  это когда что то повторяется и ты можешь делать какие то выводы из этого

Mihail Marchukajtes:

 Не возможно описать 350 примеров (строк) с помощью 24 объясняющих переменных (столбцов) и не допустить повторов.

чем тебе повторы не угодили????

 
mytarmailS:

эти "одинаковые примеры" как раз и создают статистически значимые структуры - что такое статистика?  это когда что то повторяется и ты можешь делать какие то выводы из этого

чем тебе повторы не угодили????

Есть три вида лжи: ложь, наглая ложь и статистика. — Марк Твен

Повторы приводят к зазубриванию, нам же нужно сеть обобщить. То есть нам нужно подать один уникальный вектор что бы при появлении нового вектора близ лежащего сеть с реагировала адекватно. Если же в наборе присутствует группа близ лежащих векторов, то сеть их просто зазубривает....

Другими словами алгоритм назначит этим двум близким векторам не обоснованно большой весовой коэфициент....

 
Maxim Dmitrievsky:

только если меток классов сильно разное кол-во (классы не сбалансированы)

даром с тобою мучился.. самый известный маг и волшебник )))

Изначально я говорю про два класса и не более. Если классов три и более тогда допускается создание таблицы уникальных векторов где строк больше столбцов, но уникальность их будет определена целевой исключительно.
 
Mihail Marchukajtes:

Другими словами алгоритм назначит этим двум близким векторам не обоснованно большой весовой коэфициент....

Но почему не обосновано? если что то повторяется часто скажем 100 раз  и дает какой то статистически значимый результат то как раз адекватно придать больший вес этому, чем примеру с одним наблюдением и непонятным исходом.


1) ты видел тучи 100 раз ,    в 70% случаев пошел дождь

2) у тебя зачесалась коленка 1 раз и пошел дождь 


почему ты считаешь что этим двум паттернам надо давать одинаковый вес?    весь мир считает иначе, и нейронка тоже :)

 
mytarmailS:

Но почему не обосновано? если что то повторяется часто скажем 100 раз  и дает какой то статистически значимый результат то как раз адекватно придать больший вес этому, чем примеру с одним наблюдением и непонятным исходом.


1) ты видел тучи 100 раз ,    в 70% случаев пошел дождь

2) у тебя зачесалась коленка 1 раз и пошел дождь 


почему ты считаешь что этим двум паттернам надо давать одинаковый вес?    весь мир считает иначе, и нейронка тоже :)

а такая статистика ничему не учит?

завел бабки 100 раз и выиграл ХЗикс раз

;)

Причина обращения: