Есть ли закономерность в хаосе? Попробуем поискать! Машинное обучение на примере конкретной выборки. - страница 19
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Прибыль равна дельте движения цены от некоторой точки времени.
Ничего пока не удивляет.
Длинные хвосты мы уже проходили ....
Прибыль равна дельте движения цены от некоторой точки времени.
Ничего пока не удивляет.
Длинные хвосты мы уже проходили ....
Вы вообще сейчас к чему это написали? Ну право, нельзя использовать любую тему для пометок на полях своих мыслей...
Как видно из рисунка 13, что предикторы используются почти все из имеющихся, за исключением одного, но я сомневаюсь, что в нём кроется корень зла. Значит дело не столько в использовании, сколько в последовательности использования при построении модели?
Да, так и есть. Если при одних и тех же предикторах обучить 2 модели, но у одной первый сплит будет по одному предиктору, у другой по другому, то всё нижележащее дерево у каждого варианта будет совсем не похожим.
Вопрос в другом - почему бустинг при одинаковом наборе данных делает первые сплиты разными? Коэффициент для количества столбцов !=1 как у леса? В лесе это для рандомности. Но вроде он должен быть ==1.
Тогда другой вариант: разные Seed у моделей? Попробуйте с одинаковым, если результат будет одинаков, то думаю это очень плохо, что seed может прибыльную модель сделать убыточной.
Вы вообще сейчас к чему это написали? Ну право, нельзя использовать любую тему для пометок на полях своих мыслей...
про Ваши графики написано
Да, так и есть. Если при одних и тех же предикторах обучить 2 модели, но у одной первый сплит будет по одному предиктору, у другой по другому, то всё нижележащее дерево у каждого варианта будет совсем не похожим.
Что ещё раз доказывает ущербность метода жадности при выборе сплитов. Сам экспериментировал с этим, когда листья отбирал и пришел к такому же выводу.
Вопрос в другом - почему бустинг при одинаковом наборе данных делает первые сплиты разными? Коэффициент для количества столбцов !=1 как у леса? В лесе это для рандомности. Но вроде он должен быть ==1.
Как я понял, тут есть аналог для выбора части столбцов для оценки, но у меня стоит принудительное использование всех.
Тогда другой вариант: разные Seed у моделей? Попробуйте с одинаковым, если результат будет одинаков, то думаю это очень плохо, что seed может прибыльную модель сделать убыточной.
Seed фиксирует результат, т.е. все будет одинаково.
Кстати, что в Катбусте Seed рандомизирует?
Как я понимаю, он устанавливает в определенное значение счетчик генератора случайных чисел, а вот этот генератор используется минимум как пишут "есть рандомизация метрики, по которой выбирается лучшее дерево." и там вроде как используется генератор случайных чисел плюс коэффициент, который, как я понимаю, берется из параметра --random-strength (стоит 1 у меня).
Вот формула:
Score += random_strength * Rand (0, lenofgrad * q)
q — множитель, уменьшающийся при увеличении итерации. Таким образом, рандом уменьшается ближе к концу.
"
Но там же пишут, что для построения дерева может браться подвыборка, но я использую режим для полного применения выборки "--boosting-type Plain".
Ещё наблюдается такой эффект, если я убираю столбцы после обучения, которые не использует модель, то уже не могу с тем же Seed получить модель - что не понятно.
про Ваши графики написано
Как к этим графикам относится " Прибыль равна дельте движения цены от некоторой точки времени. " ?
И эта фраза тогда "Длинные хвосты мы уже проходили ...." должна мной восприниматься, что я предлагаю Вам обучение в какой либо форме? Но я этого не делаю, а хвосты тут на форуме обычно употребляются при модели плотности распределения изменения цены - совсем не то, что у меня на гистограмме. И скорей тут надо говорить не о рисках, а о том, что модель случайно построить сложней, чем если понимать структуру значимости предикторов и их зависимости.
Как к этим графикам относится " Прибыль равна дельте движения цены от некоторой точки времени. " ?
И эта фраза тогда "Длинные хвосты мы уже проходили ...." должна мной восприниматься, что я предлагаю Вам обучение в какой либо форме? Но я этого не делаю, а хвосты тут на форуме обычно употребляются при модели плотности распределения изменения цены - совсем не то, что у меня на гистограмме. И скорей тут надо говорить не о рисках, а о том, что модель случайно построить сложней, чем если понимать структуру значимости предикторов и их зависимости.
я ответил о том, что в хаосе закономерность есть
это как раз такого рода гистограммы, независимо от того, используя какую логику/подход/формулу/теорию и т.д. Вы применили и других закономерностей Вы не найдете
Что ещё раз доказывает ущербность метода жадности при выборе сплитов. Сам экспериментировал с этим, когда листья отбирал и пришел к такому же выводу.
А как без жадности? Расчитывать для каждого сплита еще один и выбирать сразу пару, но в вашем случае длительность расчетов в 5000+ раз возрастет. Проще сотню моделей усреднить.
Но там же пишут, что для построения дерева может браться подвыборка, но я использую режим для полного применения выборки "--boosting-type Plain".
Для уменьшения влияния рандома это правильно. Иначе надо как в лесе делать усреднение 20-100 моделей.
Как я понимаю, он устанавливает в определенное значение счетчик генератора случайных чисел, а вот этот генератор используется минимум как пишут "есть рандомизация метрики, по которой выбирается лучшее дерево." и там вроде как используется генератор случайных чисел плюс коэффициент, который, как я понимаю, берется из параметра --random-strength (стоит 1 у меня).
Вот формула:
Score += random_strength * Rand (0, lenofgrad * q)
q — множитель, уменьшающийся при увеличении итерации. Таким образом, рандом уменьшается ближе к концу.
Т.е. получается, что уточняющие деревья могут быть не лучшими, а рандомно хуже.
Отсюда и разброс в моделях от сливных к прибыльным.
Судя по графикам распределения, сливных моделей больше, т.е. если усреднять, то средний результат будет убыточным.
Может random-strength = 0 попробовать? Надеюсь изменения Seed после этого перестанут менять модель. Возможно создаст модель с лучшими уточняющими деревьями, а не рандомно нелучшими. Если лучшая модель будет сливной, то искать на этих данных из 10000 рандомных моделей случайно лучшую - путь к сливу на реале.
Либо все же усреднять несколько случайно выбранных моделей, как в лесе. Т.к. лучшая может быть переобучена.
я ответил о том, что в хаосе закономерность есть
это как раз такого рода гистограммы, независимо от того, используя какую логику/подход/формулу/теорию и т.д. Вы применили и других закономерностей Вы не найдете
И как это понимать - закономерность есть, но вы не найдете её? Или закономерность в случайности?