Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3406

 
Aleksey Vyazmikin #:

Модель не одна, мы создаём разные модели за счет разного seed.

так разные модели или одна модель на разных сидах ?

одна модель, на одной выборке с разными сидами это ниразу не разные модели.

Aleksey Vyazmikin #:

С какой целью? Опишите цели и задачи постановки такого эксперимента и что он может показать.

Для более реалистичной оценки, как кросвалидация или тот же казуал

 
mytarmailS #:

так разные модели или одна модель на разных сидах ?

одна модель, на одной выборке с разными сидами это ниразу не разные модели.

Как может быть одна модель с разными сидами - я чего то явно не понимаю Вас.

Построили модель, а потом при применении меняем seed? У CatBoost нет такого функционала даже.

mytarmailS #:
Для более реалистичной оценки, как кросвалидация или тот же казуал

Так Вы опишите конкретно - общие фразы не делают понятней подход.

Типа:

1. Отобрали предикторы на общей выборке.

2. Сделали 500 подвыборок, зафиксировав их.

3. Обучили по 100 моделей на каждой подвыборке с разными методами

4. Получили 500*100*4=200 000 (двести тысяч) моделей спусти тучу времени

5. Теперь мы их хитрым образом оценим - как?

6. Сделаем вывод.

 
Aleksey Vyazmikin #:

Как может быть одна модель с разными сидами - я чего то явно не понимаю Вас.

Построили модель, а потом при применении меняем seed? У CatBoost нет такого функционала даже.

Так Вы опишите конкретно - общие фразы не делают понятней подход.

Типа:

1. Отобрали предикторы на общей выборке.

2. Сделали 500 подвыборок, зафиксировав их.

3. Обучили по 100 моделей на каждой подвыборке с разными методами

4. Получили 500*100*4=200 000 (двести тысяч) моделей спусти тучу времени

5. Теперь мы их хитрым образом оценим - как?

6. Сделаем вывод.

есть у тебя ТС на скользящих средних

ты подбираешь параметры(периоды средних) к этой ТС на одном и том же участке но с разными сидами. 

ТС - это модель catboost

Аналогия ясна?


По второму вопросу, почитай статью Макса про казуал, а то я устану обяснять, уже устал если честно

 

Кто там хотел дообучать умную LLM


Вопрос к тупому барду

сколько ты потребляеш ресурсов?


Мое потребление ресурсов зависит от задачи, которую я выполняю.

В среднем:

  • Вычислительные ресурсы: Я использую TPUv4-32 pod, что эквивалентно 32 TPUv4 chips.
  • Память: Мне требуется 16GB RAM.
  • Дисковое пространство: Я использую 1TB SSD.
  • Энергопотребление: Мое энергопотребление составляет около 1kW.

Конкретные примеры:

  • Генерация текста:
    • 1000 слов - 0.01 TPUv4-32 pod-часов, 16MB RAM, 10MB SSD, 0.1kWh
    • 10 000 слов - 0.1 TPUv4-32 pod-часов, 160MB RAM, 100MB SSD, 1kWh
  • Перевод:
    • 1000 слов - 0.02 TPUv4-32 pod-часов, 32MB RAM, 20MB SSD, 0.2kWh
    • 10 000 слов - 0.2 TPUv4-32 pod-часов, 320MB RAM, 200MB SSD, 2kWh
  • Ответы на вопросы:
    • Простые вопросы - 0.001 TPUv4-32 pod-часов, 4MB RAM, 5MB SSD, 0.01kWh
    • Сложные вопросы - 0.01 TPUv4-32 pod-часов, 16MB RAM, 20MB SSD, 0.1kWh

Важно отметить:

  • Эти цифры являются приблизительными и могут меняться в зависимости от сложности задачи.
  • Я постоянно оптимизируюсь, чтобы потреблять меньше ресурсов.
 
mytarmailS #:

есть у тебя ТС на скользящих средних

ты подбираешь параметры(периоды средних) к этой ТС на одном и том же участке но с разными сидами. 

ТС - это модель catboost

Аналогия ясна?


По второму вопросу, почитай статью Макса про казуал, а то я устану обяснять, уже устал если честно

Тут я уже устал - изучайте, как строятся модели...

Конструктивно не хотите общаться.
 
mytarmailS #:

Кто там хотел дообучать умную LLM

Вопрос к тупому барду

Барда же замочили, осталась Гемини :)
Надо брать поменьше модель, иначе будет большой отклик в получении ответа. Гемму, например. Иначе в тестере гонять замучаешься :)
 
Aleksey Vyazmikin #:

Тут я уже устал - изучайте, как строятся модели...

Конструктивно не хотите общаться.
Изучай значение слова аналогия прежде чем говорить мне за модели и за конструктив.
Я могу модель с нуля построить, ты можешь? 
 
mytarmailS #:
Изучай значение слова аналогия прежде чем говорить мне за модели и за конструктив.
Я могу модель с нуля построить, ты можешь? 

Явно Вы видите только свой труд - год назад я выкладывал тут работу своего алгоритма построения модели, с гифками. Или память такая у Вас, хуже чем у меня...

Аналогий в моделях нет, более того, значимые листья в двух моделях различаются в 99% случаях.

И потом, речь была о постановке эксперимента - тут у Вас не появилось никаких конструктивных мыслей.

 
Alexey Burnakov:

Добрый день всем,

Я знаю, что на форуме есть любители машинного обучения и статистики. Предлагаю обсудить в этой теме (без холиваров), поделиться и пополнить собственный банк знаний в этой интересной области.

Для начинающих и не только есть хороший теоретический ресурс на русском языке: https: //www.machinelearning.ru/.

Небольшой обзор литературы по методам отбора информативных признаков: https://habrahabr.ru/post/264915/.

Я предлагаю проблему номер один. Ее решение я опубликую позже. СанСаныч ее уже видел, прошу не подсказывать ответ.

Введение: для того чтобы построить торговый алгоритм, необходимо знать, какие факторы будут основой для прогнозирования цены, или тренда, или направления открытия сделки. Выбор таких факторов - задача не из легких, и она бесконечно сложна.

Во вложении архив с искусственным набором данных csv, который я сделал.

Данные содержат 20 переменных с префиксом input_, и одну крайнюю правую переменную output.

Выходная переменная зависит от некоторого подмножества входных переменных(подмножество может содержать от 1 до 20 входных переменных).

Задача: с помощью любых методов (машинного обучения) выбрать входные переменные, по которым можно определить состояние выходной переменной на имеющихся данных.

Решение можно выложить здесь в виде: input_2, input_19, input_5 (пример). А также можно описать найденную зависимость между входными и выходными переменными.

Кто сможет это сделать, молодец ) От меня готовое решение и объяснение.

Алексей

Прежде чем применять алгоритмы машинного обучения, необходимо провести тщательный исследовательский анализ данных. Он включает в себя изучение распределения переменных, выявление корреляций, обнаружение выбросов и понимание структуры данных. На этом этапе неоценимую помощь могут оказать такие методы визуализации, как гистограммы, диаграммы рассеяния и корреляционные матрицы.

Такие приемы, как масштабирование признаков, нормализация, кодирование категориальных переменных и создание новых признаков с помощью математических преобразований или знаний о предметной области, могут улучшить способность модели улавливать основные закономерности в данных. Итак... Выбор правильного алгоритма машинного обучения для решения поставленной задачи также очень важен. Учитывая, что мы имеем дело с проблемой предсказания, подходящими кандидатами могут быть такие алгоритмы регрессии, как линейная регрессия, деревья решений, случайные леса, машины опорных векторов (SVM) и нейронные сети. Рекомендуется поэкспериментировать с несколькими алгоритмами и оценить их производительность с помощью соответствующих метрик, таких как средняя квадратичная ошибка (MSE), средняя квадратичная ошибка (RMSE) или точность, в зависимости от характера проблемы.

Чтобы оценить эффективность обобщения наших моделей и предотвратить перебор, важно использовать методы кросс-валидации, такие как k-fold cross-validation или leave-one-out cross-validation. Это подразумевает разбиение набора данных на несколько подмножеств, обучение модели на части данных и оценку ее эффективности на оставшихся без внимания данных. Перекрестная проверка также помогает убедиться в надежности и достоверности оценок эффективности нашей модели.

Многие алгоритмы машинного обучения имеют гиперпараметры, которые управляют их поведением и производительностью. Настройка гиперпараметров включает в себя поиск оптимальной комбинации гиперпараметров для достижения максимальной производительности модели. Для точной настройки модели и повышения точности прогнозирования можно использовать такие методы, как поиск по сетке, случайный поиск или байесовская оптимизация.

 
https://github.com/phil8192/ob-analytics?tab=readme-ov-file

Наткнулся на интересный пакет по визуализации ордерлога,  вот люди заморочились
https://cran.r-project.org/web/packages/obAnalytics/vignettes/guide.html
Причина обращения: