Определите, как строятся модели - Общее обсуждение

mytarmailS 2024.02.29 21:13 #34051

Aleksey Vyazmikin #:

Модель не одна, мы создаём разные модели за счет разного seed.

так разные модели или одна модель на разных сидах ?

одна модель, на одной выборке с разными сидами это ниразу не разные модели.

Aleksey Vyazmikin #:

С какой целью? Опишите цели и задачи постановки такого эксперимента и что он может показать.

Для более реалистичной оценки, как кросвалидация или тот же казуал

Aleksey Vyazmikin 2024.02.29 21:51 #34052

mytarmailS #:

так разные модели или одна модель на разных сидах ?

одна модель, на одной выборке с разными сидами это ниразу не разные модели.

Как может быть одна модель с разными сидами - я чего то явно не понимаю Вас.

Построили модель, а потом при применении меняем seed? У CatBoost нет такого функционала даже.

mytarmailS #:
Для более реалистичной оценки, как кросвалидация или тот же казуал

Так Вы опишите конкретно - общие фразы не делают понятней подход.

Типа:

1. Отобрали предикторы на общей выборке.

2. Сделали 500 подвыборок, зафиксировав их.

3. Обучили по 100 моделей на каждой подвыборке с разными методами

4. Получили 500*100*4=200 000 (двести тысяч) моделей спусти тучу времени

5. Теперь мы их хитрым образом оценим - как?

6. Сделаем вывод.

Есть ли закономерность в нейронная сеть и входы Собираю команду для развития

mytarmailS 2024.02.29 22:29 #34053

Aleksey Vyazmikin #:

Как может быть одна модель с разными сидами - я чего то явно не понимаю Вас.

Построили модель, а потом при применении меняем seed? У CatBoost нет такого функционала даже.

Так Вы опишите конкретно - общие фразы не делают понятней подход.

Типа:

1. Отобрали предикторы на общей выборке.

2. Сделали 500 подвыборок, зафиксировав их.

3. Обучили по 100 моделей на каждой подвыборке с разными методами

4. Получили 500*100*4=200 000 (двести тысяч) моделей спусти тучу времени

5. Теперь мы их хитрым образом оценим - как?

6. Сделаем вывод.

есть у тебя ТС на скользящих средних

ты подбираешь параметры(периоды средних) к этой ТС на одном и том же участке но с разными сидами.

ТС - это модель catboost

Аналогия ясна?

По второму вопросу, почитай статью Макса про казуал, а то я устану обяснять, уже устал если честно

Помогите пожалуйста правильно и Кто-нибудь для своего робота Нужен совет/помощь людей, которые

mytarmailS 2024.02.29 22:33 #34054

Кто там хотел дообучать умную LLM

Вопрос к тупому барду

сколько ты потребляеш ресурсов?

Мое потребление ресурсов зависит от задачи, которую я выполняю.

В среднем:

Вычислительные ресурсы: Я использую TPUv4-32 pod, что эквивалентно 32 TPUv4 chips.
Память: Мне требуется 16GB RAM.
Дисковое пространство: Я использую 1TB SSD.
Энергопотребление: Мое энергопотребление составляет около 1kW.

Конкретные примеры:

Генерация текста:
- 1000 слов - 0.01 TPUv4-32 pod-часов, 16MB RAM, 10MB SSD, 0.1kWh
- 10 000 слов - 0.1 TPUv4-32 pod-часов, 160MB RAM, 100MB SSD, 1kWh
Перевод:
- 1000 слов - 0.02 TPUv4-32 pod-часов, 32MB RAM, 20MB SSD, 0.2kWh
- 10 000 слов - 0.2 TPUv4-32 pod-часов, 320MB RAM, 200MB SSD, 2kWh
Ответы на вопросы:
- Простые вопросы - 0.001 TPUv4-32 pod-часов, 4MB RAM, 5MB SSD, 0.01kWh
- Сложные вопросы - 0.01 TPUv4-32 pod-часов, 16MB RAM, 20MB SSD, 0.1kWh

Важно отметить:

Эти цифры являются приблизительными и могут меняться в зависимости от сложности задачи.
Я постоянно оптимизируюсь, чтобы потреблять меньше ресурсов.

Разговор с искусственным интеллектом AI 2023. Встречайте ChatGPT. Quantitative trading

Aleksey Vyazmikin 2024.02.29 22:56 #34055

mytarmailS #:

есть у тебя ТС на скользящих средних

ты подбираешь параметры(периоды средних) к этой ТС на одном и том же участке но с разными сидами.

ТС - это модель catboost

Аналогия ясна?

По второму вопросу, почитай статью Макса про казуал, а то я устану обяснять, уже устал если честно

Тут я уже устал - изучайте, как строятся модели...

Конструктивно не хотите общаться.

Maxim Dmitrievsky 2024.03.01 02:11 #34056

mytarmailS #:

Кто там хотел дообучать умную LLM

Вопрос к тупому барду

Барда же замочили, осталась Гемини :)

Надо брать поменьше модель, иначе будет большой отклик в получении ответа. Гемму, например. Иначе в тестере гонять замучаешься :)

mytarmailS 2024.03.01 08:43 #34057

Aleksey Vyazmikin #:

Тут я уже устал - изучайте, как строятся модели...

Конструктивно не хотите общаться.

Изучай значение слова аналогия прежде чем говорить мне за модели и за конструктив.

Я могу модель с нуля построить, ты можешь?

Aleksey Vyazmikin 2024.03.01 15:15 #34058

mytarmailS #:
Изучай значение слова аналогия прежде чем говорить мне за модели и за конструктив.

Я могу модель с нуля построить, ты можешь?

Явно Вы видите только свой труд - год назад я выкладывал тут работу своего алгоритма построения модели, с гифками. Или память такая у Вас, хуже чем у меня...

Аналогий в моделях нет, более того, значимые листья в двух моделях различаются в 99% случаях.

И потом, речь была о постановке эксперимента - тут у Вас не появилось никаких конструктивных мыслей.

ФР Н-волатильность Оценка состояния рынка на Группировка листьев - требуются

Nardus Van Staden 2024.03.01 20:41 #34059

Alexey Burnakov:

Добрый день всем,

Я знаю, что на форуме есть любители машинного обучения и статистики. Предлагаю обсудить в этой теме (без холиваров), поделиться и пополнить собственный банк знаний в этой интересной области.

Для начинающих и не только есть хороший теоретический ресурс на русском языке: https: //www.machinelearning.ru/.

Небольшой обзор литературы по методам отбора информативных признаков: https://habrahabr.ru/post/264915/.

Я предлагаю проблему номер один. Ее решение я опубликую позже. СанСаныч ее уже видел, прошу не подсказывать ответ.

Введение: для того чтобы построить торговый алгоритм, необходимо знать, какие факторы будут основой для прогнозирования цены, или тренда, или направления открытия сделки. Выбор таких факторов - задача не из легких, и она бесконечно сложна.

Во вложении архив с искусственным набором данных csv, который я сделал.

Данные содержат 20 переменных с префиксом input_, и одну крайнюю правую переменную output.

Выходная переменная зависит от некоторого подмножества входных переменных(подмножество может содержать от 1 до 20 входных переменных).

Задача: с помощью любых методов (машинного обучения) выбрать входные переменные, по которым можно определить состояние выходной переменной на имеющихся данных.

Решение можно выложить здесь в виде: input_2, input_19, input_5 (пример). А также можно описать найденную зависимость между входными и выходными переменными.

Кто сможет это сделать, молодец ) От меня готовое решение и объяснение.

Алексей

Прежде чем применять алгоритмы машинного обучения, необходимо провести тщательный исследовательский анализ данных. Он включает в себя изучение распределения переменных, выявление корреляций, обнаружение выбросов и понимание структуры данных. На этом этапе неоценимую помощь могут оказать такие методы визуализации, как гистограммы, диаграммы рассеяния и корреляционные матрицы.

Такие приемы, как масштабирование признаков, нормализация, кодирование категориальных переменных и создание новых признаков с помощью математических преобразований или знаний о предметной области, могут улучшить способность модели улавливать основные закономерности в данных. Итак... Выбор правильного алгоритма машинного обучения для решения поставленной задачи также очень важен. Учитывая, что мы имеем дело с проблемой предсказания, подходящими кандидатами могут быть такие алгоритмы регрессии, как линейная регрессия, деревья решений, случайные леса, машины опорных векторов (SVM) и нейронные сети. Рекомендуется поэкспериментировать с несколькими алгоритмами и оценить их производительность с помощью соответствующих метрик, таких как средняя квадратичная ошибка (MSE), средняя квадратичная ошибка (RMSE) или точность, в зависимости от характера проблемы.

Чтобы оценить эффективность обобщения наших моделей и предотвратить перебор, важно использовать методы кросс-валидации, такие как k-fold cross-validation или leave-one-out cross-validation. Это подразумевает разбиение набора данных на несколько подмножеств, обучение модели на части данных и оценку ее эффективности на оставшихся без внимания данных. Перекрестная проверка также помогает убедиться в надежности и достоверности оценок эффективности нашей модели.

Многие алгоритмы машинного обучения имеют гиперпараметры, которые управляют их поведением и производительностью. Настройка гиперпараметров включает в себя поиск оптимальной комбинации гиперпараметров для достижения максимальной производительности модели. Для точной настройки модели и повышения точности прогнозирования можно использовать такие методы, как поиск по сетке, случайный поиск или байесовская оптимизация.

Разговор с искусственным интеллектом Машинное обучение и нейронные Python для алготрейдинга

mytarmailS 2024.03.01 21:10 #34060

https://github.com/phil8192/ob-analytics?tab=readme-ov-file

Наткнулся на интересный пакет по визуализации ордерлога, вот люди заморочились

https://cran.r-project.org/web/packages/obAnalytics/vignettes/guide.html

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3406

сколько ты потребляеш ресурсов?