Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3618

 
Я в графах к сожалению вообще не разбираюсь ни капельки
 
mytarmailS #:
Я в графах к сожалению вообще не разбираюсь ни капельки

взаимно )

 
Maxim Dmitrievsky #:

взаимно )

Ты писал, что в датасете надо найти взаимосвязь.
Когда я пробовал обучать модели на основе разных регрессий заметил, что чем выше корреляция между признаками, тем лучше обучалась модель.
Ну и предобработка датасета в виде центрирования данных уменьшала ошибку.
Так-же ты пишешь, что признаки надо ещё найти. Может поиск признаков по корреляции как-то прикрутить?
Ну и алгоритм PCA вроде уменьшает большую выборку, выделяя главные компоненты.
Просто поделился мыслью, мало ли.

 
Roman #:

Ты писал, что в датасете надо найти взаимосвязь.
Когда я пробовал обучать модели на основе разных регрессий заметил, что чем выше корреляция между признаками, тем лучше обучалась модель.
Ну и предобработка датасета в виде центрирования данных уменьшала ошибку.
Так-же ты пишешь, что признаки надо ещё найти. Может поиск признаков по корреляции как-то прикрутить?
Ну и алгоритм PCA вроде уменьшает большую выборку, выделяя главные компоненты.
Просто поделился мыслью, мало ли.

https://en.m.wikipedia.org/wiki/Correlation_does_not_imply_causation

Этот конкурс как раз об этом.

Корреляция даёт 0.36 максимальную accuracy на новых данных. На обучающих можно получить 1.0.
 
Maxim Dmitrievsky #:

Корреляция даёт 0.36 максимальную accuracy на новых данных.

У меня максимум получается 0.274, стыдно отправлять такой результат)) 

В среднем сколько время тратится у вас на один цикл обучения?

 
Evgeni Gavrilovi #:

У меня максимум получается 0.274, стыдно отправлять такой результат)) 

Сколько время тратится у вас на один цикл обучения?

Самое долгое там - это разметка, обучается быстро. Я размечаю сначала 1/10 датасета, для скорости, смотрю что получается :)

Меньше 0.5 нет смысла отправлять, в топ 10 уже не попадает 
 
Maxim Dmitrievsky #:
Самое долгое там - это разметка, обучается быстро.

Быстро это 5-10 минут? Для некоторых и 1 час покажется быстро )

 
Evgeni Gavrilovi #:

Быстро это 5-10 минут? Для некоторых и 1 час покажется быстро )

меньше минуты в колабе, катбуст

 
Evgeni Gavrilovi #:

Выбрать часть датасета для разметки и обучения, самый конец раздела  Computing  (X_train, y_train)

print(f"Creating X_y_group_train from {len(names_datasets_train)} datasets and graphs")
MAX_SAMPLES = 1000
# Получаем первые MAX_SAMPLES ключей
first_keys_f = list(names_datasets_train.keys())[:MAX_SAMPLES]
# Создаем новый словарь с первыми MAX_SAMPLES записями
first_dict_f = {k: names_datasets_train[k] for k in first_keys_f}
first_keys_l = list(names_graphs_train.keys())[:MAX_SAMPLES]
# Создаем новый словарь с первыми MAX_SAMPLES записями
first_dict_l = {k: names_graphs_train[k] for k in first_keys_l}

X_y_group_train = create_all_columns(
    {
        pearson_correlation: first_dict_f,
        # enhanced_pearson_correlation: first_dict_f,
        # fast_regression_analysis: first_dict_f,
        # ttest: first_10_dict_f,
        # mutual_information: first_10_dict_f,  # uncomment this line to add features but at high computational cost
        label: first_dict_l,
    },
    n_jobs=-1,
)
 
Maxim Dmitrievsky #:

Выбрать часть датасета для разметки и обучения

Спасибо, об этом даже не задумывался