В датасете нужно найти взаимосвязь между признаками.

mytarmailS 2024.09.18 19:24 #36171

Я в графах к сожалению вообще не разбираюсь ни капельки

[Удален] 2024.09.18 19:25 #36172

mytarmailS #:
Я в графах к сожалению вообще не разбираюсь ни капельки

взаимно )

Roman 2024.09.19 01:14 #36173

Maxim Dmitrievsky #:

взаимно )

Ты писал, что в датасете надо найти взаимосвязь.
Когда я пробовал обучать модели на основе разных регрессий заметил, что чем выше корреляция между признаками, тем лучше обучалась модель.
Ну и предобработка датасета в виде центрирования данных уменьшала ошибку.
Так-же ты пишешь, что признаки надо ещё найти. Может поиск признаков по корреляции как-то прикрутить?
Ну и алгоритм PCA вроде уменьшает большую выборку, выделяя главные компоненты.
Просто поделился мыслью, мало ли.

Ошибки нейронной сети Сравнительное тестирование моделей с Фундамент фундаментального

[Удален] 2024.09.19 13:49 #36174

Roman #:

Ты писал, что в датасете надо найти взаимосвязь.
Когда я пробовал обучать модели на основе разных регрессий заметил, что чем выше корреляция между признаками, тем лучше обучалась модель.
Ну и предобработка датасета в виде центрирования данных уменьшала ошибку.
Так-же ты пишешь, что признаки надо ещё найти. Может поиск признаков по корреляции как-то прикрутить?
Ну и алгоритм PCA вроде уменьшает большую выборку, выделяя главные компоненты.
Просто поделился мыслью, мало ли.

https://en.m.wikipedia.org/wiki/Correlation_does_not_imply_causation

Этот конкурс как раз об этом.

Корреляция даёт 0.36 максимальную accuracy на новых данных. На обучающих можно получить 1.0.

Evgeni Gavrilovi 2024.09.19 14:08 #36175

Maxim Dmitrievsky #:

Корреляция даёт 0.36 максимальную accuracy на новых данных.

У меня максимум получается 0.274, стыдно отправлять такой результат))

В среднем сколько время тратится у вас на один цикл обучения?

[Удален] 2024.09.19 14:09 #36176

Evgeni Gavrilovi #:

У меня максимум получается 0.274, стыдно отправлять такой результат))

Сколько время тратится у вас на один цикл обучения?

Самое долгое там - это разметка, обучается быстро. Я размечаю сначала 1/10 датасета, для скорости, смотрю что получается :)

Меньше 0.5 нет смысла отправлять, в топ 10 уже не попадает

Evgeni Gavrilovi 2024.09.19 14:31 #36177

Maxim Dmitrievsky #:
Самое долгое там - это разметка, обучается быстро.

Быстро это 5-10 минут? Для некоторых и 1 час покажется быстро )

[Удален] 2024.09.19 14:33 #36178

Evgeni Gavrilovi #:

Быстро это 5-10 минут? Для некоторых и 1 час покажется быстро )

меньше минуты в колабе, катбуст

[Удален] 2024.09.19 15:14 #36179

Evgeni Gavrilovi #:

Выбрать часть датасета для разметки и обучения, самый конец раздела Computing (X_train, y_train)

print(f"Creating X_y_group_train from {len(names_datasets_train)} datasets and graphs")
MAX_SAMPLES = 1000
# Получаем первые MAX_SAMPLES ключей
first_keys_f = list(names_datasets_train.keys())[:MAX_SAMPLES]
# Создаем новый словарь с первыми MAX_SAMPLES записями
first_dict_f = {k: names_datasets_train[k] for k in first_keys_f}
first_keys_l = list(names_graphs_train.keys())[:MAX_SAMPLES]
# Создаем новый словарь с первыми MAX_SAMPLES записями
first_dict_l = {k: names_graphs_train[k] for k in first_keys_l}

X_y_group_train = create_all_columns(
    {
        pearson_correlation: first_dict_f,
        # enhanced_pearson_correlation: first_dict_f,
        # fast_regression_analysis: first_dict_f,
        # ttest: first_10_dict_f,
        # mutual_information: first_10_dict_f,  # uncomment this line to add features but at high computational cost
        label: first_dict_l,
    },
    n_jobs=-1,
)

Evgeni Gavrilovi 2024.09.19 15:16 #36180

Maxim Dmitrievsky #:

Выбрать часть датасета для разметки и обучения

Спасибо, об этом даже не задумывался

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3618