Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3611

 
У тебя же на новых данных нет разметки. Что с чем сравнивать тогда без тестера... 🤔
 
Maxim Dmitrievsky #:
У тебя же на новых данных нет разметки. Что с чем сравнивать тогда без тестера... 🤔

хз..

сделай набор данных таким какой он должен быть в твоем понимании

 
mytarmailS #:

хз..

сделай набор данных таким какой он должен быть в твоем понимании

Придется статью писать по-любому, много буков будет.
 
Maxim Dmitrievsky #:
Придется статью писать по-любому, много буков будет.

да нах эта статья...

есть функция покажы дааные к ней, все!!

 
mytarmailS #:

да нах эта статья...

есть функция покажы дааные к ней, все!!

У меня навороченный код со всякими дополнениями, нет простого. Придется долго объяснять 
 
Maxim Dmitrievsky #:
У меня навороченный код со всякими дополнениями, нет простого. Придется долго объяснять 

да не надо никаких наворотов..

функция твоя принимает по сути один аргумент "dataset" вот его покажи

ВСЕ!!!!!!!!!!!!!!!

 
mytarmailS #:

да не надо никаких наворотов..

функция твоя принимает по сути один аргумент "dataset" вот его покажи

ВСЕ!!!!!!!!!!!!!!!

Датасет любой. Признаки + метки в конце. Метки в кластеризации не участвуют.

Функцию копируешь и проверяешь на своих данных в своей среде разработки. Это оптимальный вариант, чтобы не мучиться.

Вероятность ошибки минимальная, ф-я простая.
 
Maxim Dmitrievsky #:
Датасет любой. Признаки + метки в конце. Метки в кластеризации не участвуют.

Функцию копируешь и проверяешь на своих данных в своей среде разработки. Это оптимальный вариант, чтобы не мучиться.

Ну как мы  б.. ть сравним твой результат и мой если датасет будет любой...

Возвращаемя к моему первому сообщению про воспроизводимоть и увереность в правильной работе...


Шо ты как заколдованый.. бухой чтоли ?

 
mytarmailS #:

Ну мы  б.. ть сравним твой результат и мой если датасет будет любой...

Возвращаемя к моему первому сообщению про воспроизводимоть и увереность в правильной работе...


Шо ты как заколдованый.. бухой чтоли ?

Да 😀
 

Пробуй

Мы все равно не сравним результаты, потому что кминс случайно действует, метки будут чуть отличаться на выходе

library(dplyr)
library(stats)

fix_labels_subset_mean <- function(dataset, n_clusters = 200, subset_size = 100) {
  # Применяем KMeans для кластеризации
  set.seed(123)  # Для воспроизводимости результатов
  kmeans_result <- kmeans(dataset[, -ncol(dataset)], centers = n_clusters)
  dataset$clusters <- kmeans_result$cluster

  # Вычисляем среднее значение 'labels' для каждого кластера
  cluster_means <- dataset %>%
    group_by(clusters) %>%
    summarise(mean_label = mean(labels))

  # Сортируем кластеры по их средним значениям и выбираем те, которые наиболее далеки от 0.5
  sorted_clusters <- cluster_means %>%
    mutate(distance = abs(mean_label - 0.5)) %>%
    arrange(desc(distance)) %>%
    head(subset_size) %>%
    pull(clusters)

  # Создаем словарь для отображения средних значений в новые значения только для выбранных кластеров
  mean_to_new_value <- cluster_means %>%
    filter(clusters %in% sorted_clusters) %>%
    mutate(new_value = ifelse(mean_label < 0.5, 0.0, 1.0)) %>%
    select(clusters, new_value)

  # Применяем изменения к исходным значениям 'labels' только для выбранных кластеров
  dataset <- dataset %>%
    left_join(mean_to_new_value, by = "clusters") %>%
    mutate(labels = ifelse(!is.na(new_value), new_value, labels)) %>%
    select(-clusters, -new_value)

  return(dataset)
}

# Пример использования функции
# dataset <- read.csv("path_to_your_dataset.csv")
# result <- fix_labels_subset_mean(dataset)
Файлы:
dataset.csv  11854 kb