Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3107

 
Aleksey Vyazmikin #:

Какой метод кластеризации лучше всего подходит для группировки таких объектов?

По сути есть матрица, и важно оценить её похожесть как единое целое. И почему то K-means, думается, будет всё сильно усреднять.

https://habr.com/ru/companies/jetinfosystems/articles/467745/
 

Не увидел по ссылке ответа на вопрос.

 
Aleksey Vyazmikin #:

Не увидел по ссылке ответа на вопрос.

Правильно заданный вопрос уже обычно содержит ответ. Видимо такой вопрос еще не прозвучал.

Наверное нужно спросить себя что такое похожесть как единое целое и при чем здесь вообще кластеризация.

Если нужно оценить плотность вероятности распределения (пытаюсь догадаться по невнятному вопросу), то это ядерная оценка плотности.
 
Maxim Dmitrievsky #:
Правильно заданный вопрос уже обычно содержит ответ. Видимо такой вопрос еще не прозвучал.

Наверное нужно спросить себя что такое похожесть как единое целое и при чем здесь вообще кластеризация.

Если нужно оценить плотность распределения (пытаюсь догадаться по невнятному вопросу), то это ядерная оценка плотности.

Если Вы искренне желаете помочь, то обременю Вас деталями задачи.

Итак, у нас есть условная формула:

P=A/(A+B)*100-x

Где, A и B целые числа, допустим от 1 до 1000.

x - некий коэффициент, даже пусть для простоты он имеет фиксированное значение, и в уме его можно убрать.

Есть выборка, пусть 500 строк.

Для каждой строки мы рассчитываем значение P. Разбиваем тем или иным методом на диапазоны результаты, в результате у нас получается эмпирическое распределение.

Однако, сама формула даёт сопоставимые значение при разных значениях A и B, что логично, ведь по сути мы считаем процент из совокупности, поэтому мне важно сделать поправку на число A, а для этого делается ещё одно пространство, где указывается значение A в формуле, и так же строится эмпирическая диаграмма.

Таким образом получается 3d диаграмма, которую можно записать матрицей.

Таких матриц у меня порядка 10 тысяч, и я хочу их сгруппировать по похожести.

Вот и нужен такой метод кластеризации, который их соберёт в группы. Конечно, хочется, что бы у них были похоже не просто отдельные точки, но и распределения.

Допустим, можно сравнивать распределения каждого слоя (разбиения по числу A), а потом посчитать процент похожих распределений. Но, может есть готовое хорошее решение.

Понятно описал суть задачи?

 
Так я и скинул как найти оптимальное кол-во кластеров. Можно вместо кминс гауссовскую смесь попробовать.
 
Aleksey Vyazmikin #:

 Впрочем, с кем я говорю - любителем готовых решений...

Aleksey Vyazmikin #:

Допустим, можно сравнивать распределения каждого слоя (разбиения по числу A), а потом посчитать процент похожих распределений. Но, может есть готовое хорошее решение.

Да как же так то? )))

 
mytarmailS #:

Да как же так то? )))

типа подловил и злорадствует)))

да тот кто может создавать кастомные решения может и готовые юзать. а вот наоборот - нет.

так что - не подловил.

 
Andrey Dik #:

типа подловил и злорадствует)))

да тот кто может создавать кастомные решения может и готовые юзать. а вот наоборот - нет.

так что - не подловил.

Есть такое явление как гиперактивность, когда чел вроде бы везде и в то же время нигде. Точно так же бесконтрольное употребление пакетов приводит скорее к утомлению и дезориентации, а потом озлоблению, нежели к получению каких-либо минимальных знаний :)
 
Maxim Dmitrievsky #:
Есть такое явление как гиперактивность, когда чел вроде бы везде и в то же время нигде. Точно так же бесконтрольное употребление пакетов приводит скорее к утомлению и дезориентации, а потом озлоблению, нежели к получению каких-либо минимальных знаний :)
оптимист ты Макс, я думаю - всё гораздо хуже.))
 

протестил бота, которого кидал сюда 15 мая, месяц прошел. С разными sl и tp разные результаты, но в среднем все на рост.