Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3551

 
Aleksey Vyazmikin #:

Потому что я давно твержу, что CV с нашими данными не даёт такого же эффекта, как на репрезентативных выборках, а раз поняли это, то меньше будет противоречий дальше, что и приятно.

Давайте разберём на примере такой термин.

Ну может быть в текущем применении он не очень.. я даже знаю почему, долго объяснять.

Давайте после выходных.

 
Aleksey Vyazmikin #:

Потому что я давно твержу, что CV с нашими данными не даёт такого же эффекта, как на репрезентативных выборках, а раз поняли это, то меньше будет противоречий дальше, что и приятно.

Давайте разберём на примере такой термин.

Вроде ваша тема

Demonstrating the different strategies of KBinsDiscretizer
Demonstrating the different strategies of KBinsDiscretizer
  • scikit-learn.org
Demonstrating the different strategies of KBinsDiscretizer# This example presents the different strategies implemented in KBinsDiscretizer: ‘uniform’: The discretization is uniform in each feature, which means that the bin widths are constant in each dimension. quantile’: The discretization is done on the quantiled values, which means that each...
 
Maxim Dmitrievsky #:

Вроде ваша тема

Ну такое, пара готовых функций - да использую подобное.

Спасибо, что думаете о моих потребностях.

 
Aleksey Vyazmikin #:

Ну такое, пара готовых функций - да использую подобное.

Спасибо, что думаете о моих потребностях.

Ура, мы нашли правильную терминологию для вас, теперь можно найти общий язык.

Вы делаете кабинную дискретизацию, а не квантрезки 
 
Теперь напромптим отличия:

K-бинная дискретизация и кластеризация — это две разные техники в области обработки данных и машинного обучения, которые используются для разных целей. Ниже приведены ключевые различия между ними:

1. Цель:

   - K-бинная дискретизация: цель этой техники заключается в преобразовании непрерывных признаков в дискретные или категориальные переменные. Она используется для упрощения анализа данных, уменьшения размерности и создания более управляемых признаков.

   - Кластеризация: цель кластеризации состоит в группировке объектов данных в кластеры на основе их схожести. Она используется для выявления скрытых структур или закономерностей в данных, обнаружения сообществ или сегментов и классификации объектов на основе их характеристик.

2. Применяемые данные:

   - K-бинная дискретизация: эта техника применяется к непрерывным признакам или переменным. Она разбивает диапазон значений этих признаков на бины или интервалы.

   - Кластеризация: кластеризация применяется к наборам объектов данных, которые могут иметь как непрерывные, так и дискретные признаки. Она группирует сами объекты, а не преобразует признаки.

3. Количество групп:

   - K-бинная дискретизация: число бинов (K) задается пользователем или определяется с помощью определенных методов. Каждое наблюдение относится к одному бину.

   - Кластеризация: число кластеров (K) также может задаваться пользователем или определяться методами, такими как локтевой метод или silhouettes. Каждое наблюдение может быть отнесено к одному или нескольким кластерам в зависимости от используемого метода кластеризации.

4. Принадлежность к группе:

   - K-бинная дискретизация: каждое наблюдение однозначно относится к одному бину на основе его значения.

   - Кластеризация: принадлежность кластеров может быть нечеткой или вероятностной в зависимости от используемого метода. Наблюдение может иметь более высокую вероятность принадлежности к одному кластеру, чем к другому, или может принадлежать к нескольким кластерам одновременно.

5. Интерпретация:

   - K-бинная дискретизация: бины обычно имеют конкретные диапазоны значений, что делает их интерпретацию более прямой и связанной с исходными значениями признаков.

   - Кластеризация: кластеры могут не иметь четких границ или интерпретаций, связанных с исходными признаками. Они представляют группы объектов, которые похожи друг на друга, но конкретное значение или диапазон значений могут не иметь прямого значения.

6. Алгоритмы:

   - K-бинная дискретизация: обычно использует равномерное разбиение диапазона значений или методы, основанные на статистических критериях, таких как квантили или стандартное отклонение.

   - Кластеризация: существует множество алгоритмов кластеризации, включая k-средних, иерархическую кластеризацию, DBSCAN, ожидаемо-максимизирующую кластеризацию (EM) и другие. Каждый алгоритм использует разные методы для определения кластеров.

В целом, K-бинная дискретизация используется для преобразования непрерывных признаков, в то время как кластеризация используется для группировки объектов данных на основе их схожести. Они служат разным целям и используются в разных сценариях анализа данных и машинного обучения.
 
Maxim Dmitrievsky #:
кабинную дискретизацию
KBinsDiscretizer — это класс из библиотеки scikit-learn, а не какой то устоявшийся термин.

Бинаризация - один из итоговых вариантов всего процесса.

Квантование и дискретизация — это смежные, но не идентичные концепции, которые часто используются в обработке данных.

Квантование

Квантование (quantization) — это процесс преобразования непрерывных значений в дискретные значения, часто в контексте цифровой обработки сигналов. В процессе квантования непрерывный сигнал или данные разделяются на определённые уровни, и каждому уровню присваивается фиксированное значение. Этот процесс используется, например, при преобразовании аналогового сигнала в цифровой.

Примеры квантования:

  • Преобразование звуковых сигналов в цифровой формат при записи аудио.
  • Преобразование изображения из непрерывного спектра цветов в ограниченное количество цветовых уровней.

Дискретизация

Дискретизация (discretization) — это более широкий термин, который включает квантование, но также может относиться к разделению данных на отдельные категории или бины. Дискретизация используется для преобразования непрерывных данных в категориальные или дискретные интервалы.

Примеры дискретизации:

  • Разделение возрастов людей на категории (например, "молодой", "средний возраст", "пожилой").
  • Преобразование непрерывных значений дохода в категории ("низкий", "средний", "высокий").

Сравнение

  1. Квантование:

    • Чаще используется в контексте обработки сигналов и изображений.
    • Преобразует непрерывные данные в дискретные уровни.
    • Каждый уровень представляет фиксированное значение.
  2. Дискретизация:

    • Более общий термин, включающий квантование.
    • Используется для преобразования непрерывных данных в категориальные или дискретные интервалы.
    • Каждый интервал может представлять категорию или бин, которые могут быть закодированы различными способами.

В контексте машинного обучения и анализа данных, дискретизация часто используется для подготовки данных перед их использованием в моделях, особенно если модели лучше работают с категориальными признаками. Таким образом, можно сказать, что квантование является одной из форм дискретизации, специализированной для обработки сигналов и данных с фиксированными уровнями.

 

Термин "квантовый отрезок" не является стандартным или широко используемым в науке или технике. Однако, можно предположить, что он может относиться к контексту квантования в обработке данных или сигналов. В таком случае, "квантовый отрезок" можно интерпретировать как интервал или диапазон значений, который присваивается определенному квантовому уровню в процессе квантования.

Квантование и квантовые уровни

В процессе квантования непрерывного сигнала или данных, диапазон возможных значений разбивается на дискретные уровни, называемые квантовыми уровнями. Каждый квантовый уровень соответствует определенному диапазону значений исходного непрерывного сигнала.

Квантовый отрезок

Если говорить о "квантовом отрезке" в этом контексте, то это:

  • Интервал значений: Диапазон значений, который относится к одному квантовому уровню. Например, если у нас есть непрерывный диапазон значений от 0 до 10, и мы разбиваем его на 5 квантовых уровней, то каждый квантовый отрезок может составлять диапазон от 0 до 2, от 2 до 4 и так далее.
  • Ширина квантования: Разница между верхней и нижней границей квантового отрезка. В примере выше ширина квантового отрезка составляет 2.

Пример

Рассмотрим пример с квантованием непрерывных данных в интервале [0, 10] на 5 квантовых уровней:

  1. Диапазон 0-2: Это первый квантовый отрезок.
  2. Диапазон 2-4: Это второй квантовый отрезок.
  3. Диапазон 4-6: Это третий квантовый отрезок.
  4. Диапазон 6-8: Это четвертый квантовый отрезок.
  5. Диапазон 8-10: Это пятый квантовый отрезок.

Каждому из этих квантовых отрезков будет присвоен соответствующий квантовый уровень, который может быть представлен, например, числами 1, 2, 3, 4 и 5.

Таким образом, "квантовый отрезок" можно рассматривать как интервал значений, который преобразуется в определенный дискретный уровень в процессе квантования.

 

Выше - это почти всё ChatGPT. Публикую к тому, что раз модель правильно всё понимает, то термин встречается в данном контексте.

Я не против, если Вы для декодирования моих сообщений будите использовать понятия схожие, но это не значит, что я изменю свои - в своих статьях писал об этом - давно бы прочитали и разобрались уже.

 

Квантовый отрезок - это бин по сути в концепции дискретизации.

Но опять, же, если переводить этот бин на русский язык, то получим по смыслу ёмкость, в которую укладываются цифровые значения, по сути более примитивное понятие, чем предложил я. Что лучше "ёмкость" (Яндес предлагает считать вообще мусорным ведром, а разработчики CB используют термин "корзина") или "квантовый отрезок"?

А так предлагает переводить ChatGPT:

"

В контексте обработки данных и анализа, термин "bin" чаще всего переводится на русский язык как "интервал" или "корзина". Оба термина используются для обозначения групп значений, на которые разбивается непрерывный диапазон данных.

Возможные переводы:

  1. Интервал:

    • Это наиболее технически точный перевод. Он подчеркивает, что речь идет о разделении диапазона значений на интервалы.
  2. Корзина:

    • Этот термин менее формален и может использоваться в контексте, где важно подчеркнуть, что значения группируются или "собираются" вместе.

Примеры использования:

  • Интервал:

    • "Мы разделили данные на 10 интервалов для анализа распределения."
    • "Гистограмма показывает частоту значений в каждом интервале."
  • Корзина:

    • "Мы сгруппировали данные в корзины, чтобы упростить их анализ."
    • "Каждая корзина содержит значения в определенном диапазоне."

Варианты применения в разных контекстах:

  1. В контексте гистограмм и статистического анализа:
    • "Интервал" чаще используется, когда речь идет о гистограммах, где данные разбиваются на интервалы для отображения распределения значений.
  2. В контексте алгоритмов машинного обучения:
    • "Корзина" может быть более уместным, когда речь идет о группировке данных для подготовки входных данных для алгоритмов.

Примеры:

  • Если вы используете библиотеку scikit-learn и функцию KBinsDiscretizer , можно сказать: "Функция KBinsDiscretizer разбивает непрерывные данные на несколько интервалов."
  • Если вы создаете гистограмму: "Гистограмма разбивает данные на корзины, чтобы показать распределение значений."

Оба термина являются правильными, и выбор между ними зависит от контекста и предпочтений.

"

Интервал или отрезок - по сути схожие понятия.

 
Вот объяснение из физики


Я все-таки склоняюсь к тому, что в вашем случае лучше называть это дискретизацией, а при сжатии информации - квантизацией. Собственно в МО примерно такой смысл и есть, квантизация это синоним сжатия. А дискретизация это разделение непрерывной величины на бины.

Поэтому у меня нерациональный (непознанный) бунт против ваших определений :)
Difference between discretization and quantization in physics
Difference between discretization and quantization in physics
  • 2015.09.13
  • user098876 user098876 1,611 1 1 gold badge 16 16 silver badges 14 14 bronze badges
  • physics.stackexchange.com
I am just trying to understand the fundamental difference between these two concepts in physics: From discreteness of some quantity: one usually interprets it as a quantity being only able to take on distinct set of values, and not all the possible values as would be possible for a quantity with a continuous spectrum, e.g. the position. On the...