Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3081

 
СанСаныч Фоменко #:

Этого в статье нет.

Описана обычная подгонка с разным делением исходных предикторов, включая кросс валидацию. Обыденность, которую закумуфлировали словами.

Спасибо за экспертное мнение.

 
Maxim Dmitrievsky #:


и nuisance ф-ии (или параметры) это не функции шума, а вспомогательные, которые не являются целевыми для конкретной задачи


Можно ссылку в статье на вид этих "вспомогательных" функций?

В то же время довольно подробно описаны причины использования RF, который назван базовой функцией и который вычисляет большое количество сведений в результате работы:

An object of class  randomForest , which is a list with the following components:

call

the original call to  randomForest

type

one of  regression ,  classification , or  unsupervised .

predicted

the predicted values of the input data based on out-of-bag samples.

importance

a matrix with  nclass  + 2 (for classification) or two (for regression) columns. For classification, the first  nclass  columns are the class-specific measures computed as mean descrease in accuracy. The  nclass  + 1st column is the mean descrease in accuracy over all classes. The last column is the mean decrease in Gini index. For Regression, the first column is the mean decrease in accuracy and the second the mean decrease in MSE. If  importance=FALSE , the last measure is still returned as a vector.

importanceSD

The “standard errors” of the permutation-based importance measure. For classification, a  p  by  nclass + 1  matrix corresponding to the first  nclass + 1  columns of the importance matrix. For regression, a length  p  vector.

localImp

a p by n matrix containing the casewise importance measures, the [i,j] element of which is the importance of i-th variable on the j-th case.  NULL  if  localImp=FALSE .

ntree

number of trees grown.

mtry

number of predictors sampled for spliting at each node.

forest

(a list that contains the entire forest;  NULL  if  randomForest  is run in unsupervised mode or if  keep.forest=FALSE .

err.rate

(classification only) vector error rates of the prediction on the input data, the i-th element being the (OOB) error rate for all trees up to the i-th.

confusion

(classification only) the confusion matrix of the prediction (based on OOB data).

votes

(classification only) a matrix with one row for each input data point and one column for each class, giving the fraction or number of (OOB) ‘votes’ from the random forest.

oob.times

number of times cases are ‘out-of-bag’ (and thus used in computing OOB error estimate)

proximity

if  proximity=TRUE  when  randomForest  is called, a matrix of proximity measures among the input (based on the frequency that pairs of data points are in the same terminal nodes).

mse

(regression only) vector of mean square errors: sum of squared residuals divided by  n .

rsq

(regression only) “pseudo R-squared”: 1 -  mse  / Var(y).

test

if test set is given (through the  xtest  or additionally  ytest  arguments), this component is a list which contains the corresponding  predicted ,  err.rate ,  confusion ,  votes  (for classification) or  predicted ,  mse  and  rsq  (for regression) for the test set. If  proximity=TRUE , there is also a component,  proximity , which contains the proximity among the test set as well as proximity between test and training data.


Неизвестно, что конкретно использует автор из приведенного перечня, но других источников определения ошибок классификации или регрессии при использовании RF просто нет да и не нужно. 

При разных вариантах комбинаций входных данных ошибки, выдаваемые RF, будут разными. Именно это и изучает автор и делает выводы о дисперсии ошибок и неком, не известно как вычисляемом смещении.

 
Maxim Dmitrievsky #:
А вы еще и психотерапевт по совместительству? Нет, все по факту.

Да, ищу клиентов, хотите записаться?

По факту Вы не воспринимаете критику. Увидели нечто похожее, что вы делаете - с фильтрацией неудобных учасков выборки, что в вашем сознании придало научность вашему подходу и теперь это защищаете. Один из способ защиту у вас - нападение - с уязвлением и оскорблением оппонента. Я признаю, что есть прогресс в этом вопросе - стали сдержанней - и даже можно Вас похвалить в этом.

В то же время, моё предложение о совместной деятельности, т.е. конструктивное предложение, направленное на обогащение знаний об исследуемом предмете - вы называете отвлечением от темы.

В чем же тема этой ветки - демонстрировать красоту и уникальность ума отдельно взятых участников? Иными словами балабольство, а не поиск истины, на ваш взгляд?

 
Maxim Dmitrievsky #:
Я очень четко понимаю что пишу, иначе бы не писал. А ты нет. Кончай флудеть, надоел.
Изучи материал, потом обсудим. Не осилишь - я не расстроюсь. Разжевать и в рот положить - это к другим людям.

Максим, я сбросил перевод ранее, что мне удалось получить. Из него, честно говоря, я пришел к схожим выводам, что и  СанСаныч Фоменко . Я допускаю, что это искаженный перевод, так как многое там просто странно звучит то они выборку лечат, то подгонкой занимаются показателей...

Поэтому я и предлагаю Вам пояснить то, что никто не понял, своими словами, хотя бы тезисно. Может после этого я буду воспринимать написанную информацию подругому.

Вот выдержка из перевода, всё ли понятно написано?


 
СанСаныч Фоменко #:

Этого в статье нет.

Описана обычная подгонка с разным делением исходных предикторов, включая кросс валидацию. Обыденность, которую закумуфлировали словами.

У меня вопрос к знатокам машинного обучения. Если я использую данные одного символа для обучения, данные другого символа для валидации и данные третьего символа для тестирования, является ли это хорошей практикой?

Кроме того, я получаю следующие результаты тестовых данных: зеленые ячейки очень хорошие, желтые ячейки хорошие, красные ячейки средние.


А также вопрос о модификации данных для обучения модели. Я заметила, что модель с трудом находит экстремумы, в моем случае значения выше 60 и значения ниже 40. 
Поэтому я нахожу в тренировочных данных значения выше 60 и ниже 40, которые я дополнительно повторно добавляю в тренировочные данные перед их подачей в модель, поэтому вопрос: можно ли повысить точность модели за счет увеличения обучающие данные, содержащие информацию об экстремумах?

inputs_unique, indices = np.unique(inputs, axis=0, return_index=True)
outputs_unique = outputs[indices]

# Find indices where outputs_unique values are greater than 60
indices_greater_than_60 = np.where(outputs_unique > 0.6)

# Get the corresponding inputs_unique and outputs_unique values
filtered_inputs_greater = inputs_unique[indices_greater_than_60]
filtered_outputs_greater = outputs_unique[indices_greater_than_60]

# Add filtered_inputs values to inputs_unique
inputs_unique = np.concatenate((inputs_unique, filtered_inputs_greater), axis=0)
# Add filtered_outputs values to outputs_unique
outputs_unique = np.concatenate((outputs_unique, filtered_outputs_greater), axis=0)

# Find indices where outputs_unique values are smaller than 40
indices_smaller_than_40 = np.where(outputs_unique < 0.4)

# Get the corresponding inputs_unique and outputs_unique values
filtered_inputs_smaller = inputs_unique[indices_smaller_than_40]
filtered_outputs_smaller = outputs_unique[indices_smaller_than_40]

# Add filtered_inputs values to inputs_unique
inputs_unique = np.concatenate((inputs_unique, filtered_inputs_smaller), axis=0)
# Add filtered_outputs values to outputs_unique
outputs_unique = np.concatenate((outputs_unique, filtered_outputs_smaller), axis=0)
 
Chapter 1 Introduction | An R Companion for Introduction to Data Mining
  • Michael Hahsler
  • mhahsler.github.io
1.1 Used Software This companion book assumes that you have R and RStudio Desktop installed and that you are familiar with the basics of R, how to run R code and install packages. If you are new...
 
  

 
Lilita Bogachkova #:

У меня вопрос к знатокам машинного обучения. Если я использую данные одного символа для обучения, данные другого символа для валидации и данные третьего символа для тестирования, является ли это хорошей практикой?

кратко НЕТ

вы тренируете модель распознавать арбузы , тестите на яблоках , валидируете на...

 
Lilita Bogachkova #:

У меня вопрос к знатокам машинного обучения. Если я использую данные одного символа для обучения, данные другого символа для валидации и данные третьего символа для тестирования, является ли это хорошей практикой?

Попробуйте использовать один и тот же символ с добавлением шума.

 
Rorschach #:

Попробуйте использовать один и тот же символ с добавлением шума.

думаю лучше время сместить если это не тики,

шум он всетаки искажает данные,  да и параметры есть у шума и не понятно какие выбрать , да и вообще почему тогда не делать сразу котировки из шума как я делал недавно