Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3081
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Этого в статье нет.
Описана обычная подгонка с разным делением исходных предикторов, включая кросс валидацию. Обыденность, которую закумуфлировали словами.
Спасибо за экспертное мнение.
и nuisance ф-ии (или параметры) это не функции шума, а вспомогательные, которые не являются целевыми для конкретной задачи
Можно ссылку в статье на вид этих "вспомогательных" функций?
В то же время довольно подробно описаны причины использования RF, который назван базовой функцией и который вычисляет большое количество сведений в результате работы:
An object of class randomForest , which is a list with the following components:
the original call to randomForest
one of regression , classification , or unsupervised .
the predicted values of the input data based on out-of-bag samples.
a matrix with nclass + 2 (for classification) or two (for regression) columns. For classification, the first nclass columns are the class-specific measures computed as mean descrease in accuracy. The nclass + 1st column is the mean descrease in accuracy over all classes. The last column is the mean decrease in Gini index. For Regression, the first column is the mean decrease in accuracy and the second the mean decrease in MSE. If importance=FALSE , the last measure is still returned as a vector.
The “standard errors” of the permutation-based importance measure. For classification, a p by nclass + 1 matrix corresponding to the first nclass + 1 columns of the importance matrix. For regression, a length p vector.
a p by n matrix containing the casewise importance measures, the [i,j] element of which is the importance of i-th variable on the j-th case. NULL if localImp=FALSE .
number of trees grown.
number of predictors sampled for spliting at each node.
(a list that contains the entire forest; NULL if randomForest is run in unsupervised mode or if keep.forest=FALSE .
(classification only) vector error rates of the prediction on the input data, the i-th element being the (OOB) error rate for all trees up to the i-th.
(classification only) the confusion matrix of the prediction (based on OOB data).
(classification only) a matrix with one row for each input data point and one column for each class, giving the fraction or number of (OOB) ‘votes’ from the random forest.
number of times cases are ‘out-of-bag’ (and thus used in computing OOB error estimate)
if proximity=TRUE when randomForest is called, a matrix of proximity measures among the input (based on the frequency that pairs of data points are in the same terminal nodes).
(regression only) vector of mean square errors: sum of squared residuals divided by n .
(regression only) “pseudo R-squared”: 1 - mse / Var(y).
if test set is given (through the xtest or additionally ytest arguments), this component is a list which contains the corresponding predicted , err.rate , confusion , votes (for classification) or predicted , mse and rsq (for regression) for the test set. If proximity=TRUE , there is also a component, proximity , which contains the proximity among the test set as well as proximity between test and training data.
Неизвестно, что конкретно использует автор из приведенного перечня, но других источников определения ошибок классификации или регрессии при использовании RF просто нет да и не нужно.
При разных вариантах комбинаций входных данных ошибки, выдаваемые RF, будут разными. Именно это и изучает автор и делает выводы о дисперсии ошибок и неком, не известно как вычисляемом смещении.
А вы еще и психотерапевт по совместительству? Нет, все по факту.
Да, ищу клиентов, хотите записаться?
По факту Вы не воспринимаете критику. Увидели нечто похожее, что вы делаете - с фильтрацией неудобных учасков выборки, что в вашем сознании придало научность вашему подходу и теперь это защищаете. Один из способ защиту у вас - нападение - с уязвлением и оскорблением оппонента. Я признаю, что есть прогресс в этом вопросе - стали сдержанней - и даже можно Вас похвалить в этом.
В то же время, моё предложение о совместной деятельности, т.е. конструктивное предложение, направленное на обогащение знаний об исследуемом предмете - вы называете отвлечением от темы.
В чем же тема этой ветки - демонстрировать красоту и уникальность ума отдельно взятых участников? Иными словами балабольство, а не поиск истины, на ваш взгляд?
Я очень четко понимаю что пишу, иначе бы не писал. А ты нет. Кончай флудеть, надоел.
Максим, я сбросил перевод ранее, что мне удалось получить. Из него, честно говоря, я пришел к схожим выводам, что и СанСаныч Фоменко . Я допускаю, что это искаженный перевод, так как многое там просто странно звучит то они выборку лечат, то подгонкой занимаются показателей...
Поэтому я и предлагаю Вам пояснить то, что никто не понял, своими словами, хотя бы тезисно. Может после этого я буду воспринимать написанную информацию подругому.
Вот выдержка из перевода, всё ли понятно написано?
Этого в статье нет.
Описана обычная подгонка с разным делением исходных предикторов, включая кросс валидацию. Обыденность, которую закумуфлировали словами.
У меня вопрос к знатокам машинного обучения. Если я использую данные одного символа для обучения, данные другого символа для валидации и данные третьего символа для тестирования, является ли это хорошей практикой?
Кроме того, я получаю следующие результаты тестовых данных: зеленые ячейки очень хорошие, желтые ячейки хорошие, красные ячейки средние.
А также вопрос о модификации данных для обучения модели. Я заметила, что модель с трудом находит экстремумы, в моем случае значения выше 60 и значения ниже 40.
Поэтому я нахожу в тренировочных данных значения выше 60 и ниже 40, которые я дополнительно повторно добавляю в тренировочные данные перед их подачей в модель, поэтому вопрос: можно ли повысить точность модели за счет увеличения обучающие данные, содержащие информацию об экстремумах?
хорошая книга по ML , DM
https://mhahsler.github.io/Introduction_to_Data_Mining_R_Examples/book/introduction.html
У меня вопрос к знатокам машинного обучения. Если я использую данные одного символа для обучения, данные другого символа для валидации и данные третьего символа для тестирования, является ли это хорошей практикой?
кратко НЕТ
вы тренируете модель распознавать арбузы , тестите на яблоках , валидируете на...
У меня вопрос к знатокам машинного обучения. Если я использую данные одного символа для обучения, данные другого символа для валидации и данные третьего символа для тестирования, является ли это хорошей практикой?
Попробуйте использовать один и тот же символ с добавлением шума.
Попробуйте использовать один и тот же символ с добавлением шума.
думаю лучше время сместить если это не тики,
шум он всетаки искажает данные, да и параметры есть у шума и не понятно какие выбрать , да и вообще почему тогда не делать сразу котировки из шума как я делал недавно