Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2367

 
Aleksey Nikolayev:

Некоторые вещи, которые потом весьма нравятся, кажутся поначалу мерзкими - кофе, икра, васаби, рок-музыка и тд) 

это точно, я тоже по началу не понимал некоторых структур в р-ке, думал что это за бред 

например писал все через цикл и не понимал семейство "apply"  , а потом оказалось что можно выиграть в читабельности, скорости и с 6-ти строк кода сделать одну

 
mytarmailS:

это точно, я тоже по началу не понимал некоторых структур в р-ке, думал что это за бред 

например писал все через цикл и не понимал семейство "apply"  , а потом оказалось что можно выиграть в читабельности, скорости и с 6-ти строк кода сделать одну

Не только apply. Я чаще пользую foreach, можно распараллелить не переделывая код... Иногда полезен итератор, попробуйте

library(coro)
abc <- generate_abc()
loop(for (x in abc) print(x))

Удачи

 
Vladimir Perervenko:

Не только apply. Я чаще пользую foreach, можно распараллелить не переделывая код... Иногда полезен итератор, попробуйте

Удачи

Спасибо!

 
mytarmailS:

Спасибо!

А что такое   generate_abc ? я так и не понял потому что пример дает ошибку

library(coro)
> abc <- generate_abc()
Error in generate_abc() : could not find function "generate_abc"
 

Все эти операции есть в питоне

print([x for x in range(50)])
 
Это всё началось в лиспе и особенно развито в функциональном программировании, элементы которого есть как в R, так и в питоне.
 
Прочел случайно статью с утверждением для меня удивительным. Predictors, responses and residuals: What really needs to be normally distributed?

Несколько цитат:

"Многие ученые обеспокоены нормальностью или ненормальностью переменных в статистическом анализе. Следующие и подобные мнения часто выражаются, публикуются или преподаются:

  • «  Если вы хотите вести статистику, тогда все должно быть нормально распределено  ».
  • «  Мы нормализовали наши данные, чтобы соответствовать предположению о нормальности  ».
  • «  Мы преобразовали наши данные в журнал, поскольку они имели сильно искаженное распределение  ».
  • «  После того, как мы подобрали модель, мы проверили гомоскедастичность остатков  ».
  • «  Мы использовали непараметрический тест, поскольку наши данные не соответствовали предположению о нормальности  ».

И так далее.  Я знаю, что это сложнее, но все же кажется, что нормальное распределение - это то, что люди хотят видеть повсюду, и что нормальное распределение вещей открывает дверь к чистой и убедительной статистике и сильным результатам.  Многие люди, которых я знаю, перед анализом регулярно проверяют, нормально ли распределяются их данные, а затем они либо пытаются «нормализовать» их, например, с помощью логарифмического преобразования, либо соответствующим образом корректируют статистический метод на основе частотного распределения своих данных.  Здесь я исследую это более внимательно и покажу, что предположений о нормальности может быть меньше, чем можно было бы подумать."

Дальше обоснование мысли и вывод:

" Почему люди до сих пор нормализуют данные?

Еще одна загадочная проблема заключается в том, почему люди по-прежнему склонны «нормализовать» свои переменные (как предикторы, так и ответы) до подгонки модели.  Почему эта практика возникла и стала преобладать, даже если нет никаких предположений, которые могли бы ее вызвать?  У меня есть несколько теорий на этот счет: незнание, склонность следовать статистическим кулинарным книгам, распространение ошибок и т. Д.
Два объяснения кажутся более правдоподобными: во-первых, люди нормализуют данные, чтобы линеаризовать отношения.  Например, с помощью логарифмического преобразования предиктора можно подобрать экспоненциальную функцию, используя обычный механизм наименьших квадратов.  Это может показаться нормальным, но тогда почему бы не указать нелинейную взаимосвязь непосредственно в модели (например, с помощью соответствующей функции ссылки)?  Кроме того, практика логарифмического преобразования ответа может привести к серьезным артефактам, например, в случае данных подсчета с нулевым счетчиком (O'Hara & Kotze 2010).
Вторую правдоподобную причину «нормализации» практики предложила моя коллега Кэтрин Мертес-Шварц: возможно, это связано с тем, что исследователи пытаются решить проблему, и их данные были собраны очень слипчиво и неравномерно.  Другими словами, очень часто один работает с данными, которые имеют большое количество наблюдений, агрегированных в определенной части градиента, в то время как другая часть градиента относительно недопредставлена.  Это приводит к искаженным распределениям.  Преобразование таких распределений приводит к кажущемуся регулярному распространению наблюдений по градиенту и устранению выбросов.  На самом деле это можно сделать с добрыми намерениями.  Однако это тоже в корне неверно."

Для меня это утверждение (шокирующее?) , не могу подобрать подходящее слово. Но буду учитывать в дальнейшем

Predictors, responses and residuals: What really needs to be normally distributed?
Predictors, responses and residuals: What really needs to be normally distributed?
  • www.r-bloggers.com
[This article was first published on Are you cereal? » R , and kindly contributed to R-bloggers]. (You can report issue about the content on this page here)
 
Maxim Dmitrievsky:

Все эти операции есть в питоне

Это не о print а о генераторах и итераторах.

 
Vladimir Perervenko:
Прочел случайно статью с утверждением для меня удивительным. Predictors, responses and residuals: What really needs to be normally distributed?

Пассаж про линейную регрессию выдаёт автора, как человека незнакомого с теорвером/матстатом. Стандартный вариант предположений для ЛР - входы детерминированы (например, моменты времени), а распределения выходов зависят от распределения шума (и каждый выход будет иметь своё матожидание, зависящее от входа и отличное от других).

Другой вариант - если входы и выходы берутся из какого-то совместного распределения, то здесь условие применимости модели линейной регрессии ещё жёстче - нормальным должно быть СОВМЕСТНОЕ (двумерное, как минимум) распределение. Без этого допущения про МНК можно забыть.

 
Vladimir Perervenko:
Прочел случайно статью с утверждением для меня удивительным. Predictors, responses and residuals: What really needs to be normally distributed?

Несколько цитат:

"Многие ученые обеспокоены нормальностью или ненормальностью переменных в статистическом анализе. Следующие и подобные мнения часто выражаются, публикуются или преподаются:

  • «  Если вы хотите вести статистику, тогда все должно быть нормально распределено  ».
  • «  Мы нормализовали наши данные, чтобы соответствовать предположению о нормальности  ».
  • «  Мы преобразовали наши данные в журнал, поскольку они имели сильно искаженное распределение  ».
  • «  После того, как мы подобрали модель, мы проверили гомоскедастичность остатков  ».
  • «  Мы использовали непараметрический тест, поскольку наши данные не соответствовали предположению о нормальности  ».

Из за требования сетей к нормализации данных, нормальному распределнию, и куче доп. настроек - перешел на деревовидные системы. Они запомнят данные как есть.

А после наименования ИИ ( в одной из статей для простых людей ) как базы данных на основе нейросетей или деревьев, стал относиться к ним именно, как к базам данных, которые в 1 ячейке(листе) могут хранить несколько очень похожих строк, т.е. заодно и обобщать. При делении дерева до последнего примера, в ячейках будут только одинаковые строки без обобщения - т.е. получится чистая база данных. Нам все таки нужно обобщать, поэтому останавливаем деление листьев пораньше.