トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 210

 

アレクセイ・ブルナコフ
Rで答えを出すようになった。

同一人物との継続的なやりとり...。


Re: [Rd] dgamma density values in extreme point
Duncan Murdochmurdoch.duncan@gmail.com
сегодня в 12:59
Вам
:
burnakov@yandex.ru
Язык письма — английский. Перевести на русский?
Перевести
<span class="mail-Message-Widget-Inline_help ns-action nb-with-s-right-gap" data-click-action="common.show-hint" title="Узнать больше" data-params="pos=right&counter=71105:msg.click.quest&text=Вы можете переводить письма с иностранных языков нажатием одной кнопки. Кроме того, перевод писем доступен по ссылке «Перевести» за вкладкой «подробнее». Если вы считаете, что язык письма определён неправильно, пожалуйста, сообщите нам об этом." style="margin-right: 10px !important; display: inline-flex; cursor: pointer; color: rgb(187, 187, 187); flex-shrink: 0;">
Alexey Burnakov14 ноя. в 1:54 AM
 Hi Duncan,

 "As to the "correctness", we all know that the value of a density at any
 particular point is irrelevant. Only the integrals of densities have
 any meaning. "

 Thank you for clarification. Yes, I agree that what matters practically
 is the cumulative density. One more point.

 There is an opinion expressed by sometimes that while integral from the
 left in point zero of the support == 0, density in this particular point
 cannot be anything than zero. You think that is sound?

No. The value of a density at any particular point is irrelevant.

Duncan Murdoch

被告についてhttp://www.stats.uwo.ca/faculty/murdoch/other.shtml

特に。

Rプロジェクトの詳細についてはwww.r-project.org をご覧くださいWindows版のRをメンテナンスして おり、R用のDLLを書く人のためのTipsのWebページを持って います

About Duncan Murdoch
  • www.stats.uwo.ca
My research interests are in applied statistics (especially orientation statistics) and statistical computing (especially the R project and perfect sampling). I write a fair...
 
サンサニッチ・フォメンコ

ええ、あなたが一番よく分かっているはずです。

そう、もっとはっきり、正直に。

それに、フォーラムの部外者としてスケッチするような政治的能力はない。


Matlab、Wolfram、Mathematicsを「誰だかわからない」と呼ぶこともためらわないでください。

Mathlab(Wolfram)が入っていた統計パッケージのランキングのリンクを教えてください。Matlabはそうでしたが、他界してしまいました。私はあなたのサイトの私のブログで 与え、何度もフォーラムに投稿している

ということに沈黙していますね。

  • 無料Rと有料パッケージの比較を表示します。
  • 数学パッケージの歴史的(5-10年前)な立場を無視し、「彼らは何者でもない」と言い切っていますね。
  • 人気や計算精度の議論も変わってきます。

Matlabはどこにも行っていませんし、他のパッケージも同様です。たしかに有料ですが、クオリティは高いです。確かに人気は落ちますが、精度と品質はどこにも落ちません。

Wolfram Alphaについて読み,そのWebサイトを 研究する - それは,ほとんどできない分析への基本的な投資です.また、Wolfram Alphaは30桁の精度を持ち、彼らの計算品質へのマニアックなこだわりを証明しています。

Wolfram|Alpha: Computational Knowledge Engine
  • www.wolframalpha.com
Wolfram|Alpha is more than a search engine. It gives you access to the world's facts and data and calculates answers across a range of topics, including science, nutrition, history, geography, engineering, mathematics, linguistics, sports, finance, music...
 
アレクセイ・ブルナコフ

Re: [Rd] dgamma density values in extreme point
Duncan Murdochmurdoch.duncan@gmail.com
сегодня в 12:59
Вам

残念ながら、あなたは質問を不完全に表現し、不用意で簡潔な丁寧な「それは問題ではない」という回答を受け取っています。

あなたは、質問自体にそれを定式化することで、「そう合意した/合意した」という答えを望んでいたのです。しかし、ダンカンは一度目は「正しいこと」で逃げ、二度目はそれを繰り返した。

Rでの精度の証明は得られず、なぜ他のパッケージで結果が違うのかの回答も得られなかったのですね。他のパッケージではなぜ答えが違うのか」という問いの方が重要であり、より明らかになるかもしれません。


私たちの立場

выражение для dgamma

(x)= 1/(s^a Gamma(a)) x^(a-1) e^-(x/s)

for x ≥ 0, a > 0 and s > 0


в точке 0 является неопределенным.

Rは、この点を計算に含めても、dgamma(0,0.5,1)のように無限大であっても限界値をとればよいと考えるのです。

しかし、ゼロ点で無限大を与えて確率を計算すると、dgammaからの積分はすべて形式的に無限大になり、この論理によってpgammaはすべてのxの値に対して無限大に等しくなるはずである。

しかし、これは、すべての値が有限であることが判明したpgammaの結果と矛盾している。点x=0において密度が=0であると仮定すれば、それらは正しい。
 

For@SanSanych Fomenko- TIOBE 世界プログラミング言語ランキングで MQL4/MQL5 が 41 位に上昇http://www.tiobe.com/tiobe-index/

Rは19位、Mathlabは15位。

これは、「権威ではない」「世界トップではない」というあなたの発言を払拭するためのものです。

TIOBE Index | TIOBE - The Software Quality Company
  • www.tiobe.com
TIOBE Index for November 2016 November Headline: Is Haskell finally going to hit the top 20? Some people say that Haskell is the most mature purely functional programming language available nowadays. It has quite a long history, dating back from 1990 and its community is growing, although slowly. This month Haskell is only 0.255% away from the...
 

議論の糸口を失わないために、Rの検定の過程で見つかった非心t分布の分位数の計算の誤りを紹介します。

例えば、こんな感じです。

> n <- 10
> k <- seq(0,1,by=1/n)
> nt_pdf<-dt(k, 10,8, log = FALSE)
> nt_cdf<-pt(k, 10,8, log = FALSE)
> nt_quantile<-qt(nt_cdf, 10,8, log = FALSE)
> nt_pdf
 [1] 4.927733e-15 1.130226e-14 2.641608e-14 6.281015e-14 1.516342e-13 3.708688e-13 9.166299e-13
 [8] 2.283319e-12 5.716198e-12 1.433893e-11 3.593699e-11
> nt_cdf
 [1] 6.220961e-16 1.388760e-15 3.166372e-15 7.362630e-15 1.742915e-14 4.191776e-14 1.021850e-13
 [8] 2.518433e-13 6.257956e-13 1.563360e-12 3.914610e-12
> k
 [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
> nt_quantile
 [1]           -Inf -1.340781e+154 -1.340781e+154 -1.340781e+154 -1.340781e+154 -1.340781e+154
 [7] -1.340781e+154   7.000000e-01   8.000000e-01   9.000000e-01   1.000000e+00

Lenth [6]が提案したアルゴリズム AS 243 を用いて、R で Student の t 分布の非中心 T 分布の確率を計算する。この方法の利点は、不完備なβ関数を持つ無限級数の項を高速に漸化計算できることである。しかし、このアルゴリズムは、特に非心パラメータδの値が大きい場合に、系列の項を合計する際の精度推定誤差によるエラーを引き起こすことが論文[7]で示された(論文[7]の表2)。論文[7]の著者らは、非中心T分布確率を再帰的に計算する補正アルゴリズムを提案した。

弊社の統計ライブラリMQL5は、論文[7]にある正しい確率計算のアルゴリズムを使用しており、正確な結果を得ることができます。


さらにRでは、点x=0におけるガンマ分布、カイ二乗分布、非心カイ二乗分布の密度の定義方法が無限大の式になる。

> dgamma(0,0.5,1)
[1] Inf
> dchisq(0,df=0.5,ncp=1)
[1] Inf
> dchisq(0,df=0.5,ncp=0)
[1] Inf

したがって、Rの点x=0は密度の式の定義域に含まれ、解は極限値であることがわかる。

この場合、x=0における極限値は無限大となる。この方法では、0からx>0まで積分した結果、点x=0での発散により、確率は無限大となるはずである。

ただし、確率計算の結果(例えばx=0.1の場合)は有限の式になる。

> pgamma(0.1,0.5,1)
[1] 0.3452792
> pchisq(0.1,df=0.5,ncp=0)
[1] 0.5165553
> pchisq(0.1,df=0.5,ncp=1)
[1] 0.3194965

点x=0では密度が無限とみなされるにもかかわらず、Rでの確率計算の結果は無限ではなく、Wolfram Alphaの値(ガンマカイ二乗非心カイ二乗)と一致するのである。

x=0で無限大になる関数の積分の問題を避けるため、Wolfram Alpha (Mathematica) と Matlabでは、点x=0での密度は定義上0になります。


図3.Wolfram Alphaにおけるガンマ分布の確率密度決定


図4.Wolfram Alphaでカイ二乗分布の確率密度を決定する



図5.Wolfram Alphaで非心カイ二乗分布の確率密度関数を決定する


私たちは、この考え方が正しいと思います。これにより、確率密度関数の不確実性を回避し、確率密度関数を積分する際に発生しうる無限大の値の問題を解決することができます。

このため、点x=0では、これらの分布の密度は、Rのように無限ではなく、定義上ゼロであると仮定されている。

計算が正確であることを確認し、サードパーティの開発者がライブラリの品質をチェックする可能性を与えるために、いくつかのユニットテストスクリプトを配信に含めています。

文学

  1. 統計計算のためのRプロジェクト
  2. Balakrishnan N., Johnson N.L., Kotz S."一変量連続分布: パート1". モスクワ:BINOM.知のラボラトリー、2014年
  3. Balakrishnan N., Johnson N.L., Kotz S."一変量連続分布: パート2".M.: BINOM.知のラボラトリー、2014年
  4. Johnson N.L., Kotz S., Kemp A."Univariate discrete distributions", Moscow: BINOM.ナレッジラボ、2014年
  5. Forbes C., Evans M., Hastings N., Peacock B.,"Statistical Distributions", 4th Edition, John Wiley and Sons, 2011.
  6. Lenth, R.V.,'非心t分布の累積分布関数', Applied Statistics, vol.38 (1989), 185-189.
  7. D.ベントン、K.Krishnamoorthy,"Computing discrete mixtures of continuous distributions: noncentral chisquare, noncentral t and distribution of the square of sample multiple correlation coefficient", Computational Statistics & Data Analysis, 43, (2003), 249-267.
Wolfram|Alpha: Computational Knowledge Engine
  • www.wolframalpha.com
Wolfram|Alpha is more than a search engine. It gives you access to the world's facts and data and calculates answers across a range of topics, including science, nutrition, history, geography, engineering, mathematics, linguistics, sports, finance, music...
 
レナト・ファットフーリン

For@Sanych Fomenko-MQL4/MQL5は 世界TIOBEプログラミング言語ランキングで41位 http://www.tiobe.com/tiobe-index/

Rは19 位、Mathlabは15位。

これは、「権威がない」「世界トップではない」というあなたの発言を払拭するためのものです。

私は統計について議論しているのです。そして、私の統計パッケージ別ランキング。

さらに引用された引用文では、アルゴリズム言語に関するこれらの統計において、RはMQL4/5より上位にランクされています。しかし、それは、例えばMQLからRに乗り換える理由には全く なりません。Rのアルゴリズム能力については全く議論していません。

私にとってRの最大の強みは、そのパッケージ、このシステム全体のサポート、それらを開発した人々の権威、巨大なRの溜まり場、結局のところRと結びついた膨大な数の出版物なのです。

しかし、15年間科学委員会にいた人間としては"Rのアナログ "と書くとであれば、それは例外なくアナログです。そして、それ以外の方法はない。そうでなければ、それはRのアナログではなく、より正しいかもしれないが、アナログではない

 
サンサニッチ・フォメンコ

統計学について論じています。統計パッケージに関する私の評価も。

さらに引用された引用文では、アルゴリズム言語に関するこの統計で、RはMQL4/5より上位にランクされています。しかし、それは、たとえばMQLからRに乗り換える理由にはなりませんRのアルゴリズム能力については全く議論して いません。

そして、Rの具体的なエラーについて議論しています。

だから、数学と特殊なケースを知らないのだから、わざわざ評価する必要はない。

 

サンサニッチ・フォメンコ

...

私にとってRの最大の強みは、パッケージ、システム全体のサポート、開発した人の権威、Rに関する巨大なたまり場、結局Rに結びついた膨大な数の出版物です。
...

このRは、なんと四角い車輪のついた自転車という腐ったものだ。そのベースとなるRカーネルが曲がっていて、「ペンシルファイル」で真剣に改善する必要があるのに、そのパッケージのいくつかをどう言えばいいのでしょうか。長年、Rの基本的な関数の正しさをチェックする気にもならなかった人たちに、どんな信頼性があるのでしょうか?Rの弱点である、Rによる計算の不正確さを「強さ」とすることはできるのか?

MetaQuotesが一部のユーザーの目を開かせ、オープンソースでテストすることで、根拠のないことではなく、誰もが独立してダブルチェックし、確認できるようになったことは良いことだと思います。もちろん、すべてが開かれたわけではありません。Rの破壊的な宗派からのいくつかの宗教的狂信者は、盲目的に彼らの曲がった言語とパッケージで計算の "無謬性 "を信じて、代わりに提示テストに回し、それらを自分でダブルチェックするのではなく、狂信的にうそをつく、Rの曲がりを擁護するので "一般に認められた標準 "として、。

これで、取引戦略の作成は、カーブやスラッシュRで行うよりも、MQLの機能を使った方が正しい結果になることがよくわかりました。

MetaQuotesの開発者は、建設的なアプローチ、テスト、そのソース、そして「裸の王様-R」の特定に対して、特別な感謝を捧げるに値します

 
量子力学
我々は、幅0に興味があるのではなく、このような積分がどのように振る舞うか、すなわちcdf(x)を理解する必要があるのだ。どのような関数が得られるのでしょうか? pgamma(x) と一致するのでしょうか?

> dgamma_05_1 <- function(x)dgamma(x,0.5,1) #всего 1 параметр, чтоб удобней работать

> pgamma_05_1 <- function(x)pgamma(x,0.5,1#всего 1 параметр, чтоб удобней работать

> pgamma_05_1_integralform <- function(x)integrate(dgamma_05_1, 0, x)$value #вычисление pgamma путём интегрирования dgamma
>
> pgamma_05_1(0.00001)
[1] 0.003568236
> pgamma_05_1_integralform(0.00001)
[1] 0.003568236
> pgamma_05_1(0.00001) - pgamma_05_1_integralform(0.00001)
[1] -6.938894 e-18
>
> pgamma_05_1(0.0001)
[1] 0.01128342
> pgamma_05_1_integralform(0.0001)
[1] 0.01128342
> pgamma_05_1(0.0001) - pgamma_05_1_integralform(0.0001)
[1] 3.295975 e-17
>
> pgamma_05_1(0.001)
[1] 0.03567059
> pgamma_05_1_integralform(0.001)
[1] 0.03567059
> pgamma_05_1(0.001) - pgamma_05_1_integralform(0.001)
[1] 1.595946 e-16
>
> pgamma_05_1(0.01)
[1] 0.1124629
> pgamma_05_1_integralform(0.01)
[1] 0.1124629
> pgamma_05_1(0.01) - pgamma_05_1_integralform(0.01)
[1] 1.096345 e-15
>
> pgamma_05_1(0.1)
[1] 0.3452792
> pgamma_05_1_integralform(0.1)
[1] 0.3452792
> pgamma_05_1(0.1) - pgamma_05_1_integralform(0.1)
[1] 1.126876 e-13
>
> pgamma_05_1(1)
[1] 0.8427008
> pgamma_05_1_integralform(1)
[1] 0.8427008
> pgamma_05_1(1) - pgamma_05_1_integralform(1)
[1] 3.460265 e-11

標準的な方法で求めた pgamma() と integrate(dgamma()) がほぼ一致していることから、x=1 では3.460265e-11 の誤差しかないことがわかります。しかし、このような誤差が生じるのは当然で、ここでの積分は、事前の解析や簡略化を行わず、小さなステップの積み重ねで行われるからです。pgamma()関数自体はC++で書かれており、integrate()よりも精度が高いはずです。そのため、integrate(dgamma(x,0.5,1),0,x) の代わりに pgamma(x,0.5,1) を使用する必要があるのです。

 
ユーリー・レシェトフ

そのコアとなるRカーネルが曲がっていて、「鉛筆とヤスリ」で真剣に微調整する必要があるのに、そのパッケージについて何を言えるのでしょうか?

R言語が曲者で遅い。

純粋に古典的な統計学、つまり基本納品分と追加パッケージ分の両方に分けて議論すれば、ここは問題ないと思います。何百万もの統計テストを行うのであれば、他の言語(MQLを含む)の性能もプラスになります。

一般的なRプログラミングの話をすると、高速なデータ処理にはdplyrやdata.table、グラフにはggplot2といったパッケージが使われますね。R自体は、やはりスクリプト言語であり、古くからあるもので、大量データ用に設計されたものではありません。

しかし、これだけやっても、あなたの側からの泥の流れは不当に多い。ここでは統計の話をしていたのであって、コードのリファクタリングなどの技術的な話でもないのです。数学的な概念についての議論だった。

理由: