AMDのプロセッサは、SSE4aパッケージの一部であるABM(Advanced Bit Manipulation)命令を使用している(これらの命令はIntelでも使用されているが、SSE4.2およびBMI1の一部として実装されている)。また、AMDのプロセッサは、BMI1を拡張したTBM(Trailing Bit Manipulation)命令セットを採用しています。
DF 013:27:26.728 Core 4 pass 6 returned result 1001000.00in0:00:28.342
HL 013:27:26.732 Core 1 pass 2 returned result 1001000.00in0:00:28.414
PE 013:27:26.844 Core 3 pass 4 returned result 1001000.00in0:00:28.476
PJ 013:27:26.936 Core 2 pass 0 returned result 1001000.00in0:00:28.619
QP 013:27:53.132 Core 4 pass 7 returned result 1001000.00in0:00:26.406
KI 013:27:53.219 Core 1 pass 3 returned result 1001000.00in0:00:26.489
MN 013:27:53.337 Core 3 pass 5 returned result 1001000.00in0:00:26.495
ND 013:27:53.571 Core 2 pass 1 returned result 1001000.00in0:00:26.637
OR 013:27:53.571 Tester optimization finished, total passes 8
OF 013:27:53.582 Statistics optimization done in0 minutes 57 seconds
PI 013:27:53.582 Statistics shortest pass 0:00:26.406, longest pass 0:00:28.619, average pass 0:00:27.484
NM 013:27:53.582 Statistics 8000 frames (3.14 Mb total, 412 bytes per frame) received
HL 013:27:53.582 Statistics local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)
8人のエージェント 8人のパス
DI 013:30:59.789 Core 2 pass 1 returned result 1001000.00in0:00:33.072
KN 013:30:59.887 Core 1 pass 0 returned result 1001000.00in0:00:33.177
PD 013:31:00.132 Core 3 pass 2 returned result 1001000.00in0:00:33.422
PM 013:31:00.245 Core 4 pass 3 returned result 1001000.00in0:00:33.531
RR 013:31:00.590 Core 8 pass 7 returned result 1001000.00in0:00:32.922
IH 013:31:00.615 Core 5 pass 4 returned result 1001000.00in0:00:33.197
CQ 013:31:00.981 Core 6 pass 5 returned result 1001000.00in0:00:33.506
GF 013:31:01.111 Core 7 pass 6 returned result 1001000.00in0:00:33.614
CS 013:31:01.111 Tester optimization finished, total passes 8
KG 013:31:01.122 Statistics optimization done in0 minutes 35 seconds
RN 013:31:01.122 Statistics shortest pass 0:00:32.922, longest pass 0:00:33.614, average pass 0:00:33.305
NO 013:31:01.122 Statistics 8000 frames (3.14 Mb total, 412 bytes per frame) received
HJ 013:31:01.122 Statistics local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)
BMI2(BMI1の補完)。
MPXやSGXはプロテクションの話なので、あえて言えば、コンパイラがBMI2命令・技術を積極的に使っていて、TSXの影響がある、可能性が低いということでしょうかね。
カード上のOpenCLは、マルチプロセッサよりも先験的にはるかに効率的となります。
そして、プロセッサーを比較するこの面倒なことは忘れてください。
しかし、そうですね、OpenCL用のコードをどう書くかを考えなければなりません。
どれだけ参考になるかというと......自分ではなかなか読めないんですよ。
アレクセイ、OpenCLのコードの書き方を勉強して、そのために良いカードを手に入れる方が効率的だと思うんだ。カード上のOpenCLは、複数のプロセッサよりもアプリオリに効率的です。 そして、プロセッサを比較するこの面倒なことを忘れてください。しかし、そうですね、OpenCL用のコードをどう書くかを考えなければなりません。どれだけ参考になるかというと......自分ではなかなか読めないんですよ。
OpenCLで書くと、ちょっと理論を勉強したんですが、OpenCLの技術でエージェントを作る方が簡単なんです、今みたいにコンシューマ的には簡単じゃないんです。
そして、OpenCLは常に効率的ではありませんので、私はYandex(CatBoost)カード1060とFX-8350プロセッサからソフトウェア上で比較していた - それは、プロセッサが2倍速いことが判明し、その傾向は確かに効果があるだろうから5 1080i、より強力なプロセッサを購入する経済的に有益であるかどうか、高価ですが...一般的には、クリアカットではなく、すべての人にとっての解決策ではありません。
それから、コンパイラで、最新の技術のサポートを無効にするだけで、古参の人たちはすべてが速く動くようになると思います、無効化するオプションは。OpenCLで書くと、ちょっと理論を勉強したんですが、OpenCLの技術でエージェントを作る方が簡単なんです、今みたいにコンシューマ的には簡単じゃないんです。
そして、OpenCLは常に効率的ではありませんので、私はYandex(CatBoost)カード1060とFX-8350プロセッサからソフトウェア上で比較していた - それは、プロセッサが2倍速いことが判明し、その傾向は確かに効果があるだろうから5 1080i、より強力なプロセッサを購入する経済的に有益であるかどうか、高価ですが...一般的には、クリアカットではなく、すべての人にとっての解決策ではありません。
数学的な計算には、緑色のものは特に適していません。
算数なら赤い方がいい、公式アプリで設定できる算数モードも標準装備している。
私は古いRadeon 7970のリファレンスを持っていますが、まだマイニングに対応しています。これは、私が1枚のカードで採掘しているということではなく、いやそれは利益にならないが、それは計算を引っ張るということだ。
カードでの数学の計算は、シェーダーの数を見る必要があり、その数は多ければ多いほどよく、残りのfpsなどは重要ではなく、最も重要なのはシェーダーブロックです。
数学的な計算には、緑色のものは特に適していません。
公式アプリで設定できる算数モードも標準装備されています。
私は古いRadeon 7970のリファレンスを持っていますが、まだマイニングに対応しています。これは、私が1枚のカードで採掘しているということではなく、いやそれは利益にはならないが、計算を引っ張るということである。
カードでの数学の計算は、シェーダーの数を見る必要があり、その数は多ければ多いほどよく、残りのfpsなどは重要ではなく、最も重要なのはシェーダーブロックです。
私の知る限り、赤はダブルの使い方を知っているだけで、緑はそうではないんですねー。しかし、機械学習(CatBoost)では、比較演算にシャープネスがかかっており、考え方によっては赤と緑と同じように高速に動作するはずです。そして赤色は、残念ながらCatBoostではサポートされていません。
いずれにせよ、自分ではできないし、アーティストも十分な価格と理解があって探すのはそう簡単なことではありませんでした。
スイッチ列挙を利用すれば、コードの高速化が図れるのではと提案されました。
昔はこんな感じでしたね。
そして今、このような状態になっています。
最初の試算では、FX-8350は30%高速ですが、Phenom IIプロセッサーは約3倍高速です後日、最適化から解放されたマシンで比較テストを行う予定です。
Tree_Brut_TestPL Expert Advisorの新バージョン、名前に「_Fast」を追加して添付します。 どんなアーキテクチャでゲインが出るのか、非常に興味深いので、ぜひこちらもテストしてください。これらの研究が、MEコンパイラの改良につながることを期待しています。
フォーラムメンバーのFast528さん(現在フォーラムに投稿できない 状態)から追加データをいただきました。
Ryzen 2700 オーバークロックなし、メモリ3333
Tree_Brut_TestPL 8コア 16スレッド
Tree_Brut_TestPL_F8 コア 16 スレッド
このテストは完全ではありません。8つのエージェントをアクティブにするため、8コア、8スレッドのバリエーションが必要で、また、スレッドの数に応じて16のパスを "最適化" タブで指定する必要があります(スタート0、ステップ1、ストップ15)。
再度テストを実行する場合は、... \Testercache にあるキャッシュをクリアすることを忘れないでください。
とりあえず中間結果を8コア/8エージェントとして表に追加しておきます。
残念ながら最初の投稿を編集できなくなったので、ここに評価を掲載します。
こちらは、fx8320e周波数4GHz、メモリ1866 2ch、ランク2の結果です。
ツリー_ブルート_テストPL_F_Fast
4剤 8パス
8人のエージェント 8人のパス
8エージェントで約2倍高速化
こちらは、fx8320e周波数4GHz、メモリ1866 2ch、ランク2の結果です。
ツリー_ブルート_テストPL_F_Fast
4剤 8パス
8人のエージェント 8人のパス
8エージェントで約2倍高速化
ありがとうございます、しかし、評価のためにTree_Brut_TestPL_FとTree_Brut_TestPLの結果を追加してください