最適化のためのCPUコアの評価 - ページ 5

 
Vladimir Pastushak:

2990WXは違います。4つのZeppelinチップで構成され、32個のプロセッシングコアを搭載しています。X399プラットフォームでは、AMDは、このプロセッサがEPYCサーバーチップの売上を損なわないように、いくつかの制限を課しています。

特に、メモリコントローラが4つしかないことが大きな制約となっている。Zeppelinチップはあと2つあるが、AMDはこれをコンピュートチップと呼んでいる。つまり、ローカルのPCIeやDRAMにはアクセスできず、Infinity Fabric経由でI/Oコンポーネントにアクセスする必要があるのです。結晶の数が2倍であるため、Infinityファブリックの帯域幅は2倍で、DDR4-3200メモリ使用時で25Gb/s程度となる。

ここで、アクティブなメモリ操作があったとしても、たまに読み込む程度です。メモリから64倍のEAコードを読み込むのは非常に高速で、100秒もかからないのは明らかです

2990WXが 同コア数の負荷でFX-8350より遅くなることはありえない!

それに、あなたと私はRでこのプロセッサをロードしましたが、そこでは、各スレッドが約100メガバイトを消費して、FX-8350のパフォーマンスよりもかなり良いものでした。

コンパイラはIntelプロセッサの特異性に合わせてチューニングされているようです。

とはいえ、エージェントが互いに独立しているということもありえます。異なるプログラムのようなもので、そして、各エージェントに新しいジョブ(実行のためのコードの断片)を得るために、常にデータをオーバーロードしてバスに負荷をかけることができるのですが、私はこの問題の専門家ではありません、当然ですが。

もしそうなら、プログラム(EA)を全コア共通にして、コード自体を同期的に実行することで、エージェント思想を変えるべきでしょう - より多くのコアでは、これは現在の非同期実行よりも速いかもしれません。

 

2085年製造
Debian9 Wine 4.0.1
Asus P8P67PRO
Intel@ Core i7-3770K CPU @ 3.50GHz
RAM 4x4 16Gb


Tree_Brut_TestPL

Pass: 8, Agent: 2

2019.08.12 07:30:47.921 Core 2  pass 4 returned result 1001000.00 in 0:01:37.923
2019.08.12 07:30:48.917 Core 1  pass 0 returned result 1001000.00 in 0:01:39.007
2019.08.12 07:32:28.151 Core 2  pass 5 returned result 1001000.00 in 0:01:40.231
2019.08.12 07:32:28.161 Core 1  pass 1 returned result 1001000.00 in 0:01:39.245
2019.08.12 07:34:07.317 Core 1  pass 2 returned result 1001000.00 in 0:01:39.156
2019.08.12 07:34:08.936 Core 2  pass 6 returned result 1001000.00 in 0:01:40.786
2019.08.12 07:35:46.231 Core 1  pass 3 returned result 1001000.00 in 0:01:38.914
2019.08.12 07:35:51.699 Core 2  pass 7 returned result 1001000.00 in 0:01:42.764
2019.08.12 07:35:51.699 Tester  optimization finished, total passes 8
2019.08.12 07:35:51.709 Statistics      optimization done in 6 minutes 42 seconds
2019.08.12 07:35:51.710 Statistics      shortest pass 0:01:37.923, longest pass 0:01:42.764, average pass 0:01:39.753
2019.08.12 07:35:51.710 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 07:35:51.710 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)

Pass: 8, Agent: 4

2019.08.12 07:39:22.201 Core 1  pass 0 returned result 1001000.00 in 0:01:38.523
2019.08.12 07:39:25.351 Core 4  pass 6 returned result 1001000.00 in 0:01:41.332
2019.08.12 07:39:27.966 Core 2  pass 2 returned result 1001000.00 in 0:01:44.256
2019.08.12 07:39:28.480 Core 3  pass 4 returned result 1001000.00 in 0:01:44.641
2019.08.12 07:41:00.476 Core 1  pass 1 returned result 1001000.00 in 0:01:38.275
2019.08.12 07:41:06.496 Core 4  pass 7 returned result 1001000.00 in 0:01:41.146
2019.08.12 07:41:09.869 Core 2  pass 3 returned result 1001000.00 in 0:01:41.903
2019.08.12 07:41:10.728 Core 3  pass 5 returned result 1001000.00 in 0:01:42.248
2019.08.12 07:41:10.729 Tester  optimization finished, total passes 8
2019.08.12 07:41:10.739 Statistics      optimization done in 3 minutes 27 seconds
2019.08.12 07:41:10.739 Statistics      shortest pass 0:01:38.275, longest pass 0:01:44.641, average pass 0:01:41.540
2019.08.12 07:41:10.739 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 07:41:10.739 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)

Pass: 8, Agent: 8

2019.08.12 07:47:10.314 Core 3  pass 2 returned result 1001000.00 in 0:03:45.744
2019.08.12 07:47:10.573 Core 8  pass 7 returned result 1001000.00 in 0:03:44.805
2019.08.12 07:47:15.145 Core 5  pass 4 returned result 1001000.00 in 0:03:50.281
2019.08.12 07:47:15.701 Core 7  pass 6 returned result 1001000.00 in 0:03:50.128
2019.08.12 07:47:15.765 Core 2  pass 1 returned result 1001000.00 in 0:03:51.302
2019.08.12 07:47:16.624 Core 6  pass 5 returned result 1001000.00 in 0:03:51.547
2019.08.12 07:47:17.686 Core 4  pass 3 returned result 1001000.00 in 0:03:53.025
2019.08.12 07:47:30.052 Core 1  pass 0 returned result 1001000.00 in 0:04:05.750
2019.08.12 07:47:30.052 Tester  optimization finished, total passes 8
2019.08.12 07:47:30.062 Statistics      optimization done in 4 minutes 07 seconds
2019.08.12 07:47:30.062 Statistics      shortest pass 0:03:44.805, longest pass 0:04:05.750, average pass 0:03:51.572
2019.08.12 07:47:30.062 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 07:47:30.062 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)


ツリー_ブルート_TestPL_F

Pass: 8, Agent: 2

2019.08.12 08:01:23.565 Core 1  pass 0 returned result 1001000.00 in 0:03:41.797
2019.08.12 08:01:28.112 Core 2  pass 4 returned result 1001000.00 in 0:03:46.278
2019.08.12 08:05:03.684 Core 1  pass 1 returned result 1001000.00 in 0:03:40.121
2019.08.12 08:05:13.202 Core 2  pass 5 returned result 1001000.00 in 0:03:45.092
2019.08.12 08:08:43.180 Core 1  pass 2 returned result 1001000.00 in 0:03:39.499
2019.08.12 08:08:56.696 Core 2  pass 6 returned result 1001000.00 in 0:03:43.497
2019.08.12 08:12:23.381 Core 1  pass 3 returned result 1001000.00 in 0:03:40.204
2019.08.12 08:12:38.250 Core 2  pass 7 returned result 1001000.00 in 0:03:41.557
2019.08.12 08:12:38.250 Tester  optimization finished, total passes 8
2019.08.12 08:12:38.260 Statistics      optimization done in 14 minutes 58 seconds
2019.08.12 08:12:38.260 Statistics      shortest pass 0:03:39.499, longest pass 0:03:46.278, average pass 0:03:42.255
2019.08.12 08:12:38.260 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 08:12:38.260 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)


Pass: 8, Agent: 4

2019.08.12 08:26:59.764 Core 1  pass 0 returned result 1001000.00 in 0:03:52.901
2019.08.12 08:27:00.641 Core 2  pass 2 returned result 1001000.00 in 0:03:53.639
2019.08.12 08:27:01.711 Core 3  pass 4 returned result 1001000.00 in 0:03:54.624
2019.08.12 08:27:02.128 Core 4  pass 6 returned result 1001000.00 in 0:03:54.908
2019.08.12 08:30:49.743 Core 2  pass 3 returned result 1001000.00 in 0:03:49.105
2019.08.12 08:30:50.377 Core 3  pass 5 returned result 1001000.00 in 0:03:48.668
2019.08.12 08:30:51.670 Core 1  pass 1 returned result 1001000.00 in 0:03:51.908
2019.08.12 08:30:54.910 Core 4  pass 7 returned result 1001000.00 in 0:03:52.785
2019.08.12 08:30:54.911 Tester  optimization finished, total passes 8
2019.08.12 08:30:54.921 Statistics      optimization done in 7 minutes 49 seconds
2019.08.12 08:30:54.921 Statistics      shortest pass 0:03:48.668, longest pass 0:03:54.908, average pass 0:03:52.317
2019.08.12 08:30:54.921 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 08:30:54.921 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)

Pass: 8, Agent: 8

2019.08.12 08:38:39.221 Core 8  pass 7 returned result 1001000.00 in 0:06:25.500
2019.08.12 08:38:51.812 Core 6  pass 5 returned result 1001000.00 in 0:06:38.644
2019.08.12 08:38:55.103 Core 2  pass 1 returned result 1001000.00 in 0:06:42.620
2019.08.12 08:39:04.616 Core 7  pass 6 returned result 1001000.00 in 0:06:51.090
2019.08.12 08:39:04.697 Core 4  pass 3 returned result 1001000.00 in 0:06:51.862
2019.08.12 08:39:07.278 Core 3  pass 2 returned result 1001000.00 in 0:06:54.651
2019.08.12 08:39:13.762 Core 1  pass 0 returned result 1001000.00 in 0:07:01.299
2019.08.12 08:39:19.159 Core 5  pass 4 returned result 1001000.00 in 0:07:06.182
2019.08.12 08:39:19.159 Tester  optimization finished, total passes 8
2019.08.12 08:39:19.169 Statistics      optimization done in 7 minutes 08 seconds
2019.08.12 08:39:19.169 Statistics      shortest pass 0:06:25.500, longest pass 0:07:06.182, average pass 0:06:48.981
2019.08.12 08:39:19.169 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 08:39:19.169 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)
 
Roman:
Debian9 Wine 4.0.1。
Asus P8P67PRO
Intel@ Core i7-3770K CPU @ 3.50GHz

RAM 4x4 16Gb


Tree_Brut_TestPL


ツリー_ブルート_TestPL_F

テストありがとうございました - 評価を更新しました。

ハイパートレーディングを行わないと、Celeron G3900よりも遅いという、まったくダメなことがわかりますね...。

Celeronより遅いものは変えた方がいいと思うのですが・・・。
 
Aleksey Vyazmikin:

テストありがとうございました - 評価を更新しました。

ここでは、ハイパートレーディングなしだと、Celeron G3900より遅いという、まったくダメなことがわかりますが...。

Celeronより遅いのは、もう変えた方がいいと思うのですが・・・。

Wineのせいでテストが正しくないのかもしれません。
WineでIntel Pentium 4 2.40 GHzと表示されたため。
実際にどのような構成になったかは不明です。
レーティングにWine補正を入れるべきかもしれません。
Windows10の仮想マシン でのテストはもう少し後にしようと思っています。

 
Roman:

Wineのため、テストが正しく行われない可能性があります。
Wineでは、Intel Pentium 4 2.40 GHzと表示されています。
また、実際にどのような構成になっているかは不明です。
レーティングにWine補正を入れるべきかもしれません。
Windows10の仮想マシン でのテストはもう少し後にしようと思っています。

仮想マシンなしで、Windows 7 / 10で試すことはできないのでしょうか?

 
Aleksey Vyazmikin:

仮想マシンなしで、Windows 7 / 10で試すことはできないのでしょうか?

私は今、オペレーティングシステムを再インストールするためのテストのために、私の主要なシステムとしてLinuxを持っている、それはkamilfoではないとして))。
Wineはmt5には向かないと確信しているので、しばらくしてWindowsに再インストールした時に試してみようかと思います。

 
Roman:

私はリナックスをメインシステムとして使っているので、テスト目的でOSを再インストールするのはあまり気が進まないのです )) 。
しばらくして、システムを再インストールした後、wineに戻すということをしたのかもしれません。 Wineはmt5には向いていないと確信しています。

テストが少しでも良くなれば、少なくともテスト用としてWindowsシステムを持つ良い理由になるのですが...。

 

仮想マシンは 役に立たなかった。
ほとんどの場合、問題はWineとVMの両方における仮想化です。
i7 4コアが、celeron 2コアに劣るというのは、ちょっとおかしいですからね。

ビルド2093
Windows10 VM VirtualBox
Asus P8P67PRO
Intel@ Core i7-3770K CPU @ 3.50GHz
4x4 16Gb RAM

Tree_Brut_TestPL

Pass: 8, Agent: 2

2019.08.12 09:26:18.494 Core 2  pass 4 returned result 1001000.00 in 0:01:45.727
2019.08.12 09:26:23.425 Core 1  pass 0 returned result 1001000.00 in 0:01:50.722
2019.08.12 09:28:03.437 Core 2  pass 5 returned result 1001000.00 in 0:01:45.554
2019.08.12 09:28:11.791 Core 1  pass 1 returned result 1001000.00 in 0:01:49.402
2019.08.12 09:29:47.937 Core 2  pass 6 returned result 1001000.00 in 0:01:44.503
2019.08.12 09:30:00.442 Core 1  pass 2 returned result 1001000.00 in 0:01:48.654
2019.08.12 09:31:33.388 Core 2  pass 7 returned result 1001000.00 in 0:01:45.454
2019.08.12 09:31:49.437 Core 1  pass 3 returned result 1001000.00 in 0:01:48.999
2019.08.12 09:31:49.437 Tester  optimization finished, total passes 8
2019.08.12 09:31:49.448 Statistics      optimization done in 7 minutes 17 seconds
2019.08.12 09:31:49.448 Statistics      shortest pass 0:01:44.503, longest pass 0:01:50.722, average pass 0:01:47.376
2019.08.12 09:31:49.448 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 09:31:49.448 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)

Pass: 8, Agent: 4

2019.08.12 09:36:41.044 Core 1  pass 2 returned result 1001000.00 in 0:01:49.154
2019.08.12 09:36:44.487 Core 3  pass 6 returned result 1001000.00 in 0:01:52.522
2019.08.12 09:36:44.793 Core 4  pass 0 returned result 1001000.00 in 0:01:52.905
2019.08.12 09:36:46.034 Core 2  pass 4 returned result 1001000.00 in 0:01:54.096
2019.08.12 09:38:31.290 Core 1  pass 3 returned result 1001000.00 in 0:01:50.251
2019.08.12 09:38:37.438 Core 3  pass 7 returned result 1001000.00 in 0:01:52.956
2019.08.12 09:38:39.069 Core 4  pass 1 returned result 1001000.00 in 0:01:54.280
2019.08.12 09:38:41.761 Core 2  pass 5 returned result 1001000.00 in 0:01:55.731
2019.08.12 09:38:41.761 Tester  optimization finished, total passes 8
2019.08.12 09:38:41.772 Statistics      optimization done in 3 minutes 50 seconds
2019.08.12 09:38:41.772 Statistics      shortest pass 0:01:49.154, longest pass 0:01:55.731, average pass 0:01:52.736
2019.08.12 09:38:41.772 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 09:38:41.772 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)

Pass: 8, Agent: 8

2019.08.12 09:45:29.276 Core 3  pass 1 returned result 1001000.00 in 0:04:06.742
2019.08.12 09:45:29.448 Core 7  pass 7 returned result 1001000.00 in 0:04:06.761
2019.08.12 09:45:29.760 Core 4  pass 5 returned result 1001000.00 in 0:04:07.075
2019.08.12 09:45:30.929 Core 6  pass 3 returned result 1001000.00 in 0:04:08.325
2019.08.12 09:45:30.963 Core 8  pass 4 returned result 1001000.00 in 0:04:08.323
2019.08.12 09:45:30.972 Core 2  pass 2 returned result 1001000.00 in 0:04:08.400
2019.08.12 09:45:31.038 Core 1  pass 0 returned result 1001000.00 in 0:04:08.553
2019.08.12 09:45:31.677 Core 5  pass 6 returned result 1001000.00 in 0:04:08.990
2019.08.12 09:45:31.677 Tester  optimization finished, total passes 8
2019.08.12 09:45:31.687 Statistics      optimization done in 4 minutes 09 seconds
2019.08.12 09:45:31.687 Statistics      shortest pass 0:04:06.742, longest pass 0:04:08.990, average pass 0:04:07.896
2019.08.12 09:45:31.687 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 09:45:31.688 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)


ツリー_ブルート_TestPL_F

Pass: 8, Agent: 2

2019.08.12 10:11:35.102 Core 1  pass 0 returned result 1001000.00 in 0:03:59.375
2019.08.12 10:11:38.365 Core 2  pass 4 returned result 1001000.00 in 0:04:02.605
2019.08.12 10:15:34.255 Core 1  pass 1 returned result 1001000.00 in 0:03:59.164
2019.08.12 10:15:39.553 Core 2  pass 5 returned result 1001000.00 in 0:04:01.198
2019.08.12 10:19:31.585 Core 1  pass 2 returned result 1001000.00 in 0:03:57.340
2019.08.12 10:19:39.795 Core 2  pass 6 returned result 1001000.00 in 0:04:00.252
2019.08.12 10:23:29.253 Core 1  pass 3 returned result 1001000.00 in 0:03:57.677
2019.08.12 10:23:39.829 Core 2  pass 7 returned result 1001000.00 in 0:04:00.043
2019.08.12 10:23:39.829 Tester  optimization finished, total passes 8
2019.08.12 10:23:39.840 Statistics      optimization done in 16 minutes 05 seconds
2019.08.12 10:23:39.840 Statistics      shortest pass 0:03:57.340, longest pass 0:04:02.605, average pass 0:03:59.706
2019.08.12 10:23:39.840 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 10:23:39.840 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)


Pass: 8, Agent: 4

2019.08.12 10:01:30.501 Core 4  pass 2 returned result 1001000.00 in 0:04:07.769
2019.08.12 10:01:31.482 Core 1  pass 4 returned result 1001000.00 in 0:04:08.725
2019.08.12 10:01:33.679 Core 3  pass 6 returned result 1001000.00 in 0:04:10.886
2019.08.12 10:01:33.751 Core 2  pass 0 returned result 1001000.00 in 0:04:11.076
2019.08.12 10:05:39.244 Core 4  pass 3 returned result 1001000.00 in 0:04:08.754
2019.08.12 10:05:40.932 Core 1  pass 5 returned result 1001000.00 in 0:04:09.460
2019.08.12 10:05:43.819 Core 3  pass 7 returned result 1001000.00 in 0:04:10.149
2019.08.12 10:05:44.517 Core 2  pass 1 returned result 1001000.00 in 0:04:10.777
2019.08.12 10:05:44.518 Tester  optimization finished, total passes 8
2019.08.12 10:05:44.528 Statistics      optimization done in 8 minutes 23 seconds
2019.08.12 10:05:44.528 Statistics      shortest pass 0:04:07.769, longest pass 0:04:11.076, average pass 0:04:09.699
2019.08.12 10:05:44.528 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 10:05:44.528 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)


Pass: 8, Agent: 8

2019.08.12 09:54:56.856 Core 1  pass 2 returned result 1001000.00 in 0:06:44.190
2019.08.12 09:54:58.155 Core 5  pass 3 returned result 1001000.00 in 0:06:45.405
2019.08.12 09:54:58.173 Core 7  pass 7 returned result 1001000.00 in 0:06:45.282
2019.08.12 09:55:00.715 Core 3  pass 1 returned result 1001000.00 in 0:06:48.091
2019.08.12 09:55:01.192 Core 6  pass 6 returned result 1001000.00 in 0:06:48.373
2019.08.12 09:55:02.774 Core 4  pass 4 returned result 1001000.00 in 0:06:50.014
2019.08.12 09:55:02.917 Core 8  pass 5 returned result 1001000.00 in 0:06:50.123
2019.08.12 09:55:02.977 Core 2  pass 0 returned result 1001000.00 in 0:06:50.408
2019.08.12 09:55:02.977 Tester  optimization finished, total passes 8
2019.08.12 09:55:02.988 Statistics      optimization done in 6 minutes 51 seconds
2019.08.12 09:55:02.988 Statistics      shortest pass 0:06:44.190, longest pass 0:06:50.408, average pass 0:06:47.735
2019.08.12 09:55:02.988 Statistics      8000 frames (3.14 Mb total, 412 bytes per frame) received
2019.08.12 09:55:02.988 Statistics      local 8 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)
 

プロセッサーによってどんな命令が違うのか調べてみることにしました。まあ、いきなりi7-8700でこんなに性能が上がるわけがないので、比較対象として2990WX、FX-8350、E5-2670を取り上げました。

ここでは、その説明のマップを紹介します。

グレー - インストラクションはすべて揃っています。

緑色 - すべてのインストラクションが使用できません。

ピンク - 類似の技術/説明書

青色 - プロセッサ固有の命令

黄色 - i7-8700と比較して指示不足であることを示す。




情報源はこちら

2990WXは、FX-8350やi7-8700に搭載されている命令をすべて搭載しており、同じタスクであればコアの性能は同等になるはずだ(周波数の関係で少し遅くなるかもしれないが、マイクロプロセッサの進歩を無視すれば、理論上は、純粋にロジックの利用可能性のみである)。同時にFX-8350には2990WXで落とされた命令があり、もしかしたら落とされたのではなく、別の名前(マーケティング)がついただけかもしれませんので、わかる人は確認しておくといいでしょう。

さらに、i7-8700とE5-2670を比較し、その命令の存在とFX-8350との相対的な関係に注目してみましょう - 他のプロセッサにはBMI1、F16C、FMA3の命令がないことがわかります - これらは何のためにあり、その不在は重要なのか - これが問題です


Сравнение процессоров
  • chaynikam.info
  • www.chaynikam.info
Особенности работы с таблицей В таблицу можно добавить не более 6 процессоров (кнопка "Добавить процессор"). Для ускорения поиска интересующего процессора пользуйтесь фильтром. Процессоры в таблице можно менять местами, перетаскивая их в нужное место с помощью мышки. "Ухватить" процессор для перетаскивания можно за ячейку с его названием...
 
Roman:

仮想マシンは 役に立ちませんでした。
おそらく、WineとVMの両方の仮想化に問題があるのでしょう。
i7の4コアで、celeronの2コアより劣るというのはおかしいと思うので。

そう、ここには奇妙な点がある。状況を把握するためには、もっと統計的なデータを得る必要があるのだ。

i7-3770Kには BMI1, FMA3の命令がない--それが理由かもしれません。