最新記事 by 夜桜 なの (全て見る)
- 著名人が謝罪すべき時の良い手法 - 2024年2月1日
- 【能登地震】自衛隊さんが単独で行動できるときは? ニセ自衛官に注意 - 2024年1月12日
- 【能登地震】被災地に現るニセ自衛官に騙されないで - 2024年1月12日
- 【能登地震】自衛隊さんのお風呂に入るときの注意 - 2024年1月11日
- 自衛隊はなぜ単独で動けるの?能登半島地震においても - 2024年1月8日
世界一を目的として開発してなかったのに、結論的に世界一になった
スーパーコンピュータ 「富岳」のスペックをまとめてみました。
各種メディア等にばらばらに公表されていましたスペックをまとめてみました。
ノード仕様
- CPU A64FX (ARMv8.2-AをベースにSVE命令を追加)
- 48コア+計算ノード2コア+1O兼計算ノード: 4コア
- 2GHz~2.2GHz
演算能力
通常モード(2GHz動作)
倍精度: 3.072 テラフロップス, 単精度: 6.144 テラフロップス, 半精度: 12.288 テラフロップス
ブーストモード(2.2GHz動作)
倍精度: 3.3792 テラフロップス, 単精度: 6.7584 テラフロップス, 半精度: 13.5168 テラフロップス
レジスタ数
レジスタ数:不明
ただし以下は判明しています。
- 512bit SMIDレジスタが2つあることが判明している
- 128bitのScable Vectorレジスタがあることが判明している
キャッシュメモリ、メモリ、その他のスペック
- L1キャッシュ
L1D/core: 64 KiB, 4way, 256 GB/s (load), 128 GB/s (store) - L2キャッシュ
L2/CMG: 8 MiB, 16way
L2/node: 4 TB/s (load), 2 TB/s (store)
L2/core: 128 GB/s (load), 64 GB/s (store) - ノードあたりメモリ
HBM2 32 GiB, 1024 GB/s - インターコネクト
Tofu Interconnect D (28 Gbps x 2 lane x 10 port) - I/O
PCI Express Gen3 x16 - プロセス
7nm FinFET - 総ノード数
158,976ノード
(ただし、現在新型コロナウイルスに関する研究がされており、一部のノードが既に稼働済み) - 理論上性能
通常モード(2.GHz)
倍精度理論最高値(64 bit)488 ペタフロップス
単精度理論最高値(32 bit)977 ペタフロップス
半精度(AI学習)理論最高値(16 bit)1.95 エクサフロップス
整数(AI推論)理論最高値(8 bit)3.90 エクサオップスブーストモード(2.2GHz)
倍精度理論最高値(64 bit)537 ペタフロップス
単精度理論最高値(32 bit)1.07 エクサフロップス
半精度(AI学習)理論最高値(16 bit)2.15 エクサフロップス
整数(AI推論)理論最高値(8 bit)4.30 エクサオップス - 総メモリ容量
4.85Pbytes - 総メモリバンド幅
163 PB/s
以上、https://www.fujitsu.com/jp/about/businesspolicy/tech/fugaku/specifications/ wikipedia等より
正直申しますと
主なCPUが同じ設計で、同じコア数、同じ周波数と仮定すれば、同じ処理をすれば
- Itanium
- SPARC64
- amd64 (x86_64)
- ARM64
の順になるのです。
Itaniumには128個のレジスタ(うち1つ管理レジスタ)を搭載していると
豊富にあります。
しかし、Itaniumは最初にリリースされた時に、32bitコードがかなり動作が遅く、Itaniumのネイティブコードにおいて 32bitコードのエミュレーションしたほうのが遥かに高速であったことから、最初からネガティブな印象が据え付けられてしまい、積極的に開発されておらず、今は撤退気味の模様です。
スーパーコンピューター京に採用された富士通製のSPARC64 Vll”fxには256個のレジスタがありますが、
一般的なSPARC64には汎用31、浮動小数点32個のレジスタがあります。
amd64は汎用レジスタは単にi386を倍に拡張しただけの16個の簡易実装なんですが、それぞれのSMID、AVXによってレジスタ数が少し増えています。
※これ以外にもレジスタはあります。
ARM64には汎用レジスタは16本あり、うち1本は管理用レジスタとなっています。
一般的にレジスタ数が多ければ多いほど高速化しますが、レジスタ数が多くなれば多くなるほど製造コストは極端に高くなり、レジスタ数が少なければ少ない程L1キャッシュとのメモリのやり取りが増えてしまうため、計算効率が落ちてしまいます。
実の所?
amd64ベースのIntelやamdにおいてもスパコンが開発されています。
しかし、これらはどうしても他に専用に構築されたスパコンに大幅に負けてしまいます。
まぁ、ノード数を極論って言っていいぐらい増やせば、世界第一位を取ることは十分に実現可能ですが
AMDのCPUは汎用かつ一定のゲーム機に今普通にカスタム化されて採用されています。
Intelを採用しなかったのは、IntelのGPUの能力が弱く、過去にGPU専門メーカー ATI を買収したことにより、1つのCPUチップの中に高速化されたCPUとGPUを入れる事(いわゆるAPU)により、かつ、1つのCPU内で通信するものですから、CPUとGPUは非常に高速通信できるものです。
ただし、Nintendo Switchに限り、ARMで、Nintendo Switchは速度重視ではない設計になっています。
実際は?
1シングルスレッドあたりでキャッシュ速度、キャッシュ容量、同一周波数で同じ処理をするのであれば、現在IntelのItaniumが最首位で、その次に京に採用されている、SPARC64 Vllfx,その次にSPARC64、Intel、その次にAMD、富岳に採用されているARMベースのA64FX、その他のARMになります。
しかし同一数のマルチスレッドとなると
AMDが最首位になり、その次にA64FX、その次にSPARC64 Vllfx、その次にItaniumを含むIntel、ARMになります。
※SPARCはもともと Sun Microsystemsが開発のですが、富士通がクロスライセンス締結して、Sun Microsystemsが撤退し、Oracleになって 海外でのSPARCが積極的にされなくなり、継続的に富士通が開発していたものです。
性能あたりの電力効率は?
基本的に
- ARM
- Intel (Itanium除く)
- AMD
- SPARC64
になります。
あれ?POWERPCのことが書いてませんが
POWERPCは確かにそれなりに高速なPC向けのCPUです。
しかし電力的に非効率で高クロック化も困難になったため、macがIntelになりました。
かつては68000系からの移行もありましたが。
現在では更に電力的に効率の良いARMにすることが検討されています。
しかし、IBMは自社のメインフレーム向けに、POWERシリーズを未だに販売・製造しています。しかしMS-DOSからWindowsまで浸透して、世界一のパソコンのシェアを獲得したにも関わらず、既に中国企業にパソコン事業を売っていた李もします。
CPUのキャッシュは
CPUのオブジェクト長が短ければ短い程、高速なL1キャッシュで実行な経験が多くなります。
ARMはオブジェクト長がこのページで掲げたすべてのCPUの中で最も短く、固定32bit長であるため、その分での高速化が認められています。
※一般的な64bitCPUはオブジェクト長も64bit以上になります。
実際のCPUシェアは?
- ARM (何気に家電とか各種制御装置に入っていて、隠れて入っていることが多いです)
- Intel
- AMD
- SPARC64
- Itanium
の順となります。
正直申しますと
いくらスパコンとは言え、1CPUあたりではRyzen Threadripper のほうのが遥かにコア数が多く(最大64コア128スレッド)、周波数もそれなりに高いので、実際特化した処理をしない限りこちらがのCPUのが少し高速なのは事実だと思われます。
別にお金が潤沢にあれば、XeonやEYPCを使って、もっと大規模なスパコンを作っても構わないのです。どちらかといえばこちらのがオブジェクト互換性がありますので、開発しやすくなることでしょう。
※ただMicrosoftはここまで大規模なWindows Serverを想定していないので、Windowsでの開発は困難で、必然的にLinuxになることでしょう。
そういうわけで、Windows が動くスパコン、というのは実現困難と思います。
ですが、ARMベースのスパコンに比べて、遥かに電力効率が悪いので、運用としては適さないと考えられます。
さいごに、パーソナルスーパーコンピュータも販売されるようです。
興味ある方は参考にしてみてください。
A64FXをベースとしたCPUで富士通からPRIMEHPCシリーズとして販売されます。
FX1000
- 48コア+アシスタントコア合計6コア
- 2.2GHz
- 3.3792 TFLOPS
- 1CPU/ノード
- 32Gbytes (HBM2 4スタック)
- メモリバンド幅 1024GB/s
- TofuインターコネクトD
- 専用ラック
- 最大384ノード/ラック
- 水冷
1ノードあたり約1億2000万円~(最小48ノードから)
FX700
- 48コア
- 1.8GHz/2.0GHz
- 2.7648 TFLOPS または 3.072 TFLOPS
- 1CPU/ノード
- 32Gbytes (HBM2 4スタック)
- メモリバンド幅 1024GB/s
- InfiniBand EDR
- 2Uラックマウントシャーシ
- 最大8ノード/ラック
- 空冷
1ノードあたり約400万円(最小2ノードから)
興味のある方は買ってみてはいかがでしょうか?
ついでに
かつて昔、スーパーコンピュータだ、っていわれるスペックのものは
現在余裕で同等、もしくは同等以上のスペックで
普通にスマホで動いていたりもするわけなんです。