Ethernet Everywhere!!
HPC and AI/ML向け
オープンネットワーキング
ソリューション
※背景画像は、マイクロソフトの許諾を得て使用しています。
実現に向けたさまざまな課題
生成AIのためのGPUクラスタネットワーク基盤は、クラウドサービス利用ではなく、長期的な運用コストなどを考え、オンプレミスにて構築するというケースも増えてきています。オンプレミスのメリットは他にもパフォーマンスや遅延の改善、カスタマイズや拡張性などの面に期待があります。
ただし、オンプレミスで構築するにはGPUクラスタ内で大量のデータを転送するため、高速で信頼性の高いネットワークインフラの構築が必要であり、ネットワークのスケーラビリティが求められます。そのため、実現するには「適切なルーティング」「負荷分散」「スケーリング戦略」を考慮しなければなりません。
これら技術面の課題に加え、AI(人工知能)/ML(機械学習)基盤のハードウェア/ソフトウェアの入手性や、特定の何かに依存していないかなど、最終的にはコストにもつながるような課題面をいかに適切に解決しながら構築していくかが重要なポイントになってきます。
Ethernet Fabric(ロスレスイーサネット)化とオープン化が
イノベーション、コラボレーション効率化向上の鍵となる
技術面の課題
GPU仮想化基盤
- ✔ サーバー
- ✔ ストレージ
- ✔ 仮想化、Kubernetes
- ✔ RDMA通信、分散処理
- ✔ アプリケーション開発
専用ネットワーク
- ✔ 超広帯域
- ✔ 低遅延
- ✔ ロスレス
- ✔ スケールアウト
- ✔ マルチテナンシー
公開されている情報が少なく、調べるのに時間がかかる
慣れているイーサネットを選んでも知らないことばかり
そのネットワークの悩み、APRESIA に相談してみませんか?
GPU仮想化基盤
- ✔ サーバー
- ✔ ストレージ
- ✔ 仮想化、Kubernetes
- ✔ RDMA通信、分散処理
- ✔ アプリケーション開発
専用ネットワーク
- ✔ 超広帯域
- ✔ 低遅延
- ✔ ロスレス
- ✔ スケールアウト
- ✔ マルチテナンシー
公開されている情報が少なく、調べるのに時間がかかる
慣れているイーサネットを選んでも知らないことばかり
そのネットワークの悩み、APRESIA に相談してみませんか?
GPU仮想化基盤
- ✔ サーバー
- ✔ ストレージ
- ✔ 仮想化、Kubernetes
- ✔ RDMA通信、分散処理
- ✔ アプリケーション開発
専用ネットワーク
専用ネットワークの構築は
APRESIAに任せて
仮想化基盤の開発に注力
ホワイトボックススイッチとSONiCで問題を解決
環境面の課題
- ✔ホワイトボックススイッチなら、大量生産モデルで納期問題を解決
-
- ✔選択枠と柔軟性に幅を持たせ、企業買収などによる利用停止リスクを回避
-
ベンダーロックインからの解放
- ✔InfiniBand(インフィニバンド)ではなく、イーサネットを選択することにより、デバイスソフトウェア、技術やプラットフォームに選択枠を追加
-
- ✔特定ベンダーへの依存を回避することで、技術的サポートや保守などの制限を緩和し、中長期的なコスト効率、スピード感を事業にもたらす
-
コストの課題
- ✔選択肢の枠組みによる競争は不当な値上げを防止しやすい
-
- ✔ホワイトボックススイッチは広帯域モデルほどGAFAなどに大量利用されており、入手性とコストメリットが大きい
-
- ✔サードパーティ製のトランシーバー利用でコスト低減
-
ロスレスイーサネット対応製品
DCS204 / AS7726-32X (100G) |
DCS240 / AS9726-32DB (400G) |
DCS520 / AS9736-64D (400G) ※1 |
AIS800 / AS9817-64O/D (800G) ※1 |
||
---|---|---|---|---|---|
製品写真 | |||||
ポート構成 | 32 x QSFP28 | 32 x QSFP-DD, 6 x 10G SFP+ | 64 x QSFP-DD | 64 x OSFP-800 (AS9817-64O) 64 x QSFP-DD800 (AS9817-64D) |
|
スイッチングLSI | Trident Ⅲ | Trident Ⅳ | Tomahawk Ⅳ | Tomahawk Ⅴ | |
CPU | Intel Xeon D-1518 4-core 2.2 GHz | Intel® Pentium® D1519 4-cores 1.5 GHz | Intel® Xeon® D-1548 8-cores 2.0 GHz | Intel® Xeon® Processor D-1713 84cores 2.2 GHz |
|
メモリ | 16GB | 16GB | 32GB | 32GB | |
スイッチ容量(全二重) | 6.4Tbps | 25.6Tbps | 51.2Tbps | 102.4Tbps | |
パケットバッファ | 32MB | 132MB | 113.66MB | 165.2MB | |
電源 | AC | ◯ | ◯ | ◯ | ◯ |
DC | ◯ | ◯ | — | — | |
ロスレスイーサネット関連機能 | |||||
VXLAN- EVPN | VXLAN | ◯ | ◯ | ◯ | ◯ |
EVPN | ◯ | ◯ | ◯ | ◯ | |
LB | DLB/GLB | — | — | ◯ ※4 | ◯ ※5 |
RDMA | RoCEv2 | ◯ | ◯ | ◯ | ◯ |
QoS | ECN | ◯ | ◯ | ◯ | ◯ |
ETS | ◯ | ◯ | ◯ | ◯ | |
PFC | PFC/Asymmetric PFC | ◯ | ◯ | ◯ | ◯ |
PFC Watchdog (WD) ※2 | ◯ | ◯ | ◯ | ◯ | |
PFC Watermark (WM) | ◯ | ◯ ※3 | ◯ | ◯ |
- 記載されている会社名、製品名は、各社の商標、もしくは登録商標です。
- HPCは、High Performance Computingの略です。AIは、Artificial Intelligenceの略です。MLは、Machine Learningの略です。GPUは、Graphics Processing Unitの略です。LSIは、Large Scale Integrationの略です。LBは、Load Balancingの略です。DLBは、Dynamic Load Balancingの略です。GLBはGlobal Load Balancingの略です。RoCEv2は、RDMA over Converged Ethernet version 2の略です。ECNは、Explicit Congestion Notificationの略です。ETSはEnhanced Transmission Selectionの略です。PFCは、Priority Flow Controlの略です。
- ※1…
- 購入をご希望の方はお問い合わせページよりお問い合わせください。
- ※2…
- 1つ、または2つのキューを使用可能です。
- ※3…
- 一部のカウンター(Priority group watermark, Egress unicast queue watermark)のカウンタが動作しません。
- ※4…
- DLBのみサポート済みです。
- ※5…
- DLBはサポート済み、GLBはサポート予定です。
APRESIAの特徴(導入前・後のサポート)
APRESIAでは、お客様がオープンネットワーク製品や技術について体験いただけるデモンストレーションの機会や、運用イメージをお持ちいただき、将来への移行などを見据えた初期設計に必要な要素を身に付けてもらえるハンズオントレーニング(有償)もご用意しております。
また、導入後は自社開発製品も監督する品質保証部のもと、スイッチアーキテクチャーを理解したエンジニアによる深さのあるサポートをワンストップで提供いたします。
- 一度運用・操作などのイメージをつけてみたい(デモ実演)
- 相互接続性や、サードパーティ製のトランシーバーの確認に
- 初期構築方法を身に付ける(インストール・基本的な操作方法)
- IP Clos Fabricの構築方法(設計技術・操作・プロトコルの理解)
- 最新IP Clos Fabricもハンズオンでカバー(VXLAN-EVPN)
- L2 FabricからL3 Fabricへの移行方法、設計協力
- 運用法や自動化・監視方法などのご相談
- ハードウェア・ソフトウェア・商用ツールに関するサポートを1つの窓口で提供
- オンサイトサポート提供(オプション)
- スイッチアーキテクチャーを理解したエンジニアが対応
- 品質保証部が監督のもと、高品質なサービスをご提供
- ゼロタッチプロビジョニングやAnsibleなどのご相談
- 商用ツールなどのご紹介・ご提案
- OSSベースの監視ツールなどのご相談