<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=145304570664993&amp;ev=PageView&amp;noscript=1">
VMWare and Graphcore

Oct 20, 2021 \ IPU-POD, Cloud

VMwareとGraphcoreが提携し、企業環境にAIリソースの分離をもたらす

筆者

Saurabh Kulkarni & Alex Tsyplikhin

この度、ハードウェア分離に向けた取り組みの一環として、VMwareProject RadiumGraphcore IPUをサポートすることになりました。これにより、ユーザーや管理ソフトウェアに複雑さを押し付けることなく、仮想化されたマルチテナント環境においてプライマリデータセンターネットワーク上でIPUリソースのプーリングと共有が可能になります。IPU-PODのネットワーク分離型スケールアウトアーキテクチャとProject Radiumの柔軟なリソース管理機能を組み合わせることで、大規模なモデルを大規模に学習し、AIベースのサービスに向けた信頼性の高いプロダクション環境でモデルを展開するという、新たな未開拓分野を切り拓きます。  

VMwareは、クラウド上でアプリケーションの近代化を実現するためのエンタープライズ向け仮想化ソフトウェアやツールを提供する大手企業です。 VMwarevSphereTanzuNSXなどの製品を通じて、お客様が進めるアプリケーション構築や近代化の取り組みに多様な機能を提供しています。 そのような優れた製品ラインアップの中において、Project Radiumはさらに箔をつけるような製品です。 

IPUとは? 

IPUは、最新のAIモデルの計算要求に応えることに特化して設計された、新しいタイプの並列プロセッサです。 ハードウェアレベルの高度なきめの細かい並列性を備えるIPUは、単精度と半精度の浮動小数点演算をサポートしており、基礎的なデータのスパース性に特に依存することがないので、スパースな計算に最適です。 つまりこのプロセッサは、現代のMLワークロードの主力であるディープニューラルネットワークの学習と推論の両方に理想的と言えます。 

IPUは、GPUのように従来のSIMD/SIMTアーキテクチャを採用するのではなく、超広帯域のオンチップメモリと低遅延/広帯域のインターコネクトを用いたMIMDアーキテクチャを採用しており、チップ内/チップ間の通信を効率的に行います。 そのためIPUは、データセンター規模で機械学習モデルを並列化するうえで理想的なターゲットになっています。 

IPU-PODと分離の力 

IPU-PODアーキテクチャにより、1つのIPUから数千のIPUへのスケールアウトがシームレスに行えます。 IPU-PODIPUのネットワーク分離型クラスターで、ワークロードのニーズに基づいて、接続されているCPUリソースに依存することなく、ネットワークを介して弾力的に拡張できます。 これにより、ハイパースケールやオンプレミスのエンタープライズ環境において、シンプルなリソースバインディング構成を使ってCPUIPUの比率を増減できます。 またIPU-PODのアーキテクチャは、仮想化環境においてもベアメタルに近い性能を発揮します。 

このようにCPUIPUのリソースを独立して拡張できる柔軟性を備えているので、ワークロードに応じた計算リソースの要求に最適なコストで応じることができます。たとえば、自然言語処理タスクのためのMLモデルは一般的にCPUに負担をかけませんが、コンピュータビジョンのタスクは、画像の前処理や補強などのタスクが原因でCPUに負担をかけることがあります。このような特長は、CPUリソースの増減が容易なクラウド環境では特に効果を発揮し、スケールメリットが生まれます。 

ソフトウェアに関する考察 

GraphcorePoplar SDKは、その設立当初からプロセッサと共同で設計されてきました。 Poplar SDKは、PyTorchTensorFlowなどの標準的な機械学習フレームワークのほかに、DockerKubernetesなどのコンテナ、オーケストレーションおよびデプロイメントプラットフォーム技術をサポートしています。 

企業環境で大規模なIPUを容易に使用するためには、コアな機械学習ソフトウェアフレームワークのサポートに加え、仮想化やオーケストレーション、スケジューリングソフトウェアとの統合が欠かせません。 マルチテナント、アイソレーション、セキュリティは、ソリューションプロバイダーがハイパースケール環境で運用する際に遵守しなければならない重要な原則です。 Graphcoreのソフトウェアスタックに含まれるリソース管理コンポーネントを利用することで、VMwareが提供するような多彩なクラウドプロビジョニングおよび管理スタックとの統合が容易になり、 その結果、パブリッククラウドやハイブリッドクラウド、オンプレミスインフラストラクチャ環境での運用がスムーズに行えるようになります。 

Project Radiumについて 

AIに最適化された分離型コンピューティングに向けて大きな一歩を踏み出したProject Radiumは、GraphcoreIPUIPU-PODなどの多様なハードウェアアーキテクチャ上で、リソースのリモーティングとプーリング、共有を可能にします。 

デバイスの仮想化とリモーティング機能は多数の高性能AIアクセラレータで利用できるうえ、明示的なコードの変更やユーザーの介入を必要としません。開発担当者は、ハードウェアに特化したコンパイラやドライバ、ソフトウェアの最適化ではなく、モデルの開発に専念できます。 

IPU-PODのようなハードウェアに標準的なネットワークを介して動的に接続することで、ユーザーはIPUのような高性能なアーキテクチャを活用して、より要求の高いユースケースを大規模に加速化できます。 

手軽に利用できるエンタープライズAI

VMwareGraphcoreが協力することで、エンタープライズAIの機能が手の届く現実的なものになります。 VMwareRadiumでは、IPU-PODのネットワーク分離型アーキテクチャのユニークな利点を活用し、最も要求の厳しいエンタープライズ環境においてもマルチテナントとアイソレーション、セキュリティのニーズに対応できます。 VMwareRadiumGraphcoreIPUは、パブリッククラウドやハイブリッドクラウド、オンプレミスを問わずお客様のアプリケーションに合った、最も費用対効果の高いエンタープライズグレードのAIソリューションを提供します。 

その他の投稿