<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=145304570664993&amp;ev=PageView&amp;noscript=1">
VMWare and Graphcore

Oct 20, 2021 \ IPU-POD, Cloud

VMware와 그래프코어의 파트너십, 기업 환경에 AI 리소스 분할 도입

작성자

Saurabh Kulkarni & Alex Tsyplikhin

이제 VMware Project Radium 하드웨어 분할 이니셔티브의 일환으로 그래프코어 IPU 지원합니다. 따라서 사용자 또는 관리 소프트웨어에 복잡성을 푸시하지 않고도 가상화된 멀티테넌트 환경에서 기본 데이터센터 네트워크를 통해 IPU 리소스를 풀링 공유할 있게 됩니다. IPU POD 네트워크 분할 스케일 아웃 구조와 Project Radium 유연한 리소스 관리 기능의 결합은 초대형 모델의 대규모 훈련과 AI 기반 서비스를 위한 안정적인 생산 환경에의 모델 배포를 새로운 차원으로 끌어올릴 것입니다.  

VMware 클라우드에서의 애플리케이션 현대화를 위한 기업 가상화 소프트웨어 도구를 제공하는 선도적인 기업입니다. VMware vSphere, Tanzu NSX 같은 제품을 통해 고객의 애플리케이션 구축 현대화 여정 전반에 걸쳐 다양한 기능을 제공합니다. Project Radium 또한 이러한 인상적인 제품군에 속합니다

IPU 자세히 알아보기 

IPU 첨단 AI 모델의 컴퓨팅 요구 사항 충족에 중점을 두고 설계된 새로운 유형의 병행 프로세서입니다. IPU 하드웨어의 섬세한 병렬성 수준이 높고, Single Half Precision 플로팅 포인트 연산을 지원하며, 기반 데이터에서 희소성에 대한 특정한 종속성이 없어 희소 컴퓨팅에 최적화되어 있습니다. IPU 프로세서는 첨단 ML 워크로드를 주로 맡아 처리하는 심층 신경망의 훈련과 추론 모두에 최적화되어 있습니다

IPU에는 GPU 같은 전통적인 SIMD/SIMT 아키텍처 대신 MIMD 아키텍처가 적용되었습니다. 아키텍처는 효율적인 내부 통신을 위해 칩에 포함된 초고대역폭 메모리 저지연/고대역폭 상호 연결 장치를 사용합니다이처럼 IPU 데이터센터 규모의 머신 러닝 모델 병렬화에 최적화되었습니다

IPU-POD 분할의  

IPU-POD 아키텍처 덕분에 대의 IPU에서 수천 대의 IPU 문제없이 규모를 증대할 있습니다. IPU-POD 워크로드의 요구 사항에 기반하여 IPU POD 연결된 CPU 리소스에 따라 네트워크를 통해 유연하게 규모를 변경할 있는 네트워크 분할식 IPU 클러스터입니다따라서 사용자는 간단한 리소스 연결 구조를 통해 하이퍼스케일 환경이나 온프레미스 기업 환경에서 CPU IPU 비율을 조정할 있습니다또한 IPU-POD 아키텍처는 가상화된 환경에서 거의 bare-metal 가까운 성능을 제공합니다

사용자는 이와 같은 CPU IPU 리소스의 독립적 확장이 선사하는 유연성 덕분에 최적의 비용으로 컴퓨팅 리소스의 워크로드별 수요를 충족할 있습니다. 예를 들어, 자연어 처리 과제용 ML 모델은 보통 CPU 사용량이 높지 않은 반면, 컴퓨터 비전 과제는 이미지 사전 처리나 증강 때문에 CPU 사용량이 높을 있습니다. 이는 특히 CPU 리소스 조절이 쉬운 클라우드 환경에서 유용하며, 고객은 규모의 경제로 인한 이점을 누릴 있습니다

소프트웨어 고려 사항 

그래프코어의 Poplar SDK 회사 창립 때부터 프로세서와 공동으로 설계되었습니다또한 PyTorch, TensorFlow 비롯한 표준 머신 러닝 프레임워크와 Docker, Kubernetes 비롯한 오케스트레이션 배포 플랫폼 기술과 완벽하게 통합됩니다

고객이 기업 환경에서 대규모로 손쉽게 IPU 활용하기 위해서는 코어 머신 러닝 소프트웨어 프레임워크 외에도 가상화, 오케스트레이션 일정 관리 소프트웨어와의 통합이 필수적입니다솔루션 제공업체는 하이퍼스케일 환경에서의 작업 멀티테넌시, 격리와 보안을 반드시 준수해야 합니다그래프코어 소프트웨어 스택의 리소스 관리 구성 요소는 VMware 제공하는 스택을 비롯하여 다양한 클라우드 프로비저닝 관리 스택과의 통합이 용이합니다이에 따라 퍼블릭 클라우드, 하이브리드 클라우드와 온프레미스 인프라 환경 모두에서 불편 없는 작업이 가능합니다

Project Radium 소개 

AI 최적화된 분할식 연산을 향한 발걸음을 내딛은 Project Radium 그래프코어의 IPU IPU-POD 포함한 다양한 하드웨어 아키텍처에서의 리소스 원격 조정, 풀링 공유를 지원합니다

명시적인 코드 변경이나 사용자의 개입이 없이도 여러 고성능 AI 가속기에 걸쳐 기기 가상화와 원격 조정 기능이 제공됩니다. 덕분에 개발자는 하드웨어별 컴파일러, 드라이버나 소프트웨어 최적화가 아니라 모델에 온전히 집중할 있습니다

표준 네트워크를 통해 IPU-POD 같은 하드웨어에 동적으로 연결 가능한 Project Radium 사용자가 IPU 같은 고성능 아키텍처를 활용하여 보다 까다로운 사용 사례를 대규모로 가속화할 있게 해줍니다

쉬운 기업 AI

VMware 그래프코어가 협력하여 보다 쉬운 기업 AI 기능 활용을 가능하게 합니다. VMware Radium 사용자가 IPU-POD 네트워크 분할식 아키텍처가 제공하는 고유한 이점을 활용할 있게 해주는 동시에, 가장 까다로운 기업 환경에서도 멀티테넌시, 격리와 보안에 관한 요구 사항을 충족할 있도록 지원합니다. VMware Radium 그래프코어 IPU 퍼블릭 클라우드, 하이브리드 클라우드와 온프레미스 모두에서 귀사의 애플리케이션에 적합한 가장 비용 효과적인 기업급 AI 솔루션을 제공할 것입니다

게시물 더 보기