랩지니어스(LabGenius)는 지금 가장 중요하고 시의성 있는 AI 기반 과학 연구에 전념하고 있는 기업입니다.
현재는 암 및 염증성 질환의 고급 치료제 개발을 가속화하는 데 중점을 두고 있으나, 그 원칙은 훨씬 더 광범위하게 적용될 것으로 기대됩니다.
런던 소재의 바이오테크 기업인 랩지니어스는 AI, 합성생물학, 그리고 실험실 자동화 기술을 함께 활용해 차세대 항체 치료법을 개발하고 있습니다.
관련 기술과 기법의 성숙도는 최근 에서야 이 야심 찬 프로젝트에 활용할 수 있는 수준에 이르렀는데요.
IPU 시스템이 필수 AI 모델 학습에 필요한 연산 시간을 절반으로 단축하자, 랩지니어스의 연구원들은 혁신을 위한 경쟁에서 새롭고 중요한 도구를 발견했다는 사실을 깨달았습니다. 랩지니어스팀은 트랜스포머 모델 BERT의 기성 PyTorch 버전을 사용했는데, 그래프코어의 GitHub 사이트에서 코드를 자유롭게 이용할 수 있어 사용 편의성이 매우 높았습니다.
머신 러닝 컨설턴트 (Katya Putintseva) 박사는 "이전에 GPU를 사용했을 때는 모든 단백질의 기능 모델이 나오기까지 한 달 정도가 걸렸다. 그래프코어의 IPU를 사용하니 처리 시간이 2주 정도로 단축되어 훨씬 빠르게 실험하고 결과를 확인할 수있게 되었다"고 설명했습니다.
단백질 연구 과제
질병을 치료하기 위해 정확하게 알맞은 특성의 단백질을 발견하거나 설계하는 작업은 굉장히 복잡합니다. 최근 몇 년 사이 최초의 AI 설계 저분자가 임상 시험에 들어가면서 신약 개발의 새로운 시대를 막 연 단계인데요.
단백질 설계 기술이 있음에도 불구하고, 단백질을 구성하는 아미노산을 정확하게 조절하여 기능을 향상하는 방법을 파악하는 것은 쉽지 않습니다. 인간이 처리할 수 있는 역량을 넘어서 기존의 연산을 활용해도 매우 어렵지만, AI가 처리하기에는 적합하죠.
랩지니어스는 신기술을 활용하기 위해 실험상의 반복 작업 및 생물학적 실험과 머신 러닝 기반의 의사결정 간 균형을 관리하는 자동화된 폐쇄형 루프 시스템을 개발하고 있습니다. 완벽한 단백질 설계를 찾기 위해 단백질을 서열화하고 지능적으로 분석하며 변형 및 재합성합니다.
데이터가 선사하는 이점
랩지니어스 실험실을 방문하면 액체 처리 장치가 표본 트레이를 채우고, 로봇 암이 트레이를 들어 다음 실험 단계로 가져가는 등, 물리적으로 작동하는 프로세스의 일부를 직접 확인할 수 있습니다.
바로 이 지점이 실험적인 연구와 데이터 사이언스가 융합되는 지점이라 할 수 있는데요.
푸틴체바 박사는 "자연어 처리나 이미지 인식에 비교했을 때, AI 분야 내 생물학적 도전 과제의 가장 큰 문제는 흥미로운 특징을 충분히 드러내는 고품질의 데이터가 부족하다는 것"이라며,
"데이터는 어디에서나 많이 찾을 수 있지만 사소한 곳에서 문제가 발생한다. 그 데이터 세트는 어떻게 만들어졌을까? 어떤 편향성을 포함하고 있을까? 데이터 세트에서 추출한 신호는 서열 공간에서 얼마나 추론할 수 있을까?"라고 말했습니다.
랩지니어스의 로봇 플랫폼은 머신 러닝 모델에 필요한 품질을 갖춘 적합한 종류의 데이터를 만들고 특성을 부여합니다.
푸틴체바 박사는 "이제는 생물학 분야에서 고품질의 뛰어난 데이터 세트가 만들어져야 할 때라고 생각한다"고 덧붙였습니다.
최적화와 추천
랩지니어스는 신중하게 엄선한 고품질 데이터 세트에 AI를 적용함으로써 새로운 단백질 치료제 개발의 두 가지 주요 문제를 해결할 수 있게 되었습니다.
첫 번째는 대표적인 AI 문제로, 매우 복잡한 시스템에서 수많은 변수를 어떻게 최적화 하는가 였습니다.
랩지니어스 기술 총괄 톰 애시워스는 "우리는 [이것]을 공동 최적화나 다중 목표 최적화라고 부른다"면서, "궁극적으로 투약 대상에 얼마나 잘 맞는지, 즉 친화성 관련 효능을 최적화할 수 있다. 안전성이나 안정성과 같은 몇 가지 다른 특질을 저해하지 않고도 말이죠"라고 설명했습니다.
AI는 랩지니어스에 실험을 반복하는 방법에 대한 정보도 제공하는데요.
"이 [시스템]은 분자를 바꿀 수 있는 여러 가능성을 살펴보는데, 더 간단한 구조의 점 돌연변이부터 전반적인 구성과 멀티 모듈 단백질의 토폴로지까지 다양하죠. 그리고 다음으로 어떤 걸 설계해야 하는지 알려 주기도 하죠. 입력의 변화를 제대로 이해하려면 실험에서 어떤 시도를 해야 하는지, 이게 출력의 변화와 어떻게 연결되는지 알아볼 수 있어요"라고 애시워스 총괄은 말했습니다.
생물학적 BERT
랩지니어스는 시라스케일(Cirrascale) IPU 클라우드에서 그래프코어 IPU 연산을 사용하여 BERT 훈련의 속도를 높였습니다. BERT는 트랜스포머 모델로, 자연어 처리로 가장 잘 알려져 있으며 바이오테크를 비롯해 점차 활용 범위가 넓어지고 있습니다.
랩지니어스 연구원들은 많은 양의 알려진 단백질로 BERT가 학습 데이터에서 가려진 아미노산을 예측하도록 합니다. 이를 통해 BERT는 효율적으로 단백질의 기본적인 생물물리학을 학습합니다. 푸틴체바 박사는 "이렇게 함으로써 BERT 모델의 숨은 가치로 앞으로 흥미로운 특징을 매핑하는 데 사용할 단백질에 대한 유의미한 표현을 만들 수 있죠"라고 말했습니다.
랩지니어스 연구원들은 GitHub에서 이용할 수 있는 그래프코어의 표준 PyTorch BERT 구현을 사용했습니다. 코드 변환을 최소화한 덕분에 이들은 현재 다루고 있는 작업에 필요한 데이터 세트의 적합성을 확보하는 데 집중할 수 있었습니다.
톰 애시워스 총괄은 반복적인 재학습이 필요한 모델에서 그래프코어 IPU가 학습 시간을 굉장히 단축한다는 점은 경쟁이 치열한 이 업계에서 랩지니어스에 상당히 유리하게 작용한다고 언급했습니다.
그는 "스타트업으로서 얼마나 빠르게 움직이고 반복할 수 있는지가 가장 중요하다” 면서,
"그래프코어는 우리가 할 수 있는 일을 변화시키고 모델 학습 시간을 몇 주에서 단 몇일로 줄여주었다. 우리와 같은 데이터 사이언티스트들에게는 굉장히 혁신적인 일이다. 생각한 속도보다 훨씬 빨리 움직일 수 있어 매우 유용하다"라고 애시워스 총괄은 덧붙였습니다.
현재 랩지니어스는 초기 발견 단계와 분자의 개발 가능성을 파악하는 데 BERT를 추가로 사용하는 등 그래프코어로 학습한 BERT 모델의 사용범위를 확장하는 것을 고려하고 있습니다. 그뿐만 아니라 IPU 고유의 아키텍처가 장점으로 작용하는 GNN(그래프 신경망)을 비롯해 그래프코어 시스템에서 새로운 AI 모델을 구축하는 방안도 모색하고 있습니다.