본문 바로가기
Tech Inside

[초거대AI]MS-엔비디아 ‘MT-LNG’ / 중국 인공지능 우다오 2.0

나날이 발전하는 정보통신기술(ICT) 분야에서

최근 가장 핫한 키워드는 '초거대 AI(Hyper-scale AI)'입니다.

이 새로운 추세는 OpenAI의 자연어 처리(NLP) 모델인

GPT-3에서 나타난 획기적인 발전과

창의적인 사용 사례에 힘입어 상당한 주목을 받았는데요~

글로벌 ICT 기업들의 관심이 높아지고 있으며

초대형 AI 모델의 등장으로 이어지고 있죠.

이번 글에서는 Hyper-scale AI를 둘러싼

국내외 기술동향에 대해 알아보도록 하겠습니다.

MS-엔비디아의 초거대 AI ‘MT-LNG’

컴퓨팅 기술 강자 마이크로소프트(이하 MS)와 엔디비아(NVIDIA)가 협력해 기존 GPT-3(175B)보다 3배 더 큰 530B 파라미터의 MT-NLG (Megatron-Turing Natural Language Generation Model)를 발표했다. MS에 따르면, MT-NLG는 현재 같은 유형 모델 중 규모와 정확도 모두에서 최고 수준을 보인다. 해당 모델이 높은 정확도를 보이는 5개 분야는 완료 예측(completion prediction), 독해(reading comprehension), 상식 추론(commonsense reasoning), 자연어 추론(natural language inference), 단어 의미 중의성 해소(word sense disambiguation)다.

MS는 공식 블로그를 통해 “최근 초거대 모델 매개변수 처리는 최고 수준의 GPU 메모리에서도 더이상 불가능한 수준에 이르렀다”고 전했다. 이와 같은 거대한 AI 모델의 훈련 효율화를 위해서는 엔비디아 셀린(Selene)과 MS 에저(Azure) NDv4와 같은 슈퍼컴퓨팅 클러스터와 Megatron-LM과 DeepSpeed라는 획기적인 소프트웨어를 접목해야만 가능했다고 부연했다.

MT-LNG의 데이터셋은 총 339B 토큰(Token)으로 구성된 15개의 데이터셋을 사용해 MT-LNG를 학습했고, 데이터셋의 용량은 총 1.5TB에 해당한다. 이러한 대규모(Large-scale) 학습을 위해서는 크게 하드웨어 시스템과 소프트웨어 설계의 접목을 통해 해결하였는데, 그 구성은 아래와 같다.

1) 하드웨어 : NVIDIA Selene, MS-Azure NDv4와 같은 슈퍼컴퓨팅 클러스터

2) 소프트웨어 : 530B의 MT-LNG를 학습시키기 위해 NVIDIA Megatron-LM과 MS DeepSpeed를 조합하여 data/pipeline/tensor-slicing parallelism 구현

MT-LNG와 같은 초대규모 AI 모델의 발전이 무어의 법칙을 훨씬 능가하면서 더 많은 연산능력을 필요로 하고 있다. 현재 구글의 TPU를 제외하고 학습에서 사용할 수 있는 하드웨어 리소스는 GPU가 유일하다. 이러한 한계에서 MT-LNG의 Large-scale 학습방법은 초대규모 AI 모델 학습에 다음과 같은 시사점을 준다.[1]

1) 하드웨어 리소스 효율화

Megatron-LM과 DeepSpeed 조합과 같은 소프트웨어 프레임을 이용해 GPU의 대역폭(throughput)을 향상시키고 이기종 컴퓨팅을 도입하여 하드웨어 리소스를 보다 효율적으로 사용할 것이다.

2) 하이퍼스케일러(Hyperscaler)들의 자체 트레이닝 칩 개발

Large-scale 모델 개발에 많은 시간과 비용이 들기 때문에 많은 하이퍼스케일러들이 자체 AI 가속기를 개발하여 고가의 GPU 도입 비용을 절감하고 AI 모델 개발 시간을 단축할 것이다.

3) Large-scale 모델에 적합한 메모리 풀 구조

Large-scale 모델 학습에 가장 필요한 자원은 메모리로, 거대한 메모리 풀을 효율적으로 사용할 수 있는 구조가 연구될 것이다. 예를 들어, NVIDIA의 Grace CPU는 고속의 NVLINK를 이용하여 CPU의 메모리를 Far 메모리로 사용하여 부족한 GPU 메모리 용량을 확보할 수 있을 것이다.


[1]김대우, GPT-3보다 3배 더 큰 언어모델:MT(Megatron-Turing)-NLG(530B), 2021년 10월.

중국 인공지능 아카데미의 초거대 AI 사전학습 모델 ‘우다오 2.0’

중국 베이징 인공지능 아카데미(BAAI: Beijing Academy of Artificial Intelligence) 연구팀이 발표한 ‘우다오 2.0’은 1조 7천억개의 매개변수를 사용한 AI 사전 학습모델이다. 이는 GPT-3의 매개변수 1,750억개보다 10배 크고, 구글 스위치 트랜스포머보다 1,500억개 더 큰 규모다.

우다오 2.0은 대화 음성을 시뮬레이션하고 시를 쓰며, 그림을 이해하고 레시피를 생성하는 등 사전 훈련된 AI 모델로, 마치 데이터를 연료로 사용하는 발전소와 같다. 중국어와 영어로 AI 애플리케이션을 지원하는 다양한 인텔리전스(Intelligence)를 생성한다[3].

총 4.9테라바이트(TB)의 텍스트 및 이미지 데이터로 학습되고 있으며, 이 학습 데이터에는 중국어와 영어 텍스트를 각각 1.2TB씩 포함하고 있다. 특히, GPT-3가 할 수 없는 다중 모드로 텍스트와 이미지에서 학습하고 두 가지 유형의 데이터를 모두 포함하는 작업을 처리할 수 있다. 예를 들어, 이미지 생성이나 얼굴 인식 등의 특정 작업에 특화된 심층 생성 모델과 달리, 에세이나 시를 쓰거나 정지 이미지에 근거해 보완하는 문장을 생성할 수 있고, 문장의 설명에 따라 이미지를 만들어 낼 수도 있다.

베이징에서 활동중인 AI 연구자 블레이크 얀은 “거대 데이터 세트로 훈련된 이들 정교한 모델이 특정 기능에 사용되는 경우, 소량의 새로운 데이터 밖에 필요하지 않다. 왜냐하면 인간과 마찬가지로 이전에 학습한 지식을 새로운 작업에 응용할 수 있기 때문이다”라고 말했다.

이는 우다오 2.0의 대규모 사전학습 모델이 인간과 같은 추론능력을 지닌 범용 인공지능에 초점을 뒀다는 점을 시사한 것으로, 우다오 2.0의 목적이 세계 최고 수준의 AGI(Artificial General Intelligence) 개발이라는 연구진의 주장에 근거를 둔다. 즉, AI가 정말 사람처럼 생각하고 행동하도록 만들겠다는 뜻이다.

또한, 우다오 2.0은 구글의 MoE(Mixture-of-Export training System) 기술의 한계인 병목현상을 해결하고자 파이토치(PyTorch) 프레임까지 지원하는 최초의 MoE 시스템인 FastMoE를 개발하였는데, 이는 가용성, 유연성, 훈련속도 측면에서 강점을 보인다. 구글의 MoE와 다르게 오픈소스 형태이고, 특정 하드웨어를 필요로 하지 않으며 이미 ImageNet, LAMA 등 여러 벤치마크 테스트에서 좋은 성적을 냈다고 한다.

종합하면, 우다오 2.0의 사전학습 프레임워크는 업계 최고 수준의 AGI를 지향하며, FastMoE 시스템을 통한 훈련 효율성으로 코딩, 모델, 학습, 미세 조정(fine-tuning), 추리 등 5가지의 고효율 특징을 갖고 있다. 이를 바탕으로 한 우다오 2.0은 중국어 텍스트 데이터, 멀티모달 데이터, 대화음성 데이터까지 모두를 통합한 거대 데이터 모음집이라 할 수 있다.[4]


[3] 최창현, 중국 인공지능 아카데미, GPT-3 10배 넘는 1조7500억개 매개변수 초거대 AI 언어 모델 ‘우다오

2.0’ 개발, 인공지능신문, 2021년 6월.

[4]애뚱, “우다오 2.0 발표, 쯔위엔 연구원 가상 디지털 인간 화즈빙”, 디지털 중국, 2021년 7월.

https://youtu.be/Tbz7xAGJnA0

 

보다 자세한 내용은 기술문서 원본을 다운로드해 확인하실 수 있습니다.

👉 기술문서 원본 다운로드

🔽 참고 인사이트 🔽

 

[알서포트 Tech Inside3호] “초거대 인공지능 기술 동향 및 개발 경쟁" 1부

🔹1부: 초거대 인공지능 정의와 해외 기술 동향 🔹2부: 국내 초거대 AI 기술 동향 및 국내외 초거대 AI 기술의 한계와 과제 최근 정보통신기술(ICT) 분야의 가장 핫한 키워드는 ‘초거대 인공지능(

blog.rsupport.com

 

댓글