본문 바로가기
Tech Inside

딥마인드의 인공지능 언어모델 '고퍼'

지난 2016년 한국의 이세돌 9단과 바둑 승부를 벌여 화제가 됐던 알파고, 기억하시나요?

'고퍼(GPT)'는 "Generative Pre-trained Transformer"의 약어로, 딥마인드에서 개발한 대규모 언어모델입니다. 이 모델은 자연어 처리 분야에서 큰 인기를 얻고 있으며, 인공지능 기술의 발전에 큰 역할을 하고 있습니다.

고퍼 모델은 이전에는 수많은 자연어 처리 작업에서 사람들이 작성한 텍스트 데이터를 사용하여 사전 학습된 상태에서 미세 조정(fine-tuning)을 통해 다양한 자연어 처리 작업을 수행할 수 있습니다. 이렇게 학습된 고퍼 모델은 문장 생성, 번역, 요약, 질문-응답 등 다양한 자연어 처리 작업에서 높은 성능을 보입니다.

초거대 인공지능 기술 해외 동향: 딥마인드의 '고퍼'

알파고로 알려진 딥마인드에서 자체 개발한 초거대 AI 언어모델 ‘고퍼(Gopher)’를 공개하면서, 초거대 인공지능(AI) 언어모델 개발 경쟁에 처음 합류했습니다. 고퍼의 성능 증명 논문과 함께, 검색 언어모델 (Retrieval Language Model)과 거대 언어모델의 윤리 문제를 각기 다룬 논문 2개를 발표했고, 단순히 모델 크기를 늘리는 여타 기업과 달리 AI 학습 효율을 높여 개발 비용을 줄이는 전략을 택했는데요.고퍼는 2,880억개 매개변수로 구성되었고, OpenAI의 GPT-3(1,750억개) 보다는 크고 마이크로소프트의 Megatron-Turing(5,300억개)보다는 작지만 성능은 기존 모델들을 능가한다는 것이 딥마인드의 설명입니다.

인류학, 사회과학, 의학, 일반 상식, 과학/기술, 수학 분야의 고퍼와 GPT-3, 인간 전문가 능력 비교 (*출처=딥마인드 공식 블로그)

 

또한 딥마인드는 고퍼와 함께 검색 언어모델 일종인 레트로(RETRO, Retrieval-Enhanced Transformer)를 소개했는데, 이를 적용할 경우 기존 모델과의 성능 격차는 더욱 벌어집니다. 레트로는 문장 생성 시 2조 가량의 방대한 구문 텍스트로 이뤄진 외부 메모리를 활용하는데, 텍스트를 생성할 때 외부 데이터베이스에서 비슷한 구절을 찾아 비교하는 방식입니다. 이를 이용하면 70억개의 매개변수로 이뤄진 레트로 모델이 매개변수가 1,750억개GPT-3와 동일한 성능을 낼 수 있습니다. 25배 정도 큰 모델과 같은 결과를 제시할 수 있다는 의미입니다. 레트로와 같은 검색 언어모델은 초거대 AI 개발 효용을 극대화하고, AI 윤리에도 유용하다는 것이 딥마인드의 설명입니다.

 


[참고자료] 박성은, 딥마인드도 초거대 AI 언어모델 고퍼 공개…크기 대비 성능이 차별점, AI타임스, 2021년 12월.

 

 

 

🔽 참고 영상 🔽

 

🔽 참고 인사이트 🔽

 

[알서포트 Tech Inside 3호] “초거대 인공지능 기술 동향 및 개발 경쟁" 1부

🔹1부: 초거대 인공지능 정의와 해외 기술 동향 🔹2부: 국내 초거대 AI 기술 동향 및 국내외 초거대 ...

blog.naver.com

 

댓글