리모트미팅 개발PM 인터뷰🎤“화상회의는 ‘음성’ 디테일에 달려있다”

지난 코로나19 팬데믹 때보다는 사용량이 줄었다고 하지만 여전히 화상회의는 메신저, 이메일 다음으로 중요한 비즈니스 커뮤니케이션 수단으로 활용되고 있다. 본사-지사, 본사-파트너사, 본사-생산시설 간의 회의나 관내 다수의 사무소 및 시설을 관리하는 공공기관 등은 업무 효율성을 위해 화상회의를 지속적으로 활용하고 있다. 화상회의의 활용이 늘어나면서 국내외 주요 화상회의 업체들은 인공지능 기술을 적용하고 아바타 등 새로운 기능을 추가하는 등 경쟁 우위를 확보하기 위해 안간힘을 쓰고 있다.

화상회의, 또는 영상회의라는 명칭만을 보면 당연히 ‘영상’이 경쟁력의 가장 중요한 부분이라고 생각하기 쉽다. 그런데 ‘음성’이 화상회의의 가장 기본이자 제품의 경쟁력을 결정하는 요인이라고 주장하는 화상회의 소프트웨어 개발자가 있어 눈길을 끈다. 바로 비대면·원격 솔루션 전문 기업 알서포트의 화상회의 개발 총괄을 맡고 있는 김명섭 PM이다. 국산 화상회의 제품의 대명사로 불리우는 알서포트 ‘리모트미팅(RemoteMeeting)’을 개발한 그가 왜 영상이 아닌 ‘음성’을 강조하는지 들어봤다.

Q. 화상(영상)회의에서 ‘음성’이 중요한 이유가 무엇인가?

화상(영상)회의 제품의 차이를 가르는 것은 의외로 영상이 아니라 ‘소리’에 있다. 영상의 품질은 화상회의 소프트웨어보다는 웹캠 등 화상회의 장비에 달려있는 부분이 더 크다. 화상회의를 할 때 사람들의 얼굴을 보는 시간보다 문서나 화면을 보는 경우가 훨씬 많다. 상대방의 얼굴이 얼마나 잘 보이는지는 중요한 문제가 아니다. 설사 화면이 멈추거나 상대방의 얼굴이 안보이더라도 그 사람의 말소리가 여전히 잘 들린다면 회의는 계속 진행된다.

코로나19로 많은 사람들이 화상회의를 경험하게 됐다. 그리고 누구나 한 번, 어쩌면 매번 “제 목소리 들리나요?”라는 말로 화상회의를 시작했을 것이다. 화상회의를 하면 초반 2분~5분은 참석자들이 서로의 목소리가 들리는지 확인하는데 허비한다. 본격적으로 화상회의를 진행하다 보면 종종 두세명이 동시에 말을 하는, 이른바 ‘오디오가 겹치는’ 상황이 발생한다. 소리의 딜레이(지연)도 문제다. 누군가 말을 할 때 지연되어 전달되고 그 사이에 다른 사람이 말을 시작하면 두 사람의 말소리가 중첩되고, 결과적으로 의사소통이 어렵게 된다.

인간의 뇌는 40분의 1초까지도 감지할 수 있다고 한다. 그래서 화상회의를 하는 중에 소리가 안들리거나 말소리가 뒤섞이면 우리의 뇌는 자동으로 ‘무엇이 문제인가?’라며 그 원인을 찾게 된다. 한두 시간 회의하는 동안 이런 상황이 여러 차례 반복된다면 어떻게 될까? 우리의 뇌는 수시로 긴장하게 돼 피로감이 상승하고, 집중력은 저하돼 결과적으로 업무 생산성이 저하된다.

커뮤니케이션, 즉 ‘소통’이라는 측면에서 보면 대화하는 사람들의 목소리를 얼마나 선명하게 지연 없이 전달하느냐가 화상회의 우수성을 결정짓는 ‘기술적 차이’라 할 수 있다. 국내외 유명 화상회의 업체들이 지속적으로 오디오 품질 개선에 열을 올리는 이유도 바로 여기에 있다. 화상회의 제품의 품질과 성능을 좌우하는 것은 화려하고 흥미로운 기능보다 디테일한 오디오 기술이라는 것을 잘 알고 있기 때문이다.

“리모트미팅을 자체 테스트한 결과 기존 대비 음성 선명도가 최대 90% 향상됐으며 음성 전달 지연 시간은 제로(0초)로 나타났다.”

Q. 그렇다면 ‘리모트미팅’의 음성 품질은 어느 정도인가?

알서포트의 화상회의 서비스 ‘리모트미팅’은 기존에도 국내외 다른 화상회의 제품에 비해 우수하거나 최소한 유사한 수준의 음성 품질을 제공해왔다. 리모트미팅 개발팀은 여기에 만족하지 않고 지속적으로 기술 개발을 추진해왔다. 최근 자체 테스트를 실시한 결과, 기존 대비 음성 선명도가 최대 90% 향상됐다. 음성 전달 딜레이 타임(지연 시간)도 기존에는 3초 이하로 업계 최고 수준이었는데, 현재는 딜레이 타임이 제로(0초)다. 두 사람이 동시에 발언할 경우, 간혹 한 사람의 목소리가 소실되는 현상이 있었는데 이 문제 역시 해결했다. 동시 발언 중에도 발언자들의 음성이 모두 명확하게 전달된다.

Q. 혁신적인 음성 품질 개선을 위해 어떤 새로운 기술을 개발했나?

어떤 기술이 최신이라거나 최고라는 것은 없다. 어떤 최신 기술을 적용했느냐 보다는 화상회의 서비스 방식에 최적화된 기술을 찾는 것이 더 중요하다. 우리는 웹 서비스, 즉 웹브라우저 상에서 구동되는 화상회의에서 최고의 음성 품질을 제공하기 위해 특정 기술에 집중하기보다 다양한 기술의 장단점을 비교해 융합하는 방식으로 지속적인 기술 개발을 해왔다.

Q. 구체적으로 어떤 기술의 장단점을 융합했다는 것인지?

‘리모트미팅’과 같이 100명 이상이 동시에 참여(연결)하는 웹(WebRTC) 기반의 화상회의 서비스를 안정적으로 제공하기 위해서는 서버 구조가 중요하다. 웹 기반 화상회의의 서버 방식은 P2P(Peer to Peer) 방식, SFU(Selective Forwarding Unit) 방식, MCU(Multipoint Control Unit) 방식 크게 세 가지로 구분할 수 있다.

기술적인 설명을 최소화하면서 각각 서버 구조 방식의 장단점만 간단히 얘기해 본다. 우선 P2P 방식은 서버 자원을 이용하지 않고 클라이언트 둘을 직접 연결하기 때문에 기업 입장에서는 서버 비용이 들지 않는다는 장점이 있다. 반면, 사용자(회의 참석자)의 PC에는 많은 부하가 발생한다.

SFU 방식은 ‘줌(Zoom)’이 채택한 구조로, 중앙의 서버 각 클라이언트의 미디어 스트림을 중계하기 위해 접속한 클라이언트 수에 따라 영상 및 음성을 디코딩하는 구조다. 그러다 보니 연결된 클라이언트 PC의 자원 사용량이 증가하면 원활한 화상회의 진행이 어려울 수도 있다. ‘줌’이 화상회의에 참석한 사용자의 화면을 한 번에 25개씩만 노출하는 이유도 이 때문이다.

MCU 방식은 서버 자원을 활용하여 각 클라이언트 부담을 줄이는 방식으로, 보통은 연결된 클라이언트의 영상을 1개로 믹싱하지만 사용자가 많은 경우 2~3개 그룹 형태로 믹싱하여 대규모 접속을 처리한다. 기존에는 ‘리모트미팅’도 MCU 방식을 채택했지만, 현재는 SFU와 MCU를 혼합한 방식으로 서비스를 제공하고 있다.

Q. ‘리모트미팅’에 적용한 SFU-MCU 혼합 방식을 설명해달라?

결론부터 말하자면, MCU 방식의 영상 및 화면 구성의 강점은 강화하고, 여기에 SFU 방식의 강점인 오디오(음성) 성능을 더한 하이브리드 방식이라 할 수 있다. 기존에 ‘리모트미팅’에 적용했던 MCU 방식은 모든 참여자들의 모습을 한 화면에서 볼 수 있는 점을 비롯해 영상 및 화면 구성에서는 월등했지만, 중앙으로 업로드된 영상과 음성 미디어 스트림을 믹싱한 후 사용자들의 데이터를 고려하여 엔드포인트로 내려 주기 때문에 오디오 딜레이가 발생할 수밖에 없는 구조였다. 반면, SFU 방식은 접속한 클라이언트의 수만큼 영상과 음성을 디코딩하는 방식이라 과부하가 발생할 수 있다는 단점이 있지만, 중앙 서버에서 믹싱하지 않고 바로 엔드포인트로 내려 주기 때문에 보다 선명한 음성 전달이 가능하다.

그러나, MCU 방식으로 설계되어 있는 ‘리모트미팅’의 영상과 화면 구성 등은 그대로 유지하면서 오디오만 SFU 방식으로 전환하는 것은 예상한 것보다 쉽지 않은 과정이었다. 예를 들어, 기존의 MCU 방식은 중앙에서 영상과 음성을 믹싱하기 때문에 싱크가 정확히 맞았는데, 음성만을 SFU 방식으로 전환하다 보니 음성은 자동으로 곧장 엔드포인트로 내려가고, 영상은 중앙에서 믹싱되다 보니 싱크를 일일이 맞추는 작업이 필요했다. 여러 번의 시행착오와 수많은 내부 테스트를 거쳐야 했지만, 결과적으로 기존 서비스 대비 혁신적인 수준의 음성 개선이 이루어져 만족스럽다.

Q. ‘리모트미팅’과 관련해 강조하고 싶은 부분이 있다면.

잘 알려진 바와 같이 ‘리모트미팅’은 ‘원격제어’ 등 협업 생산성 향상을 도와주는 기능을 비롯해 3D아바타, 움직이는 가상 배경 등 흥미로운 다양한 기능을 제공하고 있다. 이번 기회에 ‘리모트미팅’을 공급하고 있는 알서포트가 화상회의의 기본이자 가장 중요한 음성 환경 향상을 위해 어떤 노력을 해왔는지 보여주고 싶다.

‘리모트미팅’은 음성 감지(Voice Activity Detection, VAD) 기술을 적용해 화상회의 시 주변 소음을 자동으로 제거하고 발언자의 음성을 더욱 선명하게 전달한다. 특히, 인공지능(AI) 기반의 STT(Speak to Text) 기술로 개발한 ‘AI회의록’ 기능은 정말 자랑하고 싶다. 말하는 사람의 음성을 자동으로 인식해 이를 텍스트로 전환하여 보여주는 기능으로, 지속적인 기능 강화를 통해 이전보다 음성 인식율을 99%까지 향상시켰다. ‘AI 회의록’을 이용하면 회의록 정리에 신경 쓰는 대신 화상회의 참석자 모두 회의 내용에 집중할 수 있어 회의 집중도와 업무 생산성이 크게 향상될 수 있다.

*기사원문: [인터뷰] “화상회의는 ‘음성’ 디테일에 달려있다”

👇관련 내용 자세히 보기!👇

[Hot] 리모트미팅이 음성 품질 개선을 위해 택한 기술은?

안녕하세요 알서포트입니다. 국내 대표 화상회의 리모트미팅! 타사 제품들보다 더욱 선명하고 깨끗한 음성 품질을 위해 지속적으로 노력하는 알서포트가 대대적인 개선 작업을 시행하였는

blog.rsupport.com

저작자표시 비영리 변경금지 (새창열림)

'알서포트 소식 > 알서포트 언론보도' 카테고리의 다른 글

'MZ 성지' 인생네컷, 무인 매장인데 기기 관리 어떻게? (0)	2023.04.19
원격SW 강자 알서포트, 공격적 R&D 투자 이어간다 (0)	2023.04.13
알서포트, 엑셈에 설치형 다목적 스마트워크 부스 ‘콜라박스’ 공급 (0)	2023.03.14
알서포트, 日 통신사 NTT도코모 '온라인 접객 시스템' 구축 (0)	2023.03.07
세라젬, 알서포트 '리모트VS' 도입, 신개념 ‘영상 상담 서비스’ 본격화 (0)	2023.02.21

리모트미팅 개발PM 인터뷰🎤“화상회의는 ‘음성’ 디테일에 달려있다”

'알서포트 소식 > 알서포트 언론보도' 카테고리의 다른 글

댓글

티스토리툴바

리모트미팅 개발PM 인터뷰🎤“화상회의는 ‘음성’ 디테일에 달려있다”

'알서포트 소식 > 알서포트 언론보도' 카테고리의 다른 글

관련글

댓글

티스토리툴바