"트럼프가 한글로 연설” 딥러닝 음성변환 기술! 네오사피엔스 김태수 대표

작년 6월에 트럼프 미국 대통령이 한국어로 연설을 한 영상이 유트브에 나왔어요. 하지만 이는 인공지능이 트럼프 대통령의 목소리를 학습해서 연설한 것이지요. 이 기술을 개발한 것은 우리나라의 스타트업 네오사피엔스예요. 이 기술을 이용하면 죽은 사람의 목소리조차 되살릴 수 있다고 해요.

“나는 한국어를 배운 적이 없어요. 북한의 리더 김정은을 만나려고 이 기술을 준비했습니다. 정상회담이 기대됩니다. 곧 만납시다.” 지난해 6월 도널드 트럼프 미국 대통령의 짧은 한국어 연설이 유튜브에 공개됐다. 발음은 다소 어눌했지만 틀림 없는 트럼프 대통령의 목소리였다.

트럼프 대통령은 어떻게 한국어 연설을 한 걸까, 비밀은 딥러닝 기술을 사용한 음성생성 기술에 있었다. 인공지능(AI)이 특정인의 목소리를 학습해 여러 가지 언어로 변환할 수 있는 기술이다. 국내 스타트업 네오사피엔스가 개발했다. 세상을 떠난 스티븐 호킹 박사의 목소리로 새 논문을 발표하거나, 방탄소년단(BTS) 멤버의 목소리로 나만의 생일 축하 메시지를 받을 수도 있다. 앞으로 엔터테인먼트는 물론 방송·기념관 등 분야에서 폭넓게 사용될 것으로 예상된다. 삼성전자 C랩이 지원하는 스타트업 프로젝트에 선정되는 등 대기업들로부터 큰 관심도 받고 있다.

음성생성 기술을 개발하게 된 계기는.

“문자음성 자동변환 기술(TTS)은 1990년대 본격적으로 나왔고, ARS·공공장소 안내 방송 등 제한적으로 사용됐다. 여기에 딥러닝 기술을 접목해 굉장히 자연스러운 음성을 생성할 수 있게 됐다. 지난해 구글에서 기계 음성이 전화해서 예약하는 AI 듀플렉스를 선보이기도 했다. 앞으로 원하는 앵커의 목소리로 24시간 뉴스를 들을 수 있고, 좋아하는 연예인의 음성으로 메시지를 받을 수 있다. 개인화된 미디어로도 발전할 수 있다.”

어느 누구의 목소리라도 생성할 수 있나.

“깔끔하게 녹음된 음성이 있다면 다 가능하다. 녹음된 음성을 AI에게 40분~1시간가량 학습을 시키고, 여기에 원하는 문장을 입력해 음성을 만든다.”

음성생성 기술을 어떻게 상용화 할 수 있나.

“놀이문화에 사용할 수 있다. 현재 유튜브 등 온라인 방송의 경우 시청자가 BJ에게 돈을 기부하면 기부자의 댓글을 기계음성이 읽어준다. 이를 BJ 목소리로 바꾸면 BJ가 자신과 대화하는 것 같은 효과가 난다. 이를 사용자나 할아버지 등 다양하게 바꿀 수 있다. 실제 최근 젊은 사용자들이 이런 서비스에 즐거워한다. 1인 제작자가 음성 드라마나 여기에 삽화를 넣은 영상을 만들 수 있다. 지난해 5월 트럼프 대통령의 목소리로 ‘더퀴즈 라이브’ 방송을 하기도 했다.”

엔터테인먼트 분야로도 가능성이 열려 있나.

“음성생성 기술은 가상의 연예인이자 연기자다. 만약 성우에게 음성 드라마를 맡기면 녹음실 임대 등 돈이 많이 드는 데 비해 음성생성은 비용이 아주 적게 든다. 사람들의 기호는 다양하다. BTS가 댓글을 읽어주는 등 여러 요구에 대응할 수 있다. 물리적 한계가 없기 때문에 연예인들은 자신의 시간을 할애하지 않고도 많은 대중에게 서비스 할 수 있다. 직접 발로 뛰지 않아도 더 많은 수입을 창출할 수 있다.”

연예인 목소리의 희소성은 떨어질 수 있지 않나.

“음원의 경우 CD에서 스트리밍으로 넘어오면서 가수들의 라이브콘서트 가격이 기하급수적으로 올랐다. 오리지널의 가치는 더욱 오를 수 있다. 과거 축음기의 발명으로 부자에게 귀속됐던 가수들이 대중 스타로 신분이 상승했고, 이때부터 밀리언 셀러도 등장했다. 앞으로 발전 방향은 지켜봐야 한다.”

목소리가 같아도 영상 속 입모양이 다르면 어색하지 않나.

“현재 영상 속 입모양을 바꿔주는 기술을 가진 영국 스타트업과 협업 중이다. 음성의 발음에 맞춰 영상 속 인물의 입모양을 바꿔준다. 우리 기술을 사용해 BBC 앵커가 라틴어를 하게 하면 영상 속 앵커의 입모양도 발음에 맞춰 변한다. 대화 엔진과 비디오 홀로그램을 사용하면 사용자와 직접 대화하게 될 수도 있다. 한류 스타들이 인도네시아·베트남·태국 등 해외 팬들에게 조금 더 친숙하게 다가설 수 있다.”

영어보다 딥러닝 학습량이 적은 한국어는 수준이 떨어지지 않나.

“어느 개발사도 문맥에 따라 자연스럽게 톤을 결정해 말하는 기술은 갖고 있지 않다. 감동받고, 놀라고 화나는 등의 감성을 표현하는 데까지는 시간이 걸릴 것으로 본다. 여러 상황에 대한 데이터와 모델링이 필요하다. 현재 네오사피엔스가 세계적으로 꽤 앞서가는 편인데, 현재 추세라면 한국어도 수준이 떨어지진 않을 것이다.”

음성생성 분야의 경쟁사는.

“해외에서는 버락 오바마 전 미국 대통령의 음성을 생성해 화제가 된 라이어버드가 가장 유명하다. 넷플릭스의 보이스피싱 관련 다큐멘터리에 등장하기도 했다.”

언제부터 수익이 발생할 것으로 보나.

“지금도 매출은 일어나고 있다. 보통 새 기술은 기존 기술이 못하던 것을 하지만, 기존 기술보다 못한 점도 있다. 시간은 다소 걸릴 것이다. 스마트 어시스턴트처럼 감성이 필요하거나 그간 비싸서 못한 콘텐트의 제작 등 기존에 없던 시장이 열리면 매출이 커질 것이다. 돌아가신 분들의 음성을 복원해 주는 가족 서비스나, 대기업 기념관에 창업주 음성을 재현해주는 서비스 등은 현재도 진행 중이다.”

언제부터 음성생성 기술에 관심을 가졌나.

“한국과학기술원(카이스트)에서 전자공학을 전공하고, 바이오 및 뇌공학으로 박사를 받았다. 그때부터 쭉 관심을 가져왔다. LG전자와 퀄컴에서 스마트폰의 음성 인식 등 소리와 관련된 일을 해왔다. 스마트폰 마이크가 사용자 음성을 항시 인식해 반응하는 기술을 퀄컴에 다닐 때 세계 최초로 개발해 2012년 모바일월드콩그레스(MWC)에서 공개하기도 했다.”

음성생성이 범죄에 악용될 것이란 우려도 있다.

“극복해야 하는 문제다. 자동차가 처음 나왔을 때 위험하다는 비판이 있었지만 도로 사정과 신호체계, 대중의 교통안전 의식이 향상되면서 우려가 사그라졌다. 음성생성을 남을 속이는 데 사용하는 것은 엄연한 범죄다. 성대모사를 통해 남을 속이는 것과 본질은 같다. 범죄냐 아니냐, 이에 대한 사회적 의식과 대중의 컨센서스가 생길 것이다.”

특정 기업이 개발한 신기술의 악영향을 사회가 모두 함께 나눠야 한다는 뜻인가.

“어느 회사가 신기술을 독점적으로 개발하고 있다고 한다면 그는 사기다. 사회 트렌드 변화에 따라 기술도 개발되기 때문이다. 회사의 존망이 걸린 일이기 때문에 기업과 개발자는 기술 악용을 막는 데 최선을 다할 것이다. 음성생성의 경우 음성이 사용된 경우를 찾아내 사후 대응할 수 있는 시스템을 구축하고 있다. 음성생성의 부작용은 대부분 예측가능하기 때문에 여러 방면으로 대응 노력을 하고 있다.”

기술창업에 어려운 점은 없었나.

“기술창업은 시간이 오래 걸린다. 창업이 활성화 되려면 대학과 연구소에서 스핀오프(독립)하는 프로젝트가 많아야 한다. 정부 지원금은 스타트업보다는 대학·연구소에 지원하는 것이 낫다. 벤처캐피털 등은 투자 기간이 짧기 때문에 기초연구는 대학·연구소 중심으로 가되 이후 사업화 고민이 필요하다. 또 대학과 연구소는 각각의 연구결과를 모두 열고 공유하는 문화가 자리잡길 바란다.”