'인간'을 닮아가는 음성인식 기술의 진화

2017. 1. 20. 09:33IT know-how/서비스분석

728x90
반응형

스마트폰을 통한 음성인식 기술 많이 사용하십니까? 저는 알림, 날씨, 전화, 문자보내기, 어플리케이션 실행, 검색에 아이폰의 시리를 비교적 잘 사용하는 편 입니다. 음성은 사람사이의 가장 기본적이며 자연스러운 의사소통의 방식입니다. 음성을 통해 나의 의사를 전달하고 상대에게 원하는 답변을 얻을 수 있는 수단이기 때문이죠. 이런 음성인식 기술을 기기에 적용하여 사용하고자 하는 노력은 오래전부터 계속되고 있습니다. 

가장 기본적인 예로 음성으로 말한것을 기기가 그대로 받아적도록 하는 기술, 통역을 하는 통역기, 컴퓨터를 통해 학습하는 언어프로그램 등이 그에 해당하겠습니다. 하지만 이런 기술들은 사람이 아닌 기계라는 것에 그 한계가 분명히 있었습니다. 사람과 기계의 대화는 사람대 사람의 언어를 아무래도 따라오기는 어려웠기 때문이죠 .

삼성전자 스폐셜 리포트에 음성인식 기술의 진화와 관련된 리포트가 있어 공유해 드립니다.

■음성인식 기술의 진화, 그 끝은 결국 '인간'

인간은 뭔가를 알고 싶을 때 어떻게 할까? 약 3000년 전까지만 해도 누군가의 ‘기억’에 의존하는 것 외엔 다른 방도가 없었다. 따라서 기억력이 뛰어난 사람, 자신이 기억한 걸 말로 잘 표현하는 사람은 누구에게나 중요한 존재였다. 마을마다 ‘기억력 비상하고 경험 풍부한’ 노인 한두 명이야말로 그 마을 사람들이 뭔가 궁금해할 때마다 ‘소환’되곤 하던 데이터베이스였다.

몇몇 사람의 기억을 보완하며 등장한 게 바로 문자 매체, 즉 ‘서류’였다. 인류 최초의 서고(書庫)가 등장한 건 기원전 7세기, 당시 메소포타미아 북부 지역 소재 고대 국가 아시리아(Assyria)에서였다. 물론 이때엔 종이가 없었기 때문에 서류라고 해야 ‘점토를 편평하게 밀어 송곳으로 문자를 새긴 후 불에 구워 차곡차곡 쌓아두는’ 형태가 고작이었다. 이런 문서는 (비록 대량으로 만들어낼 순 없었지만) 사람의 기억에 의존하는 것보다 훨씬 분명하면서도 흔들리지 않는 사실(fact) 확인엔 도움이 됐을 것이다.

14세기 고려의 ‘직지심경(直指心經)’ 편찬, 이어 15세기 독일인 구텐베르크의 금속활자 발명으로 서류(혹은 그것의 묶음인 책) 만들긴 한결 쉬워졌다. 20세기 중반에 접어들며 책이나 신문 따위의 매체는 세계 전역에서 일반인도 일상적으로 이용할 수 있는 데이터베이스가 됐다.

.

#반 세기 만에 실현된 ‘스타 트렉’ 속 로망

변화는 시작이 힘들 뿐 일단 물살을 타기 시작하면 엄청난 속도로 진전된다. 실제로 종이 매체가 보편화된 지 불과 한 세대 정도 지난 1990년대에 접어들며 종이 매체 속 콘텐츠는 인터넷을 통해 세계인 모두가 어디서나 공유할 수 있게 됐다. PC를 통해 전 세계 데이터베이스에 누구나 접근할 수 있게 되자, 일부에선 ‘정보의 홍수’ 사태를 우려하는 목소리가 나왔다. 그래도 변화의 흐름은 계속됐다. 날로 작아지고 간편해지는 모바일 기기의 보급 덕에 세상은 ‘모든 사람이 모든 지식과 정보를 공유하는’ 방향으로 바뀌었다.

▲1966년 드라마로 첫선을 보인 스타 트렉 시리즈는 수십 년이 지난 현재까지 영화로 제작될 만큼 큰 인기를 끌고 있다. 위 이미지는 지난해 개봉한 영화 ‘스타 트렉 비욘드’의 스틸 이미지(롯데엔터테인먼트 제공)

‘이만 하면 충분히 편리해졌으니 이제 그만 하자!’ 인간 세계에서 이런 타협은 존재하지 않는다. 1966년 첫 전파를 탄 미국 SF TV 드라마 시리즈 ‘스타 트렉(Star Trek)’엔 정확한 지식과 정보뿐 아니라 신뢰할 만한 지침까지 실시간으로 제공하는 컴퓨터의 목소리가 등장한다. 당시 이 시리즈에 열광했던 시청자 중 상당수는 드라마에서처럼 실제에서도 인간과 기계 간 대화의 실현을 꿈꿨다.

그리고 오늘날, 그 꿈은 현실로 부쩍 다가왔다. 의자에 앉아 자판을 두드리는 것, 손목에 찬 웨어러블 기기를 ‘터치’하는 것조차 번거롭다. 머릿속에 떠오른 의문을 입 밖으로 꺼냈을 때 곧장 정확하고도 신뢰할 수 있는 답이 돌아온다면 어떨까? 좋아하는 음악이 저장된 CD를 장만하거나 다운로드해 MP3 플레이어에 담을 필요 없이, 그저 “샤이니 신곡을 들려줘”라고 말하기만 해도 해당 음악을 들을 수 있다면?

실제로 요즘 구현되는 기술은 스타 트렉에서의 그것을 능가한다. 일단 굳이 우주선 안 컴퓨터 앞에 앉아 있을 필요가 없다. 어디서 뭘 하는 중이든 손 안의 스마트폰, 혹은 손목이나 목에 착용한 웨어러블 기기에 대고 말만 해도 된다. 헤드셋 형태의 기기라면 그저 질문을 소리 내어 표현하는 것만으로도 원하는 대답을 들을 수 있다, 그것도 ‘세계 최대 도서관에서 하루 종일 고생해도 찾기 어려울 정도의’ 품질을 갖춘 대답을! 그뿐 아니다. 장르와 시대를 불문하고 사용자가 가장 듣고 싶은 음악도 ‘지금 바로 내 귀로’ 제공된다. 바야흐로 ‘인공지능 음성인식 기술 기반 서비스 로봇’ 시대로 접어든 것이다.

#요즘 음성인식 앱, 답답하게 느껴지는 이유

사실 현대인에게 음성인식 기술은 퍽 가까이 있다. 삼성전자서비스 콜센터는 고객이 (상담을 원하는) 제품명을 말하면 이를 자동으로 인식, 전문상담원과의 통화로 연계한다. 지난 2012년 갤럭시 S3와 함께 출발한 삼성전자의 음성인식 서비스 ‘S보이스(S-voice)’는 이제 전화 연결에서부터 웹브라우징에 이르기까지 다양한 기능을 갖추고 있어 스마트 기기 생활을 더욱 편리하게 해준다.

하지만 이런 서비스를 접하며 스타 트렉 속 컴퓨터 목소리를 떠올리는 이는 아직 많지 않다. 극중 우주비행사들이 기계와 대화하는 모습과 현실의 음성 기반 서비스를 이용하는 본인의 모습이 사뭇 다르기 때문이다. 1998년과 1999년 방영된 ‘스타 트렉: 딥 스페이스 나인(Star Trek: Deep Space Nine)’ 시리즈에서 ‘마일즈 오브라이언(Miles E. O'Brien)’이 컴퓨터 지시에 따라 우주선을 운행하는 장면만 봐도 그렇다.

사람의 지시에 따라 우주선을 제어하는 능력까지 기대하긴 시기상조라 치자. 적어도 위 장면에서처럼 급한 상황에서 빠른 말투로 질문을 던졌을 때 즉각 자연스러운 말투로 정확한 정보를 말해주는 정도는 돼야 컴퓨터와 소통하는 느낌이 들 것 같다. 그런 면에서 2017년 1월 현재 나와있는 음성인식 기반 서비스들은 여전히 답답하다. 더욱이 조용한 곳에서, 또박또박 정해진 말을 해줘야 하는 만큼 ‘친근한 동반자’ 같은 느낌을 받긴 쉽지 않은 게 사실이다.

사실 이는 음성인식 기술을 개선, 보다 실용적인 소프트웨어를 만들고자 하는 개발자라면 누구나 골머리를 앓는 난제 중 하나다. “인간에겐 아주 쉬운 일이 컴퓨터에겐 아주 어렵고, 인간에게 아주 어려운 일들이 컴퓨터에겐 아주 쉽다”는 일명 ‘모라벡의 역설(Moravec‘s paradox)’<관련 내용은 지난해 3월 23일자 스페셜 리포트(“인공지능의 미래가 두렵다”는 당신에게) 참조>이 음성인식 기술 개발 현장에서도 고스란히 재현되고 있는 셈이다.

컴퓨터 입장에서도 고충은 있다. 일단 소리 입력 장치에 들어가는 소리 중 ‘사람 말’과 그렇지 않은 걸 구분해내야 한다. 거리에서 자동차 소음과 인간 음성을 구분하는 작업은 비교적 쉽겠지만 여럿의 말소리가 마구 뒤섞이는 파티 장소에서 특정인이 쓰는 단어만 골라내기란 결코 간단치 않을 것이다.

컴퓨터에게 지시 내리는 사람이 말을 빨리, 그리고 이어서 하는 편이라면 문제는 더 복잡해진다. 하나의 단어가 어디서 끝나고 또 시작되는지 구분하기조차 어려워지기 때문이다. 특히 한국어처럼 단어마다 미세하게 받침이 달라진다면 문제는 걷잡을 수 없이 커진다. 제아무리 세련된 음성인식 정보 제공 서비스라 해도 “지금 ‘단골 식당 예약 부탁해’라고 하셨습니까, 아니면 ‘당 고효율 식단에 약 부탁해’라고 하셨습니까?” 같은 질문을 반복해 사용자를 짜증나게 할 일이 잦아질 수 있다.

엎친 데 덮친 격으로 인간은 같은 취지의 말을 하면서도 거의 무한에 가깝게 소리를 바꿔 낸다. 똑같은 말이라도 화자가 누구냐에 따라 높낮이나 억양이 전혀 달라질 수 있다. 그 모든 변수를 컴퓨터가 인식, 정확한 메시지를 이해하도록 하는 건 실로 엄청난 작업이다. 설사 정확한 음성인식이 가능하다 하더라도 그건 첫걸음에 불과하다. 해당 음성이 담고 있는 문장 구조와 의미를 이해해 정확한 의미와 연결시켜야 비로소 정확한 ‘인식’에 이를 수 있기 때문이다.

이 모든 걸 생각하면 누군가의 말을 듣고 그 의미를 실시간으로 이해해 반응하는 인간의 두뇌는 그야말로 ‘기 막히게 뛰어난’ 장치다. 이를 위해 모든 인간은 태어난 직후부터 성인이 되기까지의 오랜 시간 동안 다양한 상황에서 말하고 들으며 언어 생활을 반복해왔다. 어쩌면 ‘언어적으로 완성된’ 인간을 상대로 컴퓨터 소프트웨어가 인간이 원하는 수준의 서비스를 제공하지 못하는 건 지극히 당연한 일인지도 모른다. 아니, 현 상태의 기술이 구현된다는 사실 자체가 놀랍다고도 할 수 있다.

.

#음성인식 기술은 첨단 융합 과학의 최전선

음성인식 기술은 컴퓨터과학 중에서도 가장 복잡한 분야 중 하나다. 대개의 첨단 학문이 그렇듯 여러 부문 간 협력 작업이 필수이며 최소한 언어학∙수학∙뇌신경과학∙컴퓨터과학이 공동으로 작업해야 성과를 낼 수 있다. 그 근거는 다음과 같다.

컴퓨터는 어떤 절차를 거쳐 음성을 인식할까? 초기 단계에선 컴퓨터가 사람 음성을 듣고 자체 내장 메시지 중 그것과 일치(match)하는 걸 찾아 이해하거나, 해당 소리 유형과 특징을 분석했다. 이런 방법을 종합해 소리 간 연계를 확률로 계산, 제시하는 모델링 기법이 완성됐다. 이 기법은 관련 연구에 핵심적으로 기여한 러시아 수학자 안드레이 마르코프(Andrey Andreyevich Markov, 1856~1922)의 이름을 따 ‘히든 마커브 모델(Hidden Markov Model, HMM)’로 이름 붙여졌다. HMM은 뇌신경과학적 성과와 컴퓨터과학의 합작품인 인공신경망(Artificial Neural Network, ANN) 기술을 만나며 음성인식 기술을 한 단계 도약시켰다.

컴퓨터와의 대화가 시간∙장소 제약에서 자유로워진다면 음성인식 기술이 지니는 이점은 점차 커질 것이다. 실제로 ‘손 안의 컴퓨터’라 할 수 있는 스마트폰 보급이 일반화되면서 음성인식 기술 개발 속도는 한층 빨라졌다. 삼성전자는 물론이고 애플∙마이크로소프트∙구글, 최근엔 아마존까지 음성인식 시장에 뛰어들면서 관련 소프트웨어 경쟁 속도는 뜨겁게 달아오르고 있다. 추후 사물인터넷까지 안정적으로 보급된다면 목소리로 주거 환경을 제어하거나 자동차를 작동시키는 일도 가능해질 것이다. 스타 트렉 속 컴퓨터가 우스워질 정도로 환상적인 세상이 눈앞에 바짝 다가온 것이다.

.

#120억 달러 황금 시장, 선점 경쟁 ‘스타트’

지난 5일부터 나흘간(현지 시각) 미국 라스베이거스에서 세계 최대 가전 전시회 ‘CES 2017’이 열렸다. 매해 개최 시점을 기준으로 가장 ‘핫(hot)한’ 기술이 주목 받는 CES의 성격을 고려할 때, 올해 행사의 주인공은 단연 음성인식 기술이었다. 이 같은 추세는 수치로도 입증된다. 글로벌 온라인 시장조사 기업 ‘마켓츠앤드마켓츠(MARKETSANDMARKETS)’에 의하면 오는 2022년 음성인식 기술 시장 규모는 119억6000만 달러(약 14조1427억 원)에 이를 전망이다.

인간의 힘은 누군가와 대화를 나눌 때 증폭된다. 이런저런 사정으로 혼자 사는, 혹은 동거인이 있어도 홀로 지내는 시간이 많을 수밖에 없는 현대인. 동화 속에서 숲 속 모든 존재와 대화하고 협력해 놀라운 일을 척척 해내는 요정처럼 그들도 TV∙조명∙냉장고∙세탁기 등 집 안 모든 기기와 얘길 나누고 그로 인해 더 많은 일을 척척 해낼 날이 머지않았다.

반응형