[Hip한 IT] 현실로 다가온 '음성인식 AI 시대'..그런데 시키는 내가 답답한 이유는 뭘까?
[Hip한 IT] 현실로 다가온 '음성인식 AI 시대'..그런데 시키는 내가 답답한 이유는 뭘까?
  • 정단비 기자
  • 승인 2017.01.31 11:40
  • 댓글 0
이 기사를 공유합니다

인공지능(AI) 시대에 접어들었다. 지난해 이세돌 9단과 인공지능 바둑 프로그램 '알파고(AlphaGo)'의 대국은 전 세계적인 충격을 줬고, 이전에는 영화 등을 통한 상상에 불과했던 인간과 기계와의 대화가 점점 현실화되고 있다.

사실 현대인에게 음성인식 기술은 일찌감치 실현되고 있었다. 우리가 흔히 궁금한 것을 물어보는 콜센터에는 언제부턴가 음성 이용 기능이 장착됐다.

스마트폰에도 삼성전자는 음성인식 서비스 'S보이스(S-voice)'를 애플은 '시리(Siri)'가 있다.

하지만 AI 기술이 발달하고 있다고 하지만 어딘가 부자연스러운 로봇말투와 유사한 발음을 구분하지 못하는 등 아직 답답함을 유발하는 수준이 멈춰있다.

사실 이는 음성인식 기술을 개선, 보다 실용적인 소프트웨어를 만들고자 하는 개발자라면 누구나 골머리를 앓는 난제 중 하나다. 

"인간에게 어려운 일은 쉽게 해내지만 인간이 수월하게 할 수 있는 일은 오히려 어려워하는(hard problems are easy and easy problems are hard)"이라는 지적을 한 일명 모라벡의 역설(Moravec's paradox)이 이를 설명한다.

"단골 식당 예약 부탁해"
"당 고효율 식단에 약 부탁해"의 차이

소리 입력 장치에 들어가는 소리 중 '사람 말'과 그렇지 않은 것을 구분해내야 하는 컴퓨터의 임장에서 다른 소음과 음성을 구분하기란 쉽지 않은 이야기이다.

컴퓨터에게 지시 내리는 사람이 말을 빨리, 그리고 이어서 하는 편이라면 문제는 더 복잡해진다. 

이러한 컴퓨터의 고충은 때로는 소비자로부터 "왜 이렇게 말귀를 못알아들어. 허접하다"라는 불만이 나오게 한다. 때론 똑같은 말을 계속해야하니 목도 아프고 차라리 손으로 누르는 것이 더 편하겠다는 생각도 들곤 한다.

이러한 불만이 생기는 이유는 똑같은 말이라도 말하는 사람이 누구냐에 따라 높낮이나 억양이 전혀 달라질 수 있기 때문이다. 그 모든 변수를 컴퓨터가 인식, 정확한 메시지를 이해하도록 하는 건 실로 엄청난 작업이다. 

설사 정확한 음성인식이 가능하다 하더라도 해당 음성이 담고 있는 문장 구조와 의미를 이해해 정확한 의미와 연결시켜야 비로소 정확한 '인식'이 가능하다. 

특히 한국어처럼 단어마다 미세하게 받침이 달라지는 언어를 사용할 경우 컴퓨터는 소위 '말귀'를 못알아 듣게 된다.

이에 전문가들은 언어적으로 완성형에 가까운 인간이 컴퓨터의 수준에 만족하지 못하는 것은 당연한 일이라고 입을 모은다.

컴퓨터과학 중에서도 가장 복잡한 분야로 꼽히는 음성인식 기술은 대개의 첨단 학문이 그렇듯 여러 부문 간 협력 작업이 필수이며 최소한 언어학∙수학∙뇌신경과학∙컴퓨터과학이 공동으로 작업해야 성과를 낼 수 있다.

스마트폰 보급이 일반화되면서 음성인식 기술 개발 속도는 한층 빨라졌다. 전문가들은 사물인터넷이 안정화된다면 목소리로 환경을 제어하는 시대가 올 것으로 내다보고 있다.

일을 편하게 하고자는, 누군가와 대화를 하고자하는 인간의 욕망은 AI 기술 발달에 원동력이 되고 있다. 1인가구가 증가하는 현 시대에 영화처럼 AI가 말벗이 될 수도 있다는 기대를 하기도 한다.

말만하면 로봇이 TV를 켜고, 세탁기를 작동시키는 날이 머지않았다.

한편, 이달 초 미국 라스베이거스에서 세계 최대 가전 전시회 'CES 2017'의 주인공은 단연 음성인식 기술이었다. 애초에 음성 비서를 개발하면서 관련 API를 완전히 개방한 아마존의 '알렉사'는 화제의 중심이 됐다.

LG전자는 냉장고에 알렉사 기능을 넣어 냉장고에 말을 걸면 음악을 들려주고, 우유를 주문할 수 있다. 하지만 한국어 자연어 처리 기술 제약 때문에 국내 시장에서는 사용에 어려움이 있을 것으로 보인다.

삼성전자도 CES 행사장에서 냉장고 '패밀리허브 2.0, 로봇청소기 '파워봇' 등 음성인식 기능 탑재 제품을 선보였다. 또 지난해 미국 인공지능 플랫폼 개발 기업 비브랩스(VIV Labs)를 인수해 음성인식 기술 영역을 확장할 계획이다.

아울러 닛산·BMW-마이크로소프트 코타나, 포드·BMW·현대·폭스바겐-아마존 알렉사, 포드-IBM, 벤츠-구글 어시스턴트 등 자동차에도 다양한 대화형 인공지능 비서들이 제시되고 있다. 

글로벌 온라인 시장조사 기업 '마켓츠앤드마켓츠(MARKETSANDMARKETS)'에 의하면 오는 2022년 음성인식 기술 시장 규모는 119억6000만 달러(약 14조1427억원)에 이를 전망이며, 미국 리서치 회사 IDC는 2017년 벌써 134조1000억원 규모의 시장이 열렸다는 예상을 내놨다.

(데일리팝=정단비 기자)