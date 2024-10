MIT 대학원생 에이브 데이비스가 정지 화면에서의 미세한 떨림 만으로도 소리를 추출해내는 비주얼 마이크로폰 기술을 설명하고 있다. [사진 TED]

사람들이 대화하는 곳 주변에 있는 사물을 촬영하는 것만으로도 무슨 말이 오가는지를 알아낼 수 있다면 얼마나 신기할까. 실제로 물체의 미세한 떨림을 비디오로 촬영해 알고리즘으로 분석한 다음 청각화하는 기술이 16일(현지시간) TED 2015에서 소개됐다. 이 기술을 만든 주인공은 미국 매사추세츠공대(MIT) 박사 과정 대학생인 에이브 데이비스를 비롯한 MIT 소속 연구원들이다.

이날 TED 콘퍼런스에 등장한 데이비스는 12분 간 음성 파악 기술 ‘비주얼 마이크로폰’을 소개했다. 데이비스는 프레젠테이션(PT) 화면에 손목을 클로즈업한 사진 한 장, 아기가 자고 있는 사진 한 장을 올렸다. 사실 그가 PT로 소개한 건 사진이 아니라 정지 화면이었다. 데이비스는 정지 화면을 약 30초 간 그대로 틀어줬다. 청중들이 의아한 표정을 짓자 그는 비로소 말문을 열었다.

“우리 연구팀은 비디오에 잡히는 미세한 동작까지도 확대해서 관찰할 수 있는 소프트웨어를 개발했어요. 이 소프트웨어만 있으면 어떠한 동작도 눈으로 볼 수 있답니다.”

데이비스는 방금 전 보여준 장면을 미세 동작만 확대해서 청중들에게 다시 틀어줬다. 이번에는 비디오 이미지에는 수천분의 1 화소(픽셀) 정도로만 표시되는 장면이 육안으로 식별됐다. 그는 다시 말을 이었다.

“만약 고속 카메라로 이러한 진동을 모두 녹화할 수 있다면 우리가 개발한 소프트웨어를 통해 아주 소소한 움직임까지 분석할 수 있습니다. 그렇다면 이걸 알고리즘으로 재구성해 소리로 만들수 있지 않을까요?”

그는 이날 콘퍼런스에서 실험 과정도 공개했다. 과자 봉지를 방음 유리벽 사이에 두고 약 4.5m 거리에서 비디오 카메라로 촬영한 다음, 이를 알고리즘으로 만들어 음성을 재구축한 것이다.

이 실험에서 데이비스는 “메리에게는 어린 양 한마리가 있네, 어린 양 한마리가 있네”라고 말한 장면을 녹화했다. 그 다음 소프트웨어를 통해 알고리즘으로 만들고 오디오로 재구성했다. 그 결과 명료하진 않지만 충분히 알아들을 만큼 소리가 들렸다. “메리에겐.. 어린 양 한마리.. 어린 양 한마리가 있네.”

그 다음 실험에서 데이비스는 아예 노래를 불렀다. 우리나라에서 ‘떴다 떴다 비행기~’로 불리는 미국 동요 ‘메리에게 어린 양 한 마리가 있네(Mary had a little lamb)’를 다 먹은 감자칩 봉지만 앞에 놓은 채 불렀다. 화면에서 추출한 오디오를 틀어놓으니 박자와 음정이 모두 맞게 ‘Mary had a little lamb, little lamb, little lamb’ 가사가 그대로 들렸다. 그는 앞으로 음성 추출 기술을 법의학 분야나 사물의 움직임을 미리 예측하는 방법에까지 확대 적용할 계획이다.

벤쿠버(캐나다)=김영민 기자