음성 인식 텔레프롬프터: VoiceScroll의 동작 원리

voice teleprompterspeech recognitionVoiceScroll

일반 텔레프롬프터는 설정한 속도로 스크롤됩니다. 재생을 누르면 텍스트가 움직이고, 그 속도에 맞추려고 노력해야 합니다. 한번이라도 써봤다면 그 느낌을 알 겁니다. 텍스트를 쫓아가거나, 텍스트가 따라올 때까지 어색하게 기다리거나.

음성 인식 텔레프롬프터는 다르게 동작합니다. 말하는 내용을 듣고 텍스트를 맞춰서 움직입니다. VoiceScroll에서 이게 실제로 어떻게 작동하는지 설명합니다.

고정 속도의 문제

사람은 일정한 속도로 말하지 않습니다. 익숙한 내용은 빠르게, 중요한 부분은 천천히, 생각 사이에는 잠깐 멈춥니다. 한 문장 안에서도 말하는 속도가 30% 이상 달라질 수 있습니다.

고정 속도 텔레프롬프터는 이걸 전부 무시합니다. 결과적으로 자연스럽게 말하는 대신 기계에 맞춰 연기하게 됩니다. 전달이 평평해지고, 쉬어야 할 곳을 지나치고, 재촬영이 잦아집니다.

VoiceScroll에 대본을 넣으면 앱이 다음과 같은 과정을 수행합니다.

전체 과정이 기기 내에서 실행됩니다. 오디오는 기기 밖으로 나가지 않습니다.

모든 것이 Apple의 음성 프레임워크를 사용해 기기에서 로컬로 처리됩니다. 서버로 전송되는 오디오가 없습니다. 초기 설정 후에는 인터넷 연결도 필요 없습니다. API 호출 제한도 없습니다.

네트워크 지연도 없다는 뜻입니다. 매칭이 즉시 느껴지는 이유입니다.

VoiceScroll은 9개 언어를 지원합니다: 영어, 한국어, 일본어, 중국어(간체, 번체), 독일어, 프랑스어, 포르투갈어, 스페인어. 각 언어마다 Apple의 네이티브 음성인식 모델을 사용하며, 영어 모델에 번역을 붙인 게 아닙니다.

일본어나 중국어처럼 단어 경계, 발음 패턴, 문자 처리 방식이 영어와 완전히 다른 언어에서 이 차이가 특히 큽니다.

말하는 속도에 맞춰 자동 스크롤되는 음성 기반 텔레프롬프터.