1. TTS란?- 문자를 사람의 음성으로 변환해주는 기술 'Text to Speech'- 음성 합성(音聲合成, speech synthesis) 이라고도 표현- 오디오 표현을 위해 텍스트 단위를 음성 단위로 변경하는 자연스러운 언어 모델링 프로세스- 디지털 텍스트에서 오디오 출력을 렌더링하여 시각장애인처럼 읽을 수 없거나 다른 종류의 용도로 사용하는 사람들을 돕기 위한 기술에서 시작
1-1. TTS의 개요
- 말소리의 음파를 기계가 자동으로 만들어 내는 기술로, 간단히 말하면 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기(Speech Computer, Speech Synthesizer)에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술
- 분절음 합성이 어렵기에 분절음의 경계를 중심으로 앞 음성의 뒷부분과 뒤 음성의 앞부분을 함께 기록하여 합성하기도 함
- 음성 인식과 함께 번역 기계, 로봇 제조 기술 등 여러 곳에서 다양하게 쓰임
2. TTS의 동작 방식
- 사람 목소리를 녹음한다.
- 일정한 음성 단위로 쪼갠다.
- 텍스트가 입력되면 데이터베이스에서 문장과 일치한 목소리 조각을 조합한다.
3. TTS의 구성
3-1. 프론트 엔드
- 사용자가 입력한 텍스트에서 기호화 된 언어 표현 출력
- 텍스트 안의 숫자나 생략 표현을 읽을 때 표현으로 변환, 텍스트의 정규화, 프리프로셋싱, 토큰화 등이라고 함
- 각 단어를 발음 기호로 변환하여 텍스트 숙어, 단어나 문장, 문장 등의 운율 단위를 분할
- 발음 기호와 운율 정보를 조합하여 기호화된 언어 표현
3-2. 백 엔드
- 합성된 음성의 파형 출력, 출력되는 음성이 얼마나 사람의 목소리를 닮아 있는가, 얼마나 잘 알아들을 수 있는가로 평가
- 프런트 엔드가 내보낸 결과를 바탕으로 보다 자연스러운 음성으로 만들기 위해 운율 등의 음성을 조정하여 실제 음성 데이터를 출력한다. 이 과정에서 음성의 특성이 정해지기 때문에 음성 합성 소프트웨어만의 색채가 나오는 경우가 많음
'IT KNOWLEDGE' 카테고리의 다른 글
SLA(Service Level Agreement)란 (0) | 2022.12.13 |
---|---|
SSL/TLS 보안에 대해 알아보자! (0) | 2022.12.07 |
CSPM (Cloud Security Posture Management )이란 (0) | 2022.11.24 |
InfluxDB에 대하여 (0) | 2022.11.23 |
STT란? (0) | 2022.11.21 |
댓글