본문 바로가기
IT KNOWLEDGE

TTS 란?

by BTC_PIKA 2022. 11. 29.

1. TTS란?- 문자를 사람의 음성으로 변환해주는 기술 'Text to Speech'- 음성 합성(音聲合成, speech synthesis) 이라고도 표현- 오디오 표현을 위해 텍스트 단위를 음성 단위로 변경하는 자연스러운 언어 모델링 프로세스- 디지털 텍스트에서 오디오 출력을 렌더링하여 시각장애인처럼 읽을 수 없거나 다른 종류의 용도로 사용하는 사람들을 돕기 위한 기술에서 시작

 

1-1. TTS의 개요

- 말소리의 음파를 기계가 자동으로 만들어 내는 기술로, 간단히 말하면 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기(Speech Computer, Speech Synthesizer)에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술

- 분절음 합성이 어렵기에 분절음의 경계를 중심으로 앞 음성의 뒷부분과 뒤 음성의 앞부분을 함께 기록하여 합성하기도 함

- 음성 인식과 함께 번역 기계, 로봇 제조 기술 등 여러 곳에서 다양하게 쓰임

 

2. TTS의 동작 방식

- 사람 목소리를 녹음한다.

- 일정한 음성 단위로 쪼갠다.

- 텍스트가 입력되면 데이터베이스에서 문장과 일치한 목소리 조각을 조합한다.

 

3. TTS의 구성

3-1. 프론트 엔드

- 사용자가 입력한 텍스트에서 기호화 된 언어 표현 출력

- 텍스트 안의 숫자나 생략 표현을 읽을 때 표현으로 변환, 텍스트의 정규화, 프리프로셋싱, 토큰화 등이라고 함

- 각 단어를 발음 기호로 변환하여 텍스트 숙어, 단어나 문장, 문장 등의 운율 단위를 분할

- 발음 기호와 운율 정보를 조합하여 기호화된 언어 표현

 

3-2. 백 엔드

- 합성된 음성의 파형 출력, 출력되는 음성이 얼마나 사람의 목소리를 닮아 있는가, 얼마나 잘 알아들을 수 있는가로 평가

- 프런트 엔드가 내보낸 결과를 바탕으로 보다 자연스러운 음성으로 만들기 위해 운율 등의 음성을 조정하여 실제 음성 데이터를 출력한다. 이 과정에서 음성의 특성이 정해지기 때문에 음성 합성 소프트웨어만의 색채가 나오는 경우가 많음

 

'IT KNOWLEDGE' 카테고리의 다른 글

SLA(Service Level Agreement)란  (0) 2022.12.13
SSL/TLS 보안에 대해 알아보자!  (0) 2022.12.07
CSPM (Cloud Security Posture Management )이란  (0) 2022.11.24
InfluxDB에 대하여  (0) 2022.11.23
STT란?  (0) 2022.11.21

댓글