본문 바로가기
카테고리 없음

TTS, STT 및 SSML

by BTC_SUU 2023. 12. 22.

베하! 안녕하세요~
BTC_수신자표시제한 입니다 😊


인공지능의 발전에 대해

저희들이 가장 가까이에서 접할 수 있는 것 중 하나는

콜봇이라고 생각되는데요.

 

콜봇을 구성하기 위해 필요한 인공지능

TTSSTT에 대해 알아보고

TTS에서 사용되는 SSML에 대해 살펴보겠습니다.

 

 

1.TTS(Text To Speech)란?

TTS는 텍스트 형태의 데이터를 기반으로 음성 데이터로 변환하는 기술을 의미합니다.

TTS를 활용으로 텍스트에서 음성 출력이 가능해지면서 고객에게 정보를 전달하는 방법에 다양화가 가능해졌습니다.

 

또한 시력에 문제가 있는 사람에게 텍스트를 통한 전달은 효과적이지 못할 수 있는데

이러한 상황에서 TTS를 통한 음성의 정보전달은 좋은 선택지가 될 수 있습니다.

 

2. STT(Speech To Text)란?

STT는 음성 데이터를 텍스트 데이터로 변환하는 기술입니다.

STT를 이용하여 사람이 직접 손으로 하나하나 입력해야 했던 데이터를 음성을 통해 입력할 수 있게 되었습니다.

 

생활 속에서 확인할 수 있듯이 휴대폰이나 노트북이 사용자의 음성을 받아드려 텍스트로 활용하는 기능들에 STT가 활용되고 있습니다.

 

TTS와 STT를 동시에 활용한다면 음성으로 듣고 음성으로 출력하는 시스템을 구성할 수 있습니다. 이것을 콜봇이라고 설명할 수 있을 것 같습니다.

 

3. SSML(Speech Synthesis Markup Language)이란?

SSML은 TTS가 텍스트에서 음성으로 변환할 때 음성에 적용되었으면 하는 특성을 설정할 수 있도록 제작된 Markup Language입니다.

설정할 수 있는 특성으로는 피치, 발음, 말하기 속도, 음량 등이 있습니다.

설정을 위해서는 SSML 문서를 작성이 필요한데 HTML과 같이 정의되어 있는 요소 또는 태그 사용하여 작성할 수 있습니다.

TTS 서비스를 제공하는 기업들은 기본적으로 정의되어있는 태그 이외의 커스텀 태그를 제공하기도 하기 때문에 사용 시 알아보시면 좋을 것 같습니다.

 

대표적인 요소를 살펴보자면,

  1. speak :
    루트 요소입니다. 
  2. meta , metadata :
    문서에 대한 정보를 저장하는 요소입니다.

  3. say-as :
    요소 내에 포함된 텍스트 구문 유형에 대한 정보를 나타내고 텍스트를 렌더링 하기 위한 세부 정보 수준을 지정하는 요소입니다.
    또한 say-as는 interpect-as, format, datail의 세 가지 속성이 있습니다.
    interpect-as는 currency, telephone, verbatim, spell-out, date, characters, cardinal, ordinal, fraction 등의 값을 입력받습니다.
    vervatim 또는 spell-out의 경우 한 글자씩 철자를 말하도록 합니다.
    cardinal의 경우 수자를 기수 형식으로 말하도록 합니다. 
  4. voice :
    하나의 SSML 문서에서 두 가지 이상의 음성을 통해 말하도록 합니다

  5. break :
    설정한 시간만큼 음성이 멈추도록 합니다.

  6. audio :
    합성된 음성 출력과 함께 녹음된 오디오 파일의 삽입과 기타 오디오 형식의 삽입합니다.

오늘은 STT, TTS 그리고 SSML에 대해 알아보았습니다.

도움이 되셨으면 좋겠습니다.😊

다음에 또 만나요 👋

댓글