본문 바로가기
IT KNOWLEDGE

STT란?

by BTC_PIKA 2022. 11. 21.

1. STT(Speech-to-Text)

- STT(Speech-to-Text), Voice Recognition 또는 인공 청각, 음성 인식이라고 표현

- 사람이 말하는 음성 언어를 컴퓨터가 해석하여 그 내용을 문자 데이터로 전환하는 처리

- 음성 인터페이스를 통해 텍스트(문자) 데이터 추출

 

2. STT 수행 과정

- 입력 음성 전처리

- 많은 음성 데이터에 의해 트레이닝된 모델과 비교하여 텍스트 결과 출력 : 학습 단계 결과인 음향 모델(Acoustic Model), 언어 모델(Language Model)과 발음 사전(Pronunciation Lexicon)을 이용하여 입력된 특징 벡터를 모델과 비교, 스코어링(Scoring)하여 단어 열을 최종 결정 짓습니다. 얼마나 다양항 음성 데이터로 트레이닝을 했는지, 얼마나 특화된 알고리즘을 통해 모델을 생성했는지에 따라 출력되는 결과물이 다름

 

* 음향 모델링 : 해당 언어의 음운 환경별 발음의 음향적 특성을 확률 모델로 대표 패턴 생성

* 언어 모델링 : 어휘 선택, 문장 단위 구문 구조 등 해당 언어의 사용성 문제에 대해 문법 체계를 통계적 학습

* 발음 사전 구축 : 텍스트를 소리 나는 대로 변환하는 음소 변환 구현 과정 필요 및 방언, 발화 습관, 어투에 따른 다양한 패턴 반영을 위해 별도의 사전 구축 필요

 

3. 정확도 평가 방법

- 텍스트 유사도 평가 : 오디오 음성파일과 정확하게 매칭되는 원본 텍스트 파일을 준비하여 STT엔진을 통해 나온 텍스트 결과 파일과 비교하여 유사도 평가

 

'IT KNOWLEDGE' 카테고리의 다른 글

CSPM (Cloud Security Posture Management )이란  (0) 2022.11.24
InfluxDB에 대하여  (0) 2022.11.23
Machine Learning  (0) 2022.11.14
Elasticsearch에 대하여  (0) 2022.11.14
Ethereum에 대하여  (0) 2022.10.28

댓글