베하~
문땅훈과 루피입니다.
오늘은 GCP의 기능 중 하나인 Vexter AI 의 Speech에 대해서 알아보겠습니다.
개요
- Vertex AI Speech 란?
- Speech 실습해보기
1. Vertex AI Speech 란?
Google Cloud의 Vertex AI 서비스의 일부로, 음성 데이터를 처리하고 분석하는 기능을 제공하는 서비스입니다. 이 서비스를 사용하면 음성 데이터를 효율적으로 관리하고, 텍스트로 변환하거나 감정 분석, 음성 인식 등 다양한 작업을 수행할 수 있습니다. Vertex AI Speech는 강력한 음성 처리 기술과 머신 러닝 알고리즘을 활용하여 정확하고 신뢰할 수 있는 결과를 제공합니다.
2. Speech 실습해보기
- Speech는 Speech-to-text 와 text-to-speech 기능을 제공하고 있습니다.
- 음성 → 텍스트
- 텍스트 → 음성
- Speech-to-text 에서 음성 인식 수행할 수 있는 예시는 다음과 같습니다.
- 짧은 오디오 파일을 텍스트로 변환
- 스트리밍 입력의 오디오 스트립트 작성
- 긴 오디오 파일 스크립트 작성
- Cloud Text-to-Speech API 활성화
2. Vertex AI Speech 탭 접속
3.Text로 변환할 음성 파일 넣기.
- 지원하는 음성 파일의 형식은 wav, flac,mp3,ogg 입니다.
- 로컬이나 스토리지에서 오디오 파일을 불러옵니다.
- 텍스트 변환 json 파일을 저장하기 위한 Bucket이 필수로 있어야 됩니다.
4. 오디오 파일을 선택합니다.
5. API Version을 선택해줍니다.
- V1에서 지원하는 모델은 다음과 같습니다.
- Long : 미디어나 음성 대화 같은 종류에 사용되는 모델, 특히 동영상 추천합니다.
- Short : 몇 초 길이의 짧은 대화에 사용되는 모델
- Video : 여러명의 화자가 있는 경우, 고품질 마이크를 사용해 녹음 되거나 배경 소음이 많은 비디오에 적합
- Phone call : 전화 통화 오디오에 적합
- Medical Dictation : 의료 전문가가 지정한 메모를 텍스트로 변환할 때 적합
- Medical Conversation : 의료 전문가와 환자 간의 대화에 적합
- V2에서 지원하는 모델은 다음과 같습니다.
- Chirp : 통합 대형 음성 모델 스트리밍이 필요하지 않은 모든 사용 사례에 이 모델을 사용
- Telephony : 전화 통화 오디오에 가장 적합
- Long : 미디어나 음성 대화 같은 종류에 사용되는 모델, 특히 동영상 추천합니다.
- Short : 몇 초 길이의 짧은 대화에 사용되는 모델
- Medical Dictation : 의료 전문가가 지정한 메모를 텍스트로 변환할 때 적합
- Medical Conversation : 의료 전문가와 환자 간의 대화에 적합
- 변환되는 언어마다 지원되는 모델이 다릅니다.
6. API Version 과 모델을 선택한 후 생성합니다.
7. 생성 결과를 보면, 사용된 오디오 파일과 모델에 대한 간략한 설명이 있습니다. 변환된 텍스트도 볼 수 있습니다.
8. 생성된 텍스트 변환을 Code로 다운 받을 수 있습니다.
- Shell, Python 등 코드로 변환이 됩니다.
GCP의 기능 중 하나인 Vertex AI 에서 제공하는 Speech 기능을 알아보았습니다. 😊
실습과 함께 해보니 이해가 쏙 쏙 되셨을 것 같습니다.
다음에는 더 유익한 글로 찾아오겠습니다.
베빠!!
'CSP (Cloud Service Provider) > GCP' 카테고리의 다른 글
Bigquery View 관리 (0) | 2023.10.27 |
---|---|
Quotas (0) | 2023.10.27 |
Cloud Armor (0) | 2023.10.26 |
Vertex AI Workbench 사용자 관리형 노트북 만들어보기 (0) | 2023.10.19 |
신규 Database 및 User 생성과 권한 부여 실습 (1) | 2023.10.18 |
댓글