본문 바로가기
CSP (Cloud Service Provider)/GCP

[GCP] Dataflow

by BTC_문돌이 2022. 12. 16.

안녕하세요~ BTC Hallo팀입니다. 이번시간에는 GCP의 특징적인 서비스 중에 하나인 Dataflow에 대해서 알아보겠습니다.

Dataflow는 빠르고 경제적이며 서버리스 방식인 통합 스트리밍 및 일괄 데이터 처리를 제공합니다.

 

 

먼저 Dataflow를 사용하는 이점에 대해서 알아보겠습니다.

1. 완전 관리형 데이터 처리 서비스
2. 처리 리소스의 프로비저닝 및 관리 자동화
3. 작업자 리소스가 수평식으로 자동 확장되어 리소스 활용률 극대화
4. Apache Beam SDK를 통한 OSS 커뮤니티 기반의 혁신
5. 안정적이고 일관성 있는 단 한 번의 처리

 

신속한 스트리밍 데이터 분석
Dataflow를 사용하면 데이터 지연 시간을 줄이면서 스트리밍 데이터 파이프라인을 빠르고 간편하게 개발할 수 있습니다.

운영 및 관리 간소화
Dataflow는 서버리스 방식으로 데이터 엔지니어링 워크로드에서 운영 오버헤드를 제거하므로 팀이 서버 클러스터를 관리하는 대신 프로그래밍에 집중할 수 있습니다.

총 소유 비용 절감
Dataflow는 리소스 자동 확장과 비용 최적화된 일괄 처리 기능의 결합으로 무제한에 가까운 용량을 제공하므로 시기에 따라 변동하거나 급증하는 워크로드도 과다한 지출 없이 관리할 수 있습니다.

 

 

 

다음으로 주요 특징에 대해서 알아보겠습니다.

 

리소스 자동 확장 및 동적 작업 재균등화
데이터 인식 리소스 자동 확장을 통해 파이프라인 지연 시간을 최소화하고 리소스 사용률을 극대화하며 데이터 레코드당 처리 비용을 줄입니다. 데이터 입력은 작업자 리소스 사용률을 균등화하기 위해 자동으로 파티션이 나누어지며 지속적으로 다시 분산되고, '핫 키'가 파이프라인 성능에 미치는 영향을 줄입니다.

일괄 처리 시 유연한 예약 및 가격 책정
심야 작업과 같이 작업 예약 시간을 유연하게 처리해야 하는 경우 유연한 리소스 예약(FlexRS)으로 일괄 처리 비용을 낮춰줍니다. 이러한 유연한 작업은 6시간 안에 실행 대상으로 검색되도록 보장되어 큐에 배치됩니다.

즉시 사용할 수 있는 실시간 AI 패턴
즉시 사용 가능한 패턴을 통해 사용 설정된 Dataflow의 실시간 AI 기능은 인간에 가까운 지능으로 방대한 이벤트에 대해 실시간 대응을 지원합니다. 고객은 예측 분석 및 이상 감지부터 실시간 맞춤설정 및 기타 고급 분석 사용 사례에 이르는 지능형 솔루션을 빌드할 수 있습니다. 

 

 

 

가격 책정

Dataflow 작업의 요금은 Dataflow 일괄 또는 스트리밍 작업자가 실제 사용한 리소스에 따라 초 단위로 청구됩니다. Cloud Storage 또는 Pub/Sub과 같은 추가 리소스의 요금은 해당 서비스의 가격 책정에 따라 각각 청구됩니다.

 

이상으로 Dataflow에 대해서 간단히 알아보았습니다. 감사합니다.

 

출처: https://cloud.google.com/dataflow

 

 

댓글