본문 바로가기

dataflow2

[GCP] Dataflow 안녕하세요~ BTC Hallo팀입니다. 이번시간에는 GCP의 특징적인 서비스 중에 하나인 Dataflow에 대해서 알아보겠습니다. Dataflow는 빠르고 경제적이며 서버리스 방식인 통합 스트리밍 및 일괄 데이터 처리를 제공합니다. 먼저 Dataflow를 사용하는 이점에 대해서 알아보겠습니다. 1. 완전 관리형 데이터 처리 서비스 2. 처리 리소스의 프로비저닝 및 관리 자동화 3. 작업자 리소스가 수평식으로 자동 확장되어 리소스 활용률 극대화 4. Apache Beam SDK를 통한 OSS 커뮤니티 기반의 혁신 5. 안정적이고 일관성 있는 단 한 번의 처리 신속한 스트리밍 데이터 분석 Dataflow를 사용하면 데이터 지연 시간을 줄이면서 스트리밍 데이터 파이프라인을 빠르고 간편하게 개발할 수 있습니다... 2022. 12. 16.
[GCP] Dataflow Cloud Dataflow 란? 서버리스 환경, 직접 클러스터를 관리할 필요 X 서비스를 위한 프로그래밍에 전념할 수 있음 간접 운영 비용이 줄어듬 다른 GCP 리소스들을 이용할 수 있음 지원하는 프로그래밍 언어 Java Python Go Dataflow vs. Dataproc DataflowDataproc Apache Beam기반 Apache Hadoop/Spark 기반 Severless DevOps 기존에 레거시 없이 새로 접근할 때 적합 Apache 빅데이터 생태계에 적합 Apache Beam은 무엇인가? Apache Beam은 구글에서 개발하여 2016년에 오픈소스로 공개한, ETL, batch, streaming 파이프라인을 처리하기 위한 unified programming model이다. 다양.. 2022. 6. 3.