본문 바로가기
CSP (Cloud Service Provider)/GCP

Google Composer

by BTC_안민규 2022. 6. 10.

google composer는 Apache Airflow를 기반으로 하는 완전 관리형 워크플로 조정 서비스입니다.

 

  • 하이브리드 및 멀티 클라우드 환경을 아우르는 파이프라인을 작성, 일정 예약, 모니터링
  • Apache Airflow 오픈소스 프로젝트에 빌드되며 Python으로 작동
  • 종속되지 않고 사용이 간편

위와 같은 장점들이 있고 

 

완전 관리형 워크플로 조정 - composer만의 관리 기능과 Airflow 호환성 덕분에 리소스를 프로비저닝하기보다 워크플로우 작성, 예약, 모니터링에 집중이 가능

 

Google Cloud 제품과 통합 - BigQuery, Dataflow, Dataproc, Datastore, Cloud Storage, Pub/Sub, Ai Platform 등의 Google Cloud 제품과 엔드 투 엔드 통합을 통해 사용자는 자유롭게 파이프라인을 완전히 조정할 수 있습니다.

 

하이브리드 및 멀티 클라우드 지원 - 파이프라인이 온프레미스, 여러 클라우드, Google Cloud 내부 등 어디에 위치하든 관계없이 단일 조정 도구를 통해 워크플로를 작성, 예약, 모니터링 합니다.

 

Apache Airflow를 기반으로 빌드되어 사용자에게 특정 서비스에 종속되지 않는 자유와 이동서을 선사합니다. Google에서도 참여하고 있는 이 오픈소스 프로젝트는 광범위한 플랫폼과 통합되는 것은 물론 고객에게 특정 서비스에 조옷ㄱ되지 않을 자유를 줍니다.

 

데이터 분석에서 워크플로는 데이터 수집, 변환, 분석, 활용을 위한 일련의 테스크를 나타냅니다. Airflow에서 워크플로는 DAG(Directed Acyclic Graph)를 사용하여 생성됩니다.

 

DAG는 관계 및 종석 항목을 반영하는 방식으로 구성된 예약하고 실행하려는 테스크의 모음입니다. DAG는 코드를 사용하여 DAG구조를 정의하는 Python 스크립트에서 생성됩니다.

 

DAG의 각 태스크는 거의 모든 것을 나타낼 수 있습니다. 예를 들어 한 테스크는 다음 기능을 수행할 수 있습니다.

  • 수집을 위한 데이터 준비
  • API 모니터링
  • 이메일보내기
  • 파이프라인 실행

DAG는 각 구성 태스크의 기능과 관련되지 않습니다. 이러한 이유는 각 태스크가 적절한 시점에, 올바른 순서로 실행되거나 올바른 문제 처리를 통해 실행되도록 하기 위함입니다.

GKE를 기반으로 생성되는 완전 관리형 서비스이기 때문에 비용적인 측면에서보면 유리하지 만은 않습니다. 하지만 k8s의 설치부터 airflow의 설치까지 cloud에서 자동으로 해주기 때문에 여러 사항들을 고려해봤을 땐 유리한 것 같습니다. 

댓글