본문 바로가기
CSP (Cloud Service Provider)/GCP

Cloud Dataproc

by BTC_유온 2022. 7. 15.

첫번째. Hadoop Ecosystem
(1) Apache Hadoop
분산 환경의 병렬 처리 프레임워크로, 크게 보면 분산 파일 시스템인 HDFS(Hadoop Distributed File System)와 데이터 처리를 위한 MapReduce 프레임워크로 구성

여러 대의 서버를 이용해 하나의 클러스터를 구성하며, 이렇게 클러스터로 묶인 서버의 자원을 하나의 서버처럼 사용할 수 있는 클러스터 컴퓨팅 환경을 제공
분석할 데이터를 하둡 파일 시스템인 HDFS에 저장해 두고 HDFS 상에서 MapReduce 프로그램을 이용해 데이터 처리를 수행


(2) Apache Spark
하둡과 유사한 클러스터 기반의 분산 기능을 제공하는 오픈소스 프레임워크
처리 결과를 항상 파일 시스템에 유지하는 하둡과 달리, 메모리에 저장하고 관리할 수 있는 인 메모리 캐싱 기능을 제공함으로써 속도가 빠르고 머신 러닝 같은 반복적인 데이텅처리에 뛰어난 성능을 보임

MapReduece 뿐만 아니라, 스트리밍(Spark Streaming), 머신러닝(MLib), 그래프 처리(GraphX), SQL처리(Spark SQL) 등 범용적인 분산 클러스터 환경을 제공

데이터를 읽고, 변형하고, 집계할 수 있으며, 복잡한 통계 모델들을 쉽게 학습하고 배포할 수 있음

제공하는 언어로는 Java, Scala, R, Python 등이 있음


(3) Hadoop Ecosystem
하둡과 관련된 프레임워크들
하둡 코어 프로젝트(HDFS, MapReduce)와 수집, 분석 등의 하둡 서비스 프로젝트로 구성
다양한 종류의 프레임워크를 제공하기 때문에 사용자의 필요성에 따라 다양하게 조합해서 이용할 수 있음


두번째. Cloud Dataproc
(1) Cloud Dataproc
일괄 처리, 쿼리, 스트리밍, 머신 러닝에 Apache Spark, Apache Flink, Presto 등의 오픈소스 데이터 도구를 활용할 수 있는 완전 관리형 Spark 및 Hadoop 서비스

클라우드 네이티브 아파치 하둡 및 아파치 스파크 서비스
완전 관리형 클라우드 서비스
간단하고 효율적으로 하둡 및 스파크 클러스터를 생성할 수 있음
클러스터 배포, 로깅, 모니터링과 같은 관리는 GCP에서 자동으로 지원하기 때문에 사용자는 작업과 데이터에 집중할 수 있음
언제든 여러 리소스를 최적화하고 확장 가능
다수의 마스터 노드를 사용해 클러스터를 실행하고 실패해도 다시 시작되도록 설정할 수 있기 때문에 높은 가용성 보장
사용하기 쉬운 Web UI, Cloud SDK, RESTful API 등 다양한 방식으로 클러스터 관리
BigQuery, Cloud Storage, Cloud Bigtable, Stackdriver와 같은 다른 구글 서비스들과 기본적으로 통합
온프레미스 Apache Hadoop 및 Apache Spark 환경에서 GCP로 이전하는 방법을 지원


(2) Dataproc 구성요소
클러스터를 생성하면 표준 Apache Hadoop Eco System 구성요소가 자동으로 클러스터에 설치

클러스터 생성 시 클러스터에 '선택적 구성요소'라는 추가 구성요소를 설치할 수 있음

선택적 구성요소의 이점
ⓐ 클러스터 시작 시간 단축
ⓑ 특정 Dataproc 버전과의 호환성 입증
ⓒ 초기화 작업 스크립트 대신 클러스터 매개변수 사용
ⓓ 다른 Dataproc 구성요소와 통합 가능



세번째. 가격 책정
Dataproc 클러스터의 크기와 실행 기간에 따라 결정
클러스터 크기는 마스터 및 워커 노드를 포함한 전체 클러스터의 총 가상 CPU(vCPU) 수를 기준으로 결정
클러스터의 기간은 클러스터가 생성되어 삭제되기까지의 시간

가격 책정 공식은 $0.010 * # of vCPUs * hourly duration
가격 책정 공식에서는 시간 단위 요금을 사용하지만 모든 Dataproc 클러스터는 1초 단위로 요금이 부과되며 최소 요금은 1분부터 시작



네번째. 사용사례
(1) Hadoop과 Spark 클러스터를 클라우드로 이동
많은 기업에서 비용을 관리하고 확장성의 이점을 활용하기 위해 기존 온프레미스 Apache Hadoop과 Spark 클러스터에서 Dataproc으로 마이그레이션하고 있음
Dataproc을 통해 기업에서는 어떤 데이터나 분석 처리 작업도 지원하도록 자동 확장할 수 있는 완전 관리형의 맞춤형 클러스터를 만들 수 있음

(2) Dataproc의 데이터 과학
목적에 맞게 구축된 Dataproc 클러스터를 가동해 이상적인 데이터 과학 환경을 조성
Google Cloud AI 서비스와 GPU로 Apache Spark, NVIDIA RAPIDS, Jupyter 메모장 등 오픈소스 소프트웨어를 통합해 머신러닝과 AI 개발


[참고] Dataproc
https://cloud.google.com/dataproc#section-10

댓글