본문 바로가기
CSP (Cloud Service Provider)/GCP

[Google Cloud Platform] 빅데이터와 머신러닝(2)

by BTC_박은혜 2022. 7. 22.

 

안녕하세요~ 할부로애틋하게 BTC_손지수, 박은혜 입니다!

저번 포스팅을 통해 빅데이터와 머신러닝에 대해 알아보았습니다~

이번 포스팅에선 저번 포스팅 마지막에 살펴보았던 Cloud Dataproc, 관리용 Hadoop에 대해

더 자세하게 알려드리고자 합니다!

그럼 이번 한 주도 GCP에 더 가까워져 봅시다~!

 


Cloud Dataproc

먼저, Dataproc은 Apache Spark, Apache Flink, Presto, 30개 이상의 오픈소스 도구 및 프레임워크를

실행하기 위한 확장성이 뛰어난 완전 관리형 서비스입니다.

Dataproc을 전 세계에서 Google Cloud와 완벽하게 통합하여 비용 부담 없이

데이터 레이크 현대화, ETL, 안전한 데이터 과학에 사용할 수 있습니다!

 

또한 Dataproc은 일괄 처리, 쿼리, 스트리밍, 머신 러닝에

오픈소스 데이터 도구를 활용할 수 있는 관리형 Spark 및 Hadoop 서비스입니다.

Dataproc 자동화를 통해 신속하게 클러스터를 만들고 손쉽게 관리하며

불필요한 클러스터를 사용 중지하여 비용을 절감할 수 있습니다.

관리 시간과 비용이 절감되므로 작업과 데이터에 집중할 수 있습니다!

 

그렇다면 여기서 언급된 Hadoop 서비스는 무엇인지 조금 더 자세하게 알아보고자 합니다.

 

Apache Hadoop 소프트웨어는 간단한 프로그래밍 모델을 사용하여

컴퓨터의 클러스터에서 대규모 데이터 세트를 분산 저장 및 처리할 수 있는 오픈소스 프레임워크입니다.

Hadoop은 단일 컴퓨터에서 시작해 수천 대의 클러스터된 컴퓨터로까지 수직 확장할 수 있도록 설계되었으며

각 머신은 로컬 계산 기능과 스토리지를 제공합니다.

Hadoop은 이러한 방식으로 기가바이트급에서 페타바이트급에 이르는 대규모 데이터 세트를

효율적으로 저장하고 처리할 수 있습니다.

 

이러한 Hadoop을 사용하게 된다면

 

내결함성

Hadoop 생태계에서는 데이터가 클러스터 전체에 복제되므로 디스크, 노드 또는 랙 장애가 발생할 경우

데이터를 쉽게 복구할 수 있으며, 이는 대규모 클러스터에서 작업을 실행할 때

개별 노드에서 높은 비율로 장애가 발생하는 경우에도 마찬가지입니다.

 

비용관리

Hadoop은 다른 플랫폼보다 더 저렴한 테라바이트당 비용으로 데이터를 저장하여 비용을 관리합니다.

하드웨어에 테라바이트당 수천 달러에서 수만 달러의 비용을 지출하는 대신

Hadoop은 테라바이트당 수백 달러에 불과한 경제적인 비용으로 표준 상용 하드웨어에 컴퓨팅 및 스토리지를 제공합니다.

 

오픈소스 프레임워크 혁신

Hadoop은 독점적 솔루션을 사용하여 작업하는 내부 팀보다 빠르고 효과적으로 새로운 개념과 기능을 도입하기 위해

통합된 글로벌 커뮤니티의 지원을 받습니다.

오픈소스 커뮤니티의 집단적 힘은 더 많은 아이디어와 더 빠른 개발은 물론이고,

문제 발생시 문제 해결도 지원하므로 TTM(time to market)이 단축됩니다.

 

등의 이점이 있습니다!

 

또, Hadoop 서비스는 급증하는 빅데이터를 보다 빠르고 안정적으로 처리하기 위해 등장했으며,

대부분 분석 및 빅데이터, 수직적 산업, AI 및 머신러닝 등의 분야에서 사용하고 있습니다.

 

 

그럼 다시 이어 Dataproc에 대해 살펴보겠습니다.

 

 

그렇다면, Dataproc을 사용해야 하는 이유는 무엇일까요?

먼저 기존의 온프레미스 제품 및 경쟁 클라우드 서비스와 비교할 때 Dataproc에는

3개에서 수백 개의 노드 클러스터에 대한 여러 가지 고유한 이점이 있습니다.

 

 

그 중 몇 가지에 대해 알아보고자 합니다.

 

저렴한 비용

가격 책정

Dataproc은 사용 중인 다른 Cloud Platform 리소스 외에

시간당 클러스터의 가상 CPU당 1센트의 비용으로 가격이 책정됩니다.

이 저렴한 가격 외에도 Dataproc 클러스터에는 컴퓨팅 가격이 더 낮은 선점형 인스턴스를 포함하여

비용을 더 줄일 수 있습니다. 사용량을 가장 가까운 시간으로 반올림하는 대신

Dataproc에서는 초당 사용량 결제와 최저 1분 결제 기간을 사용하여 실제 사용량에 대해서만 비용을 청구합니다.

 

매우 빠름

Dataproc을 사용하지 않으면 사내에 또는 IaaS 제공업체를 통해 Spark 및 Hadoop 클러스터를 만드는 데

5분에서 30분까지 소요될 수 있습니다.

반대로 Dataproc 클러스터는 빠르게 시작하고 확장하며 종료할 수 있습니다.

각각의 작업을 수행하는 데는 평균 90초도 채 걸리지 않습니다.

따라서 클러스터를 기다리는 시간을 줄이고 대신 데이터 작업에 더 많은 시간을 할애할 수 있습니다.

 

통합

Dataproc은 BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging, Cloud Monitoring과 같은

다른 Google Cloud Platform 서비스와 기본적으로 통합되어 있으므로

Spark 또는 Hadoop 클러스터 이상의 완벽한 데이터 플랫폼을 사용할 수 있습니다.

예를 들어 Dataproc을 사용하면 비즈니스 보고서용 BigQuery에

직접 테라바이트 단위의 원시 로그 데이터를 손쉽게 ETL할 수 있습니다.

 

관리형임

관리자의 지원을 받거나 특별한 소프트웨어를 사용하지 않고도 Spark 및 Hadoop 클러스터를 사용할 수 있습니다.

Google Cloud Console, Cloud SDK, Dataproc REST API를 통해 클러스터 및 Spark

또는 Hadoop 작업과 쉽게 상호작용할 수 있습니다.

클러스터 사용이 끝나고 클러스터를 사용 중지하면 유휴 클러스터에 비용을 지출하지 않습니다.

Dataproc은 Cloud Storage, BigQuery, Cloud Bigtable과 통합되므로 데이터 손실에 대해 걱정할 필요가 없습니다.

 

간단하고 친숙함

Dataproc을 사용하기 위해 새로운 도구나 API를 배울 필요가 없으므로 재개발하지 않고

기존 프로젝트를 Dataproc으로 쉽게 이동할 수 있습니다.

Spark, Hadoop, Pig, Hive는 자주 업데이트되므로 보다 신속하게 생산성을 높일 수 있습니다.

 

정말 많은 이점들이 존재하죠?

이러한 이점들을 통해, Dataproc 사용자들은 오직 작업과 데이터에만 집중 할 수 있게 됩니다.

사용자들에게 매우 편리한 소프트웨어라고 생각 됩니다!

 


 

지금까지 Cloud Dataproc, 관리용 Hadoop에 대해 알아보았습니다!

그럼 이번 한 주도 고생 많으셨고,

저희는 다음 주에 더 알찬 내용으로 다시 돌아오도록 하겠습니다!

오늘도 봐주셔서 감사합니다~~

댓글