본문 바로가기
CSP (Cloud Service Provider)/GCP

[Google Cloud Platform] GCP 빅데이터와 머신러닝

by BTC_손지수 2022. 7. 15.
Google Cloud 빅데이터 플랫폼 
 - Google Cloud의 빅데이터 서비스
 - 빅데이터 및 빅데이터 플랫폼
 - dataproc (관리형 Hadoop)

 

안녕하세요. BTC GCP팀 소속 손지수, 박은혜입니다.

시간이 빠르다고 느끼는 것은 아마도 제가 그때의 어른들만큼 나이가 들었다는 의미가 아닌가 싶습니다.

 

 

오랜만에 새로운 주제로 찾아뵙게 됐습니다.^^

 

클라우드를 사용하는 이유에는 여러 가지 이유가 있습니다. 서버를 운영하거나 데이터베이스를 사용할 때도 많지만, 데이터를 분석하거나 머신러닝 모델 실행을 목적으로 클라우드를 사용하는 경우도 굉장히 많습니다.

이번 주부터는 클라우드에서는 어떻게 빅데이터와 머신러닝의 서비스가 활용되는지 소개하고자 합니다.

 

오늘도 잘 부탁드립니다.

 

 

MODULE 04

빅데이터와 머신러닝

 

 

 

 

요즘 흔히들 이런 말을 많이 합니다. 

빅데이터 세상 입니다. YOUTUBE의 경우, 3~4년 전 매일 1PB 사이즈 데이터를 전송 받고 있었습니다. 그런데 최근 YOUTUBE는 분 당 1PB 이상의 데이터를 받고 있습니다. 엄청난 데이터 용량의 차이가 느껴집니다.

 

 

 

Google Cloud 빅데이터 플랫폼

  • 확장 가능한 완전 관리형 서비스

제목에 적어 놓았듯이 위 사진의 서비스들은 확장 가능한 완전 관리형 서비스 입니다. 공통적으로 해당 서비스들의 기본 베이스는 이 전에 소개 해드렸던 cpu, memory - disk 아키텍처를 가지고 있습니다.

따라서 유연성 존재하고, 따라서 갑자기 data가 늘어나도 cpu와 memry를 늘려주고 줄어들면 그 수를 함께 줄여줄 수 있게됩니다.

 

 

 

  • 빅데이터의 기초 : 분산 시스템

빅데이터가 낯선 분들을 위해 잠시만 이야기를 하고 가도록 하겠습니다. 

 기하급수적으로 늘어나는 데이터로 인해  한 대의 컴퓨터로는 데이터 처리가 불가능해져 버렸습니다. 구글은 2000년대 초반 늘어난 데이터량을 감당하기 위해서 여러 대의 컴퓨터 사용을 제안했고, 빅데이터 처리를 위해 master-worker 아키텍처를 가지고 master 1대 와 여러대의 worker를 통해 데이터 분석을 했습니다.

 

 master node는 관리의 역할 worker node는 분석 역할을 합니다. 사이즈가 큰 데이터를 쪼개고(Sharding) 쪼갠 데이터를 각 worker node에 할당(mapping)해 줍니다. 할당 받은 작은 데이터들을 동시에 worker node들이 처리하게 됩니다. 

이를 병렬로 연결되어 있으며, 분산처리 된다고 말합니다. 

 

 

 

  • 하둡 이코시스템

 

 

이후 master - worker Architercture의 MapReduce Algorithm를 바탕으로한 다양한 'Haddop' , 'Spark' , 'Pig' 등의 On-premise 상의 빅데이터 분석 처리 프로그램이 등장했습니다. 

 

  • On-premise에서의 빅데이터 플랫폼 구축

On-Premise에서 빅데이터 플랫폼 구축 시 다음과 같은 과정으로 보통 2~3개월 소요가 됩니다.

master computer , worker computer 구축 → 여러 대 server 구축 → cluster 생성 → cable 구매, ... , 병렬연결 → 네트워크, 보안설정, ... , s/w 설치, ... → 최적화, 디버그, ..., 완료 

여러 작업을 수행하여 플랫폼 구축을 완료 했는데 다시 데이터가 증가한다면, 위의 과정을 다시 반복하게 됩니다. 

 

 

 

  • Dataproc 사용 

 다행히, Google에서 위의 작업들을 미리 해 놓았습니다.

GCP에서 'Hadoop'  'Spark' 등과 같은 프로그램을 사용하고 싶으실 때, Dataproc 서비스 이용하시면 2분 이내에 cluster 생성이 가능하며 관리까지 해줍니다.

 

 

  • 관리용 Hadoop, Cloud Dataproc

 

Dataproc의 대표 특장점 소개로 오늘의 글을 마무리 하겠습니다.

제품의 더 자세한 소개는 다음 주 포스팅에서 만나보실 수 있습니다. 

 

긴 글 읽어주셔서 감사합니다.  이번주 마무리 잘 하시길 바랍니다. 

'CSP (Cloud Service Provider) > GCP' 카테고리의 다른 글

[Google Cloud Platform] 빅데이터와 머신러닝(2)  (0) 2022.07.22
Cloud VPN(3)  (0) 2022.07.18
GCP VPC SC 안전한 데이터 교환  (0) 2022.07.15
Cloud VPN(2)  (0) 2022.07.15
Cloud Dataproc  (0) 2022.07.15

댓글