본문 바로가기
CSP (Cloud Service Provider)/GCP

[Google Cloud Platform] GCP 빅데이터와 머신러닝(3)

by BTC_손지수 2022. 7. 27.
Google Cloud 빅데이터 플랫폼 
 - 실시간 데이터
 - Data Pipeline

 

 

안녕하세요. BTC GCP팀 소속 손지수, 박은혜입니다.

코로나가 또다시 기승을 부리는 요즘이네요. 건강, 체력 모두 조심 또 조심합시다!

 

 

지난 2주간 클라우드 상에서 '빅데이터' 와  '머신러닝' 서비스가 어떻게 활용될 수 있는지,

'온프레미스' 에서 빅데이터 플랫폼 구축할 때, 그리고  'GCP의 서비스 Dataproc' 을 사용했을 때 작업 과정·결과를 살펴보며 더 효율적인 구축 과정을 알 수 있었습니다.

 

오늘의 글은 실시간 데이터와 데이터 파이프라인에 대해서 다뤄보려고 합니다. 잘 부탁드립니다.^^

 

 

 

MODULE 04

빅데이터와 머신러닝

 

 

 

Google Cloud 빅데이터 플랫폼

 

  • 실시간 데이터

 Hadoop과 같은 경우 일반적으로 배치 데이터(Batch Data)를 처리합니다. 배치 데이터란 일괄 처리된 데이터, 즉 파일 형태로 되어있는 데이터라고 생각하시면 되실 것 같습니다. 배치 데이터의 경우 Dataproc을 사용하시면 됩니다.

 하지만, 모든 데이터가 배치 데이터만 있는 것은 아닙니다. 24시간 계속해서 흐르는 실시간 데이터(Streaming Data)와 같은 것도 존재합니다. IoT 장비의 데이터, 주식 시장 변화 데이터 등이 실시간 데이터의 예시입니다. 

 

실시간 데이터를 전송받은 서버는 해당 데이터들을 분석해야 할 것입니다.

GCP에서는 어떤 방법으로 실시간 데이터를 수신하고 분석하는지 다음 데이터 파이프라인을 통해 알아보겠습니다.

 

 

 

  • Data Pipeline

 

 GCP로 실시간 데이터가 왔을 때,

 

1) Cloud Pub/Sub 제품이 실시간 데이터를 수신하게 됩니다. 데이터를 받은 후 다음 단계로 넘겨주게 되는데, 받은 실시간 데이터를 바로 분석 하기에는 NULL값 존재, data type 불일치 등의 이유로 부적절한 경우가 많습니다. 따라서 타임스탬프 값 변경, NULL 값 제거, data type 변경 등 Transform 작업이 필요하고 

 

2) 정제 작업을 수행하는 제품으로는 Cloud Dataflow가 있습니다. Cloud Dataflow의 또 다른 장점은 실시간 데이터뿐만 아니라 배치 데이터도 동시에 받아서 Transform 작업을 할 수 있다는 것입니다.

 

3) 데이터 정제 후, 데이터 웨어하우스인 BigQuery에 데이터를 적재하게 됩니다. 적재된 데이터는 SQL을 이용해 분석하여 대시보드로 활용 등 여러 가지 방법으로 활용됩니다. 

 

 

여태껏 공부하던 내용과는 조금 다른 내용을 보고 있습니다. 그럼에도 긴 글 읽어주셔서 감사합니다.

어제가 중복이었다고 합니다. 몸보신은 하셨는지요. 항상 건강하고 웃는 하루 보내시길 바랍니다.^^ 

'CSP (Cloud Service Provider) > GCP' 카테고리의 다른 글

[GCP] Secret Manager  (0) 2022.08.03
Data Catalog  (0) 2022.07.27
Kubernetes Engine으로 배포 관리  (0) 2022.07.24
GCP SDK-terraform 연결  (0) 2022.07.22
[Google Cloud Platform] 빅데이터와 머신러닝(2)  (0) 2022.07.22

댓글