본문 바로가기
CSP (Cloud Service Provider)/GCP

[Google Cloud Platform] GCP 스토리지, 컨테이너 - STRUCTURED DATA(1)

by BTC_손지수 2022. 6. 7.
스토리지, 컨테이너 
 - GCP의 스토리지 : STRUCTURED DATA (1)
 - BIgQuery

 

안녕하세요. BTC GCP팀 소속 손지수, 박은혜입니다.

벌써 6월이 시작됐습니다. 이번 달도 웃음 팡팡 가득한 날이길 바랍니다!

 

 

  지난 2주간 GCP의 스토리지 컨테이너 그리고 다양한 스토리지 옵션을 살펴봤습니다.

 

 GCP에서는 다양한 스토리지 및 데이터베이스 서비스를 제공하고 있고, 해당 서비스와 관련된 제품은 크게 UNSTRUCTURED DATA: 비정형 데이터를 저장하기 위한 스토리지와 STRUCTURED DATA : 정형 데이터를 저장하기 위한 스토리지로 나눌 수 있었습니다.

저번 포스팅에서는 비정형 데이터와 그 데이터가 저장되는 오브젝트 스토리지, Cloud Storage를 소개해드렸습니다.

 

이번 포스팅에서는 정형 데이터를 위한 스토리지에 대해 함께 알아보겠습니다. 

오늘도 잘 부탁드립니다!

 

 

MODULE 04

스토리지, 컨테이너

 

 

 

GCP의 스토리지 : STRUCTURED DATA (1)

 

GCP(Google Cloud Platform)는 클라우드 사용 시 다양한 스토리지, 데이터베이스 서비스를 제공하고 있습니다.

 

  • GCP의 다양한 스토리지 옵션

 

 

2주 전 살펴본 아키텍처입니다. 오늘부터 소개해드릴 제품은 오른쪽 STRUCTURED DATA 옵션의 스토리지입니다. 

 

 

STRUCTURED DATA : 정형 데이터

 

  • STRUCTURED DATA
    • TRANSACTIONAL DATA
      1. SQL(RELATIONAL DATA) , NO-SQL(KEY-VALUE,DOCUMENT)
    • ANALYTICAL DATA 
      1. DATA Format - RELATIONAL DATA, KEY-VALUE
      2. LATENCY - MILLISECOND LATENCY , LATENCY IN SECONDS 

 

TRANSACTIONAL DB에 저장하는 경우, SQL을 사용할 때, 즉 데이터가 표의 형태로 된 RELATIONAL DATA : 관계형 데이터라면 Cloud SQL 또는 Cloud Spanner를 사용하시면 됩니다. 

데이터가 KEY-VALUE 형태 또는 DOCUMENT 형태인 NO-SQL 라면 Cloud Datastore/Firestore을 사용하시면 됩니다.

 

ANALYTICAL DATA를 사용하는 경우, 데이터가 표의 형태로 되어있고, LATENCY가 조금 느려도 되지만 더 복잡한 분석이 필요할 때 BigQuery를 사용해주시면 됩니다. SQL을 사용할 수 있기 때문에 복잡한 분석이 가능하게 됩니다. 만약 실시간 데이터와 같이 데이터의 양이 많고 LATENCY가 중요한 경우 Bigtable 사용을 추천드립니다.

 

 

BigQuery

 GCP(Google Cloud Platform)는 빅데이터 분석, 머신러닝과 같은 인공지능 분야에 강점을 가지고 있습니다.  그리고 인프라의 보안, 고성능, 비용 효율성을 갖췄으며 처리량, 대역폭, 지연 시간 측면에서 가장 빠르고 글로벌한 네트워크 환경을 보유하여, 고객의 비즈니스를 지원합니다.

 이런 GCP의 대표 서비스(제품)로 BigQuery(서버리스 인프라에서 실행되는 데이터 웨어하우스)가 빠지지 않고 등장합니다. 

 

많은 정형 데이터 스토리지 옵션 중, 오늘은 GCP의 대표 제품인 BigQuery에 대해 함께 알아보도록 하겠습니다.

 

데이터 웨어하우스로 사용하는 BigQuery

  • Google BIgQuery

1TB 부터 100PB 이상에 이르는 규모의 고객에게 적합한 데이터 웨어하우스 입니다.

 

 

  • BigQuery | 서버리스 데이터 웨어하우스

기존 데이터 웨어하우스는 on-premise 에서 데이터 웨어하우스 구축 시, 데이터 분석 시간 외 다른 활동에 대부분의 시간을 활용했습니다. 반면에 서버리스 데이터 웨어하우스 Bigquery는 데이터 분석과 인사이트 발굴에 모든 시간을 활용할 수 있는 높은 효율을 보입니다.

 

 

 

BigQuery 개요

 

  • 한정된 자원

할당 된 양은 일정하지만, 소비되는 양은 달라지기 때문에 돈 또는 시간의 낭비가 발생합니다.

 

  • BigQuery를 사용하기 전 리소스 프로비저닝 필요 없음

 리소스가 증가하면 서버가 증가하고, 리소스가 감소하면 서버가 감소하게 됩니다.

여기서 의문을 느끼시는 분들이 계실거라고 생각합니다. 리소스와 함께 서버가 감소하면 서버안의 디스크가 함께 없어지기 때문에 문제가 발생하게 됩니다.

 Google에서는 이와 같은 문제를 해결하기 위해 disk/cpu 와 memory를 분리했고, 그 사이에 수 많은 케이블을 설치하는 작업을 진행했습니다.

 

 

  • BigQuery의 빠른 속도

또한 BigQuery는 기존 관계형 데이터베이스의 행 기반과는 다른 열 기반(columnar Storage)스토리지 이기 떄문입니다.

 

 

  • 2가지 서비스를 합친 BigQuery

 

 

BigQuery 분석 및 시각화

 

  • BigQuery  ML

  • 클라우드 기반 데이터 웨어하우스로 ML을 사용하는 다른 방법과 비교한 BigQuery ML의 장점

  • Data Studio

통계 정보를 시각화하려는 경우 BigQuery에서 직접 데이터 스튜디오 통계 정보를 살펴보실 수 있습니다.

 

  • 다양한 유형의 데이터 소스에 연결

 

이번 포스팅에서는 GCP의 스토리지 옵션 중 BigQuery를 함께 알아봤습니다. 

긴 글 읽어주셔서 감사합니다. 

곧 여름이 올 것 같네요, 오늘도 좋은 하루 되시길 바랍니다.^^

 

댓글