본문 바로가기
CSP (Cloud Service Provider)/GCP

[GCP] DataSet

by BTC_금쪽이 2023. 7. 21.

베하~! 안녕하세요 BTC 금쪽상담소의 오은영석사와 금쪽이 입니다!

한주동안 잘 지내셨나요?

무더위가 무르익어가는 여름에 건강 유의 하시고 무탈한 한주 마무리 하시길 바랍니다!

 

이번주 저희가 배울내용은 GCP의 DataSet & DataTable입니다! 즐거운 마음으로 알아보도록 할까요~?

 


BigQuery Dataset 이란?

데이터 세트는 특정 프로젝트에 포함됩니다.

데이터 세트는 테이블과 에 대한 액세스를 구성 및 제어하는 데 사용되는 최상위 컨테이너입니다.

테이블이나 뷰는 반드시 데이터 세트에 속해야 하므로, 개발자는 최소한 한 개 이상의 데이터 세트를 만든 후에 데이터를 BigQuery로 로드해야 합니다.

 

BigQuery  Dataset 제한사항

  • 데이터 세트 위치는 생성 당시에만 설정할 수 있으며 데이터 세트를 만든 후에는 위치를 변경할 수 없습니다.
  • 쿼리에서 참조하는 모든 테이블은 같은 위치의 데이터 세트에 저장해야 합니다.
  • 테이블을 복사할 때 소스 테이블과 대상 테이블을 포함하는 데이터 세트는 같은 위치에 있어야 합니다.
  • 프로젝트마다 데이터 세트 이름이 달라야 합니다.

 

BigQuery  Dataset time travel

BigQuery에서는time travel을 사용하여 변경되었거나 삭제된 BigQuery에 저장된 데이터에 액세스할 수 있습니다.

기본적으로 지난 7일까지의 어느 시점이든 데이터에 액세스할 수 있습니다.

time travel을 사용하면 업데이트 또는 삭제된 데이터를 쿼리하거나, 삭제된 테이블을 복원하거나, 만료된 테이블을 복원할 수 있습니다.

  • time travel은 시간 이동 기간 동안의 이전 데이터에 대한 액세스만 제공합니다.
  • 테이블 데이터를 time travel 기간보다 오래 보존하려면 테이블 스냅샷을 사용해야합니다.
  • 테이블에 행 수준 액세스 정책이 있거나 이전에 있었던 경우 테이블 관리자만 시간 이동을 사용할 수 있습니다. 
  • time travel 권한으로는 "bigquery.rowAccessPolicies.overrideTimeTravelRestrictions"가 필요합니다.

 


 

DataSet Hands-on

1. 생성 전 필수 권한 부여

  • bigquery.datasets.create

 

2. 데이터 세트 이름 지정

 

BigQuery에서 데이터 세트를 만들 때 데이터 세트 이름은 프로젝트마다 고유해야 합니다.

데이터 세트 이름은 다음을 포함할 수 있습니다.

  • 최대 1,024자(영문 기준)
  • 문자(대문자 또는 소문자), 숫자, 밑줄

데이터 세트 이름은 대소문자를 구분합니다. 

데이터 세트 이름에는 -, &, @, %와 같은 공백이나 특수문자를 사용할 수 없습니다.

 

3. 콘솔에서 BigQuery 페이지 접속

 

4. Explorer Actions 옵션에 Create dataset 선택

5. Create dataset 페이지에 정보 입력 

  • Dataset ID 에 고유한 데이터 세트 이름을 입력합니다 .
  • Location type 에 대해 데이터 세트의 지리적 위치를 선택하며 데이터 세트가 생성된 후에는 위치를 변경할 수 없습니다.

이렇게 dataset의 이론과 GCP로 dataset 생성 방법에 대해 배워보는 시간이였습니다!

data는 언제나 정확해야 하며 안전해야합니다.

GCP를 통해 안전하게 data들을 관리 할 수 있는 방법의 첫걸음을 배우는 시간이였던것 같습니다.

 

모든 금쪽이들이 정확하고 안전하게 클라우드를 사용할 수 있도록

다음시간에 더욱 알찬 정보들로 돌아오겠습니다!

그럼 다음주에 만나요~! 베빠!!

 

출처 문헌 : https://cloud.google.com/bigquery/docs/datasets

댓글