본문 바로가기
CSP (Cloud Service Provider)/GCP

Data Catalog

by BTC_문돌이 2022. 7. 27.

안녕하세요~! GCP Hallo팀입니다. 오늘은 Data Catalog에 대해서 설명해 보겠습니다.

 

Data Catalog는 Google Cloud의 데이터 애널리틱스 제품군에서 확장 가능한 완전 관리형 메타데이터 관리 서비스입니다.

 

Data Catalog가 왜 필요할까요? 오늘날 대부분의 조직은 점점 증가하는 대규모 데이터 애셋을 다룹니다.
조직 내의 데이터 이해관계자(소비자, 제작자, 관리자)는 여러 문제를 겪고 있습니다.

 

적절한 도구가 없으면 문제가 데이터를 효율적으로 사용하는 데 주요 장애물이 됩니다. Data Catalog를 사용하는 조직은 중앙 집중식 공간에서 다음을 수행할 수 있습니다.

1.통합 뷰가 있으면 적절한 데이터를 쉽게 찾을 수 있습니다.
2.기술 및 비즈니스 메타데이터로 데이터를 보강하여 데이터 중심의 의사결정을 지원하고 통계 시간을 단축합니다.
3.데이터 관리를 개선하여 운영 효율성과 생산성을 향상합니다.
4.데이터에 대한 소유권을 기반으로 신뢰성을 높입니다.

 

Data Catalog 함수Data Catalog는 두 가지 기본 기능을 제공합니다.1. 액세스 권한이 있는 데이터 항목 검색2. 메타데이터로 데이터 항목에 태그 지정

또한 Data Catalog는 Cloud Data Loss Prevention(DLP) 스캔의 결과를 활용하여 Data Catalog 내에서 태그 템플릿 형태로 민감한 정보를 직접 식별할 수 있습니다.

* Cloud DLP는 민감한 정보 조사, 분류, 익명화를 위한 강력한 플랫폼입니다.

다음에 기회가 되면 DLP에 대해서도 소개해 보겠습니다.

 

Data Catalog의 작동 방식

 

Data Catalog는 여러 Google Cloud 시스템 소스에서 데이터 항목의 메타데이터를 분류할 수 있습니다.
Data Catalog API를 사용하여 커스텀 데이터 리소스 유형의 항목을 만들고 관리할 수도 있습니다.
데이터가 카탈로그화된 후 태그를 사용하여 고유한 메타데이터를 이러한 자산에 추가할 수 있습니다.

 

Data Catalog 아키텍처

 

Data Catalog 메타데이터

Data Catalog는 기술 메타데이터와 비즈니스 메타데이터라는 두 가지 유형의 메타데이터를 처리합니다.

 

1. 기술 메타데이터 유형

Bigquery 테이블 등 데이터 항목과 관련된 기술 메타데이터입니다. 예를들어

-프로젝트 정보

-애셋 이름 및 설명

-Google Cloud 리소스 라벨

-스키마 이름 및 BigQuery 테이블과 뷰에 대한 설명

 

2.비즈니스 메타데이터 유형

데이터 항목의 비즈니스 메타데이터

-데이터 항목에 적용되는 태그

-데이터 항목과 연결된 데이터 관리자입니다. 데이터 항목의 데이터 관리자에게 연락하여 데이터 항목에 대한 추가 정보를 요청할 수 있습니다. 데이터 관리자가 특정 IAM 역할을 필요로 하지 않습니다. Google 이외의 이메일 계정을 가진 사용자를 데이터 항목의 데이터 관리자로 추가할 수 있습니다. 데이터 관리자는 사용자에게 명시적 IAM 권한이 제공되지 않는 한 콘솔 내에서 프로젝트 관련 활동을 수행할 수 없습니다.
-이미지, 테이블, 링크 등을 포함할 수 있는 데이터 항목의 서식 있는 텍스트 개요

 

비즈니스 메타데이터 검색

비즈니스 메타데이터는 항상 기술 메타데이터 항목과 연결됩니다. 구문을 사용하지 않고 비즈니스 메타데이터를 검색할 수 있습니다.

 

검색 및 탐색

Data Catalog는 데이터 항목과 연결된 기술 및 비즈니스 메타데이터에 대해 간단하면서도 강력한 조건자 기반 검색 환경을 제공합니다. 메타데이터에 검색 및 탐색을 적용할 수 있도록 데이터 항목의 메타데이터를 읽을 수 있는 권한이 있어야 합니다. Data Catalog는 데이터 항목 내의 데이터에 대한 색인을 생성하지 않습니다. Data Catalog는 애셋을 설명하는 메타데이터의 색인만 생성합니다.
Data Catalog는 사용자가 생성한 태그 같은 일부 메타데이터를 제어합니다. 기본 스토리지 시스템의 모든 메타데이터의 경우 Data Catalog는 기본 스토리지 시스템에서 제공하는 메타데이터와 권한을 반영하는 읽기 전용 서비스입니다. 기본 스토리지 시스템에서 편집하여 데이터 항목의 메타데이터를 추가, 업데이트 또는 삭제할 수 있습니다.

 

애셋 자동 카탈로그

특정 프로젝트의 경우 Data Catalog는 다음 Google Cloud 애셋을 자동으로 분류합니다.

-BigQuery 데이터 세트,테이블,뷰

-Pub/Sub 주제

-Dataplex 레이크,영역,테이블.파일 세트

-(공개 미리보기): Dataproc Metastore 서비스, 데이터베이스, 테이블

-(공개 미리보기): Analytics Hub 연결 데이터 세트

메타데이터 액세스 권한이 있는 프로젝트 ID 내의 애셋을 분류하는 것 외에 Data Catalog는 공개 데이터 세트가 포함된 BigQuery 프로젝트에 저장된 데이터를 분류할 수 있습니다.

 

GCP가 아닌 애셋 카탈로그

GCP가 아닌 시스템의 메타데이터를 카탈로그로 분류하려면 다음을 사용합니다.

-여러 인기 온프레미스 데이터 소스에 대한 커뮤니티 기부 커넥터
-수동으로 커스텀 항목에 Data Catalog API 사용

 

Data Catalog 액세스

다음 방법 중 하나를 사용하여 Data Catalog에 액세스 할 수 있습니다

-Google Cloud 콘솔

-CLI

-Data Catalog API

- Cloud 클라이언트 라이브러리

 

 

이상으로 Data Catalog에 대해서 설명해 보았습니다. 감사합니다~!

'CSP (Cloud Service Provider) > GCP' 카테고리의 다른 글

AWS to GCP Migration  (0) 2022.08.03
[GCP] Secret Manager  (0) 2022.08.03
[Google Cloud Platform] GCP 빅데이터와 머신러닝(3)  (0) 2022.07.27
Kubernetes Engine으로 배포 관리  (0) 2022.07.24
GCP SDK-terraform 연결  (0) 2022.07.22

댓글