본문 바로가기
CSP (Cloud Service Provider)/AWS

[AWS] Glue

by BTC_톰캣 2023. 11. 24.

베하! 안녕하세요 오늘은 AWS Glue에 대해 알아 보겠습니다.

 

AWS Glue란?

  • AWS Glue는 분석, 기계 학습(ML) 및 애플리케이션 개발을 위해 여러 소스에서 데이터를 쉽게 탐색, 준비, 이동 및 통합할 수 있도록 하는 확장 가능한 서버리스 데이터 통합 서비스입니다.
  • AWS Glue를 사용하면 새 데이터가 도착하는 대로 추출, 전환, 적재(ETL) 작업을 실행할 수 있습니다. 예를 들어 Amazon S3에서 새 데이터를 사용할 수 있게 되는 즉시 실행할 ETL 작업을 시작하도록 AWS Glue를 구성할 수 있습니다.
  • 데이터 카탈로그를 사용하면 데이터를 이동하지 않고도 여러 AWS 데이터 세트 전체에서 신속하게 데이터를 검색할 수 있습니다. 일단 데이터가 카탈로그에 저장되면 Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum에서 즉시 검색 및 쿼리에 데이터를 사용할 수 있습니다.
  • AWS Glue Studio를 사용하면 AWS Glue ETL 작업을 시각적으로 간편하게 생성, 실행 및 모니터링할 수 있습니다. 드래그 앤 드롭 방식의 편집기를 사용하여 데이터를 이동 및 변환하는 ETL 작업을 구축할 수 있으며 AWS Glue가 자동으로 코드를 생성합니다.
  • AWS Glue DataBrew를 사용하면 Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora 및 Amazon Relational Database Service(RDS)를 비롯한 데이터 레이크, 데이터 웨어하우스 및 데이터베이스에서 직접 데이터를 탐색하고 데이터로 실험할 수 있습니다. DataBrew의 사전 구축된 250여 개의 변환 중에서 선택하여 이상 항목 필터링, 형식 표준화, 잘못된 값 수정 등의 데이터 준비 작업을 자동화할 수 있습니다.

 

이처럼 ETL 작업등을 Glue로 할 수 있으며 데이터를 데이터 카탈로그에 채우기 위해서 크롤러를 사용 할 수있습니다.

 

AWS Glue Crawler 란?

  • 크롤러란 Amazon S3 및 관계형 데이터베이스의 데이터를 스캔해 스키마를 추출하고 AWS Glue Data 카탈로그(여기에서 메타데이터를 최신 상태로 유지함)를 자동으로 채워 데이터 집합 검색을 간소화해주는 기능
  • AWS Glue에서 크롤러를 사용하여 테이블로 AWS Glue Data Catalog를 채웁니다.
  • 크롤러는 단일 실행으로 여러 데이터 스토어를 크롤할 수 있습니다.
  • 크롤러는 데이터 카탈로그에서 하나 이상의 테이블을 생성하거나 업데이트합니다.
  • AWS Glue에서 정의한 추출, 변환, 로드(ETL) 작업은 이러한 데이터 카탈로그 테이블을 원본 및 대상으로 사용합니다.

다음은 크롤러가 사용할 수 있는 액세스 유형입니다.

네이티브 클라이언트

  • AWS S3
  • AWS DynamoDB
  • Delta Lake 2.0.x
  • Apache Iceberg 1.3
  • Apach Hudi 0.14

JDBC

  • AWS Redishift
  • Snowflake
  • AWS RDS
  • RDS 외부
    • Amazon Aurora
    • MariaDB
    • Microsoft SQL Server
    • Mysql
    • Oracle
    • PostgreSQL

MongoDB 클라이언트

  • MongoDB
  • MongoDb Atlas
  • AWS DocumentDB

만약 서버리스형태의 ETL 시스템을 구축 할 예정이며 현재 AWS에서 데이터들을 저장하고 있는경우 AWS Glue가 가장 좋은 선택지 일 것 입니다.

 

사진 ,참고 자료 출처

참고 자료 : https://docs.aws.amazon.com/ko_kr/glue/latest/dg/crawler-data-stores.html

사진1 : https://aws.amazon.com/ko/glue/ 

사진2 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fdocs.aws.amazon.com%2Fko_kr%2Fglue%2Flatest%2Fdg%2Fcomponents-key-concepts.html&psig=AOvVaw1sQfQOnM97Uh7JkVZJ9pEA&ust=1700886870443000&source=images&cd=vfe&opi=89978449&ved=0CBEQjRxqFwoTCPC-78Dn24IDFQAAAAAdAAAAABAH

'CSP (Cloud Service Provider) > AWS' 카테고리의 다른 글

[AWS] Direct Connect  (0) 2023.11.24
AWS Step Functions  (0) 2023.11.24
AWS CLI MFA 인증  (0) 2023.11.24
[AWS] EC2 중단 없이 AMI 생성  (1) 2023.11.24
[AWS] EC2 인스턴스에서 공용 IP 제거  (1) 2023.11.24

댓글