베하~~
수 지 타 산 입니다
이번 한 주도 잘 보내셨나요~??
오늘은 데이터파이프라인에 대해 공부할게요
팔로팔로팔로미
AWS DataPipeline 이란?
- 데이터의 이동과 변환을 자동화하는 데 사용할 수 있는 웹 서비스
- 온프레미스 데이터 소스뿐 아니라 여러 AWS 컴퓨팅 및 스토리지 서비스 간에 데이터를 안정적으로 처리하고 지정된 간격으로 이동할 수 있게 지원하는 웹 서비스
- 저장된 데이터에 정기적으로 액세스하고, 대규모로 데이터를 변환 및 처리하며, Amazon S3, Amazon RDS, Amazon DynamoDB 및 Amazon EMR과 같은 AWS 서비스에 그 결과를 효율적으로 전송할 수 있습니다
- 내결함성이 있고, 반복 가능하며, 가용성이 높고, 복잡한 데이터 처리 워크로드를 손쉽게 생성할 수 있습니다
- 데이터 관리의 비즈니스 로직을 지정하고, 정의된 작업 활동을 수행하기 위해 Amazon EC2 인스턴스를 생성하여 작업을 예약하고 실행합니다
AWS DataPipeline 장점
1) 데이터 품질 개선
데이터 파이프라인은 원시 데이터를 정리하고 세분화하여 최종 사용자에게 있어서 데이터의 유용성을 높입니다. 입력 오류를 검사하면서 날짜, 전화번호와 같은 필드의 형식을 표준화합니다. 또한 중복을 제거하고 조직 전반에서 일정한 데이터 품질을 보장합니다.
2) 효율적인 데이터 처리
데이터 엔지니어는 데이터를 변환하고 로드하는 동안 많은 반복 작업을 수행해야 합니다. 데이터 파이프라인을 활용하면 데이터 엔지니어가 데이터 변환 작업을 자동화하여 최상의 비즈니스 인사이트를 도출하는 데 집중할 수 있습니다. 또한 데이터 파이프라인은 데이터 엔지니어가 시간이 지날수록 가치가 떨어지는 원시 데이터를 보다 신속하게 처리할 수 있게 합니다.
3) 포괄적인 데이터 통합
데이터 파이프라인은 다양한 소스의 데이터 세트를 통합하기 위해 데이터 변환 기능을 추상화합니다. 데이터 파이프라인은 여러 소스의 동일한 데이터 값을 교차 검사하여 불일치를 수정할 수 있습니다. 예를 들어 같은 고객이 회사의 전자 상거래 플랫폼에서도 제품을 구매하고 디지털 서비스를 통해서도 제품을 구매한다고 가정해 보겠습니다. 하지만 디지털 서비스에는 이 고객이 이름이 잘못 등록되어 있습니다. 파이프라인은 분석을 위해 데이터를 보내기 전에 이러한 불일치 문제를 수정할 수 있습니다.
AWS DataPipeline 작동 방식
- 상수도 파이프라인이 저수지에서 수도꼭지로 물을 이동하는 것처럼, 데이터 파이프라인은 수집 지점에서 스토리지로 데이터를 이동합니다. 데이터 파이프라인은 소스에서 데이터를 추출하여 변경한 다음 특정 대상에 저장합니다.
데이터 소스
애플리케이션, 디바이스 또는 다른 데이터베이스가 데이터 소스가 될 수 있습니다. 다양한 소스에서 데이터를 파이프라인에 푸시할 수 있습니다. 또한 파이프라인은 API 호출, 웹 후크 또는 데이터 복제 프로세스를 사용하여 데이터 포인트를 추출할 수 있습니다. 실시간 처리를 위해 데이터 추출을 동기화하거나 데이터 소스에서 예약된 간격으로 데이터를 수집할 수 있습니다.
변환
파이프라인을 통과한 원시 데이터는 비즈니스 인텔리전스에 더욱 유용하게 사용할 수 있습니다. 변환은 정렬, 리포맷팅, 중복 제거, 확인, 검증 등 데이터를 변경하는 작업을 말합니다. 파이프라인은 분석 요구 사항을 충족하기 위해 데이터를 필터링, 요약 또는 처리할 수 있습니다.
종속성
순차적으로 변경이 발생할 때 파이프라인에서 데이터 이동 속도를 저해하는 특정 종속성이 존재할 수 있습니다. 종속성에는 기술과 비즈니스라는 두 가지 기본 유형이 있습니다. 예를 들어 파이프라인에서 작업을 계속 진행하려면 중앙 대기열이 가득 찰 때까지 기다려야 하는 경우, 이는 기술적 종속성에 해당합니다. 한편, 다른 사업부가 데이터를 교차 검증할 때까지 파이프라인을 일시 중지해야 하는 경우, 이는 비즈니스 종속성에 해당합니다.
대상
데이터 파이프라인의 엔드포인트는 데이터 웨어하우스, 데이터 레이크 또는 다른 비즈니스 인텔리전스 애플리케이션이나 데이터 분석 애플리케이션일 수 있습니다. 대상을 데이터 싱크라고도 합니다.
AWS DataPipeline 유형
스트림 처리 파이프라인
데이터 스트림은 크기가 작은 데이터 패킷의 연속적인 증분 시퀀스이며, 일반적으로 일정 기간 동안 발생하는 일련의 이벤트를 나타냅니다. 예를 들어 데이터 스트림은 최근 1시간 동안의 측정값을 포함하는 센서 데이터를 보여줄 수 있습니다. 금융 거래와 같은 단일 행위도 이벤트라고 할 수 있습니다. 스트리밍 파이프라인은 실시간 분석을 위해 일련의 이벤트를 처리합니다. 데이터를 스트리밍하기 위해서는 짧은 지연 시간과 높은 내결함성이 요구됩니다. 데이터 파이프라인은 일부 데이터 패킷이 손실되거나 정상적이지 않은 순서로 도착하더라도 데이터를 처리할 수 있어야 합니다.
배치 처리 파이프라인
배치 처리 데이터 파이프라인은 대량으로 또는 배치로 데이터를 처리하고 저장합니다. 월별 회계와 같은 간헐적인 대량 작업에 적합합니다. 데이터 파이프라인에는 일련의 시퀀싱된 명령이 포함되어 있으며, 모든 명령은 전체 데이터 배치에 대해 실행됩니다. 데이터 파이프라인은 한 명령의 출력을 다음 명령의 입력으로 제공합니다. 데이터 변환이 모두 완료되면 파이프라인은 전체 배치를 클라우드 데이터 웨어하우스 또는 다른 유사한 데이터 스토어로 로드합니다.
데이터 파이프라인과 ETL 파이프라인의 차이점은 무엇인가요?
추출, 전환, 적재(ETL) 파이프라인은 특수한 유형의 데이터 파이프라인입니다. ETL 도구는 여러 소스에서 원시 데이터를 추출하거나 복사하여 스테이징 영역이라는 임시 위치에 저장합니다. 이 도구는 스테이징 영역의 데이터를 변환하여 데이터 레이크 또는 웨어하우스에 로드합니다.
모든 데이터 파이프라인이 ETL 시퀀스를 따르는 것은 아닙니다. 일부는 소스에서 데이터를 추출하여 변환하지 않고 다른 곳에 로드하기도 합니다. 반면 일부 데이터 파이프라인은 추출, 전환, 적재(ETL) 시퀀스에 따라 비정형 데이터를 추출하여 데이터 레이크에 직접 로드합니다. 정보를 클라우드 데이터 웨어하우스로 옮긴 후 변경을 수행합니다.
여기까지 데이터 파이프라인에 대해 공부했습니다
아무래도 데이터를 전문적으로 다루는 분이 아니라면 어려운 부분이 있을 수 있는데요
기본적인 지식을 쌓는다 생각하고 보시면 될 것 같습니다.
그럼 다음 주에도 만나요~~
'CSP (Cloud Service Provider) > AWS' 카테고리의 다른 글
[AWS] DataSync (0) | 2023.05.19 |
---|---|
CloudWatch 모니터링 및 알람 (0) | 2023.05.19 |
[AWS] KMS 개념, 동작방식 정리 (1) | 2023.05.12 |
[AWS] Global Accelerator (0) | 2023.05.12 |
[AWS] cross-zone load balancing(교차 영역 로드 밸런싱) (0) | 2023.05.12 |
댓글