탑신병자 듀오 팀 티모입니다.
AWS 기반 실시간 데이터 파이프라인을 이어서 구축해보겠습니다.
실습 과정입니다.
- Kinesis Data Streams : 지속적으로 생산되는 실시간 IoT 로그들을 Kinesis Data Streams 내 Buffer Storage에 수집합니다. 수집된 데이터들은 Shard에 저장되며 Consumer들은 Shard에 저장된 데이터들을 가져가 사용합니다.
- Glue Streaming : ETL 서비스인 AWS Glue을 통해 Kinesis Data Streams에 쌓이는 실시간 데이터를 처리합니다.
처리가 완료된 데이터들은 Amazon S3에 저장합니다. - Glue Data Catalog : 실시간 유입되는 데이터들을 처리하기 위해 데이터의 스키마 형식을 Glue Data Catalog에 저장합니다. Glue Streaming(2)에서는 사전에 정의된 스키마를 기준으로 데이터를 처리합니다.
- Reference Data(S3) : Glue Streaming(2)에서 실시간으로 유입되는 데이터들을 Join하기 위한 Reference 데이터를 S3에 저장합니다
- Glue Crawler / Glue Data Catalog : 2~4 과정을 거쳐 최종적으로 S3에 저장된 데이터들을 스캔하여 데이터 카탈로그를 생성, 하나 이상의 테이블을 생성합니다. 여기서 정의된 데이터 카탈로그를 기준으로 Athena를 통해 데이터를 분석합니다.
- Amazon Athena : Glue Data Catalog를 참조하여 S3의 데이터에 대해 SQL 기반의 분석을 진행합니다.
이를 통해 ETL이 완료된 데이터를 간편하게 데이터를 분석 할 수 있습니다. - Amazon Quicksight : Athena(6)를 통해 분석한 결과들을 다양한 대시보드 기능을 통해 시각화하여 사용자가 원하는 방식으로 데이터 분석 결과를 보여줍니다.
이전 실습에 이어 Amazon Quicksight를 이용해 시각화해보겠습니다.
Amazon Quicksight로 이동 후, Sign up for Quicksight 버튼을 클릭하여 Quicksight 서비스에 가입합니다.
실습인 만큼 Enterprise가 아닌 Standard Edition으로 가입합니다.
QuickSight에 연결할 서비스 중 S3를 선택해 ~/athena를 지정해줍니다.
- Authentication method : Use IAM federated identities & QuickSight-managed users
- Quicksight region : ap-northeast-2
- Account info : 개인 name(소문자로 입력)/email 입력
- QuickSight acceess to AWS services : Amazon IAM, Amazon S3, Amazon Athena
- S3 bucket : {AWS Account ID}-builders-analytics-athena
설정을 완료하고 Finish를 클릭하면, Quicksight가 생성되고 아래와 같이 Quicksight 메인 화면으로 이동하게됩니다.
왼쪽 메뉴에 Datasets > New Datasets를 클릭합니다.Data source는 Athena를 클릭합니다.
Athena와의 연결 상태가 확인되면 Create data source 버튼을 클릭합니다.
- Data Source : Athena
- Data Source Name : iotstream
- Athena workgroup : primary
- Validate connnection 버튼 클릭 후 연결 상태 확인
이후 추가로 설정합니다.
최종 단계에서 Directly query your data 옵션을 선택합니다.
- Catalog : AwsDataCatalog
- Database : iotstream
- Table : tab1
Visualize 화면으로 넘어가서 New sheet Create 버튼을 클릭합니다.
Fields list의 항목 2가지를 클릭한 후 하단의 Visual types에 파이 차트를 클릭합니다.
- Group/Color : activity_type
- Value : number_of_record
지금까지 실시간 데이터를 처리하고 분석 및 시각화하는 실습을 진행해봤습니다.
감사합니다.
'CSP (Cloud Service Provider) > AWS' 카테고리의 다른 글
[AWS] Amazon Location Service (1) | 2023.10.26 |
---|---|
[AWS] S3(Simple Storage Service) (0) | 2023.10.16 |
[AWS] Document DB (2) (0) | 2023.10.15 |
AWS ALB 상태 검사(Health Check) 에러 (0) | 2023.10.13 |
AWS 인증 및 보안 (1) | 2023.10.13 |
댓글