본문 바로가기

Database82

Airflow : API를 활용한 Image 다운로드 베하 ~! 문땅훈과 루피입니다. 오늘은 'Launch 라이브러리에서 로켓 이미지 가져오기' 예제 실습과 동시에 API를 활용하여 이미지를 다운로드 하는 실습도 간단하게 진행해보겠습니다. *Launch 라이브러리에서 로켓 이미지 가져오기' 실습은 Airflow 참고서적에서 참고하여 진행했습니다.* ✅ Launch 라이브러리에서 로켓 이미지 가져오기 Launch library 2 로켓 발사, 우주 관련 Event 데이터들을 오픈 API를 통해 제공 ⇒ 가져올 데이터 : 예정된 10개의 로켓 발사에 대한 데이터와 로켓 이미지에 대한 URL을 가져오는 Launcher 데이터 DAG 구조 및 설명 밑에서 간략하게 정리한것과 같이 API로부터 Image URL을 추출한 다음 해당 Image를 다운로드하여 성공하면 .. 2023. 8. 17.
Airflow를 통한 Dataproc 연동 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다!! 오늘은 Airflow Dag를 사용해서 Cloud Dataproc를 조작해보도록 하겠습니다!! Dataproc은 처음 다루는 내용이니 개요부터 차근차근 진행하겠습니다~ 개요 Dataproc이란? Airflow Dag를 활용한 Dataproc 사용 1. Dataproc이란? Dataproc은 일괄 처리, 쿼리, 스트리밍, 머신 러닝에 오픈소스 데이터 도구를 활용할 수 있는 관리형 Spark 및 Hadoop 서비스라고 Docs에 설명되어 있습니다. 간단히 말씀드리면 손쉽게 용도에 맞는 오픈소스 도구를 포함한 클러스터를 생성 및 관리해주는 서비스라고 생각하시면 될것 같습니다! Data proc의 대표적인 장점은 다음과 같습니다. 1. 비용 절감 가.. 2023. 8. 16.
[Airflow] Decorator 안녕하세요 BTC 1-tier팀의 One입니다! 무더위 다들 잘 보내고 계신가요?? 오늘은 Airflow의 Decorator 모듈에 대해서 알아보겠습니다. Decorator 파이썬을 사용하시는 분들이라면 Decorator가 익숙하실텐데요, 모르시는 분들을 위해서 간략하게 설명을 드리자면 Decorator는 파이썬에서 함수나 클래스의 기능을 확장하거나 수정할 수 있게 해주는 기능입니다. 그렇다면 데코레이터를 사용하는 이유는 무엇일까요? 1. 코드의 재사용성과 모듈성을 높임 2. 코드의 가독성을 높일 수 있는 강력한 도구 중 하나 3. 코드의 중복을 줄이고 유지 보수성을 높일 수 있음 위처럼 데코레이터를 사용하면 기존 코드를 건드리지 않고 함수나 클래스의 동작을 수정할 수 있습니다. 말만 들어서는 이해가 잘.. 2023. 8. 7.
[Airflow] Airflow CLI 명령어 안녕하세요 BTC 1-tier 팀의 One입니다! 보통 Airflow를 Web에서 많이 사용하실텐데요 서버에서 CLI로 제어가 가능하다는 점 아셨나요? Airflow CLI를 사용해 작업 실행, 스케줄 조작, 작업 상태 확인 등 다양한 작업 수행이 가능합니다. 얘기치 못하게 Web 프로세스가 종료되는 등, 웹에 접속하지 못하는 상황이라면 유용하게 사용이 가능하겠죠? airflow cheat-sheet 위 명령어를 통해서 자주 쓰이는 명령어를 확인할 수 있으며 airflow --help 위 명령어를 통해 자세한 도움말을 확인 할 수 있습니다. 아래는 자주 쓰이는 일부 명령어들을 정리해놨으며, Airflow CLI에는 더 많은 명령어와 옵션이 있습니다 자세한 내용은 공식 문서에서 확인이 가능합니다. http.. 2023. 7. 24.
빅쿼리 INFORMATION_SCHEMA 베하 ! 문땅훈과 루피입니다😊 오늘은 '빅쿼리 INFORMATION_SCHEMA'에 대해 알아보겠습니다. 빅쿼리의 INFORMATION_SCHEMA란? BigQuery는 구글 클라우드 플랫폼에서 제공하는 서버리스 데이터 웨어하우징 솔루션입니다. INFORMATION_SCHEMA는 빅쿼리에서 제공하는 시스템 카탈로그 시스템으로 데이터베이스, 테이블, 뷰, 함수 등 데이터베이스 메타데이터에 대한 정보를 쿼리할 수 있는 뷰들의 모음입니다. 이 정보는 데이터베이스 관리자나 개발자들에게 데이터베이스 내부 구조와 데이터에 대한 중요한 통찰력을 제공합니다. INFORMATION_SCHEMA의 주요 뷰 빅쿼리의 INFORMATION_SCHEMA에는 여러 가지 뷰들이 있습니다. 주요 뷰들을 간략히 소개해 드리겠습니다. .. 2023. 7. 21.
ElasticSearch 베하~! 탑신병자 듀오 팀 나르 입니다! 이번 포스팅에서는 ElasticSearch에 대해서 알아보도록 하겠습니다 ElasticSearch란? Elasticsearch는 Apache Lucene( 아파치 루씬 ) 기반의 Java 오픈소스 분산 검색 엔진입니다. Elasticsearch를 통해 루씬 라이브러리를 단독으로 사용할 수 있게 되었으며, 방대한 양의 데이터를 신속하게, 거의 실시간( NRT, Near Real Time )으로 저장, 검색, 분석할 수 있습니다. 또한, Elasticsearch는 검색을 위해 단독으로 사용되기도 하며, ELK( Elasticsearch / Logstatsh / Kibana )스택으로 사용되기도 합니다. ELK 스택이란? 분석 및 저장 기능을 담당하는 ElasticSe.. 2023. 7. 21.
[Airflow] 병렬 처리 Task 안녕하세요, 1-Tier 팀의 One입니다. Airflow의 주요 기능 중 하나는 작업들을 병렬로 실행할 수 있는 기능입니다. 병렬 처리란 동시에 여러 작업을 실행하여, 작업의 처리 시간을 단축 시키는 방법을 말합니다. Airflow에서는 작업을 병렬로 실행하기 위해, 병렬성(Parallelism)과 동시성(Concurrency) 개념을 사용합니다. 병렬성(Parallelism) Airflow에서 동시에 실행 가능한 작업의 최대 개수를 제어하는 설정 값 동시성(Concurrency) Airflow 스케줄러에서 제어되며, 작업을 실행할 수 있는 동시 작업수를 제어하는 설정 값 작업들 사이의 의존성 및 리소스 제약에 따라 조정이 가능 위의 설정값들은 Airflow의 설정 파일 (airflow.cfg)에서 설.. 2023. 7. 17.
Class를 활용한 Custom Operator 생성 베하!! 반갑습니다~ 인사통의 BTC_김회장, 최총무입니다!! 오늘은 Airflow Dag를 생성할때 사용할 Operator를 Custom으로 생성해보겠습니다! Operator에 대한 기초적인 설명은 앞서 문땅훈과 루피팀이 작성해주신 포스팅을 참고해주세요~ Airflow Operator와 Task 베하 ~! 안녕하세요 문땅훈과 루피입니다! 😆 저번 시간에는 중요한 부분만 골라서 Airflow 구성요소와 동작방식에 대해 설명해드렸는데요~ 이제 본격적으로 Airflow에 대해 알아보도록 합시다 !! btcd.tistory.com 어느정도 구조 파악하셨다면 함께 이번 포스팅 시작해볼까요? 개요 Airflow Operator의 종류 Class를 활용한 Custom Operator 생성 1. Airflow Ope.. 2023. 7. 13.