본문 바로가기

airflow18

Airflow Task의 BQ Job 다루기 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다!! 오늘은 Airflow Task를 통해 진행된 Bigquery의 Job을 다뤄보겠습니다! 오늘은 평소보다 조금 간략한 내용이 될 수 있어요 하지만 생각보다 자주 사용하게 될거에요! 개요 Airflow Task의 수행 BQ job id 확인하기 확인한 job id를 통한 활용 1. Airflow Task의 수행 BQ job id 확인하기 Airflow를 통해 BQ 명령을 수행시키는 경우에 주의할 점이 있습니다. 바로 BQ Slot 사용량입니다. 개인이 아닌 회사 수준의 환경에서는 BQ를 사용하는 경우 Slot을 Reservation형태로 사용하는 경우가 많습니다.. 이런 경우 Airflow를 통해 Scheduling된 작업을 진행할 때 항상 BQ.. 2023. 9. 28.
[Airflow] Celery Executer 안녕하세요 BTC 1-tier 팀의 One입니다! 점점 선선해지는게 가을이 오고있다는 것이 느껴지네요ㅎㅎ 오늘은 Airflow의 Celery Executer에 대해서 알아봅시다. CeleryExecutor? 자 한대의 Master서버가 있고 여러개의 DAG가 있다고 생각해봅시다. 데이터 처리량이 많은 여러개의 DAG를 한대의 서버에서 돌리면 어떻게 될까요? Master서버는 자신의 일을 제대로 하지 못하겠죠 ....😥 그렇기 위해서 우리는 여러개의 Worker로 Task를 분산하여 동작을 시켜야합니다. 그 역할을 해주는 Executor가 바로 Celery Executor입니다. Celery Executor는 Task 메시지를 브로커에 전달하고, Celery Worker가 Task를 가져가서 실행합니다. .. 2023. 9. 4.
Airflow : API를 활용한 Image 다운로드 베하 ~! 문땅훈과 루피입니다. 오늘은 'Launch 라이브러리에서 로켓 이미지 가져오기' 예제 실습과 동시에 API를 활용하여 이미지를 다운로드 하는 실습도 간단하게 진행해보겠습니다. *Launch 라이브러리에서 로켓 이미지 가져오기' 실습은 Airflow 참고서적에서 참고하여 진행했습니다.* ✅ Launch 라이브러리에서 로켓 이미지 가져오기 Launch library 2 로켓 발사, 우주 관련 Event 데이터들을 오픈 API를 통해 제공 ⇒ 가져올 데이터 : 예정된 10개의 로켓 발사에 대한 데이터와 로켓 이미지에 대한 URL을 가져오는 Launcher 데이터 DAG 구조 및 설명 밑에서 간략하게 정리한것과 같이 API로부터 Image URL을 추출한 다음 해당 Image를 다운로드하여 성공하면 .. 2023. 8. 17.
Airflow를 통한 Dataproc 연동 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다!! 오늘은 Airflow Dag를 사용해서 Cloud Dataproc를 조작해보도록 하겠습니다!! Dataproc은 처음 다루는 내용이니 개요부터 차근차근 진행하겠습니다~ 개요 Dataproc이란? Airflow Dag를 활용한 Dataproc 사용 1. Dataproc이란? Dataproc은 일괄 처리, 쿼리, 스트리밍, 머신 러닝에 오픈소스 데이터 도구를 활용할 수 있는 관리형 Spark 및 Hadoop 서비스라고 Docs에 설명되어 있습니다. 간단히 말씀드리면 손쉽게 용도에 맞는 오픈소스 도구를 포함한 클러스터를 생성 및 관리해주는 서비스라고 생각하시면 될것 같습니다! Data proc의 대표적인 장점은 다음과 같습니다. 1. 비용 절감 가.. 2023. 8. 16.
[Airflow] Decorator 안녕하세요 BTC 1-tier팀의 One입니다! 무더위 다들 잘 보내고 계신가요?? 오늘은 Airflow의 Decorator 모듈에 대해서 알아보겠습니다. Decorator 파이썬을 사용하시는 분들이라면 Decorator가 익숙하실텐데요, 모르시는 분들을 위해서 간략하게 설명을 드리자면 Decorator는 파이썬에서 함수나 클래스의 기능을 확장하거나 수정할 수 있게 해주는 기능입니다. 그렇다면 데코레이터를 사용하는 이유는 무엇일까요? 1. 코드의 재사용성과 모듈성을 높임 2. 코드의 가독성을 높일 수 있는 강력한 도구 중 하나 3. 코드의 중복을 줄이고 유지 보수성을 높일 수 있음 위처럼 데코레이터를 사용하면 기존 코드를 건드리지 않고 함수나 클래스의 동작을 수정할 수 있습니다. 말만 들어서는 이해가 잘.. 2023. 8. 7.
[Airflow] Airflow CLI 명령어 안녕하세요 BTC 1-tier 팀의 One입니다! 보통 Airflow를 Web에서 많이 사용하실텐데요 서버에서 CLI로 제어가 가능하다는 점 아셨나요? Airflow CLI를 사용해 작업 실행, 스케줄 조작, 작업 상태 확인 등 다양한 작업 수행이 가능합니다. 얘기치 못하게 Web 프로세스가 종료되는 등, 웹에 접속하지 못하는 상황이라면 유용하게 사용이 가능하겠죠? airflow cheat-sheet 위 명령어를 통해서 자주 쓰이는 명령어를 확인할 수 있으며 airflow --help 위 명령어를 통해 자세한 도움말을 확인 할 수 있습니다. 아래는 자주 쓰이는 일부 명령어들을 정리해놨으며, Airflow CLI에는 더 많은 명령어와 옵션이 있습니다 자세한 내용은 공식 문서에서 확인이 가능합니다. http.. 2023. 7. 24.
[Airflow] 병렬 처리 Task 안녕하세요, 1-Tier 팀의 One입니다. Airflow의 주요 기능 중 하나는 작업들을 병렬로 실행할 수 있는 기능입니다. 병렬 처리란 동시에 여러 작업을 실행하여, 작업의 처리 시간을 단축 시키는 방법을 말합니다. Airflow에서는 작업을 병렬로 실행하기 위해, 병렬성(Parallelism)과 동시성(Concurrency) 개념을 사용합니다. 병렬성(Parallelism) Airflow에서 동시에 실행 가능한 작업의 최대 개수를 제어하는 설정 값 동시성(Concurrency) Airflow 스케줄러에서 제어되며, 작업을 실행할 수 있는 동시 작업수를 제어하는 설정 값 작업들 사이의 의존성 및 리소스 제약에 따라 조정이 가능 위의 설정값들은 Airflow의 설정 파일 (airflow.cfg)에서 설.. 2023. 7. 17.
Class를 활용한 Custom Operator 생성 베하!! 반갑습니다~ 인사통의 BTC_김회장, 최총무입니다!! 오늘은 Airflow Dag를 생성할때 사용할 Operator를 Custom으로 생성해보겠습니다! Operator에 대한 기초적인 설명은 앞서 문땅훈과 루피팀이 작성해주신 포스팅을 참고해주세요~ Airflow Operator와 Task 베하 ~! 안녕하세요 문땅훈과 루피입니다! 😆 저번 시간에는 중요한 부분만 골라서 Airflow 구성요소와 동작방식에 대해 설명해드렸는데요~ 이제 본격적으로 Airflow에 대해 알아보도록 합시다 !! btcd.tistory.com 어느정도 구조 파악하셨다면 함께 이번 포스팅 시작해볼까요? 개요 Airflow Operator의 종류 Class를 활용한 Custom Operator 생성 1. Airflow Ope.. 2023. 7. 13.