본문 바로가기

인사통27

Bigquery UDF 활용 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다. 오늘은 Bigquery UDF를 사용해보겠습니다! 개념부터 간단한 활용문을 작성할테니 함께 진행해보시죠 Bigquery UDF란? Bigquey UDF(User-Defined Function)란 SQL 표현식이나 JavaScript 코드를 활용하여 간단한 함수를 생성하는것으로 UDF를 통해 함수를 만들어 두게 되면 복잡한 로직을 더욱 간결하게 표현할 수 있고, 코드의 일관성을 유지할 수 있어 빅쿼리 활용에 도움이 됩니다!! UDF 자체의 저장비용은 없으며, 데이터 처리에 따라 비용이 발생하게 됩니다!! 하지만 저장 비용이 없다고 무분별하게 많이 생성하게 되면 디버깅이나 유지관리에 어려움이 있을 수 있으니 이런점 고려하여 사용이 필요하겠습니다 B.. 2024. 3. 31.
정규표현식 플래그 활용 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다!! 오늘은 지난 시간에 이어 정규표현식의 플래그에 대해서 간단히 알아보고 예시를 통해 설명드리는 시간을 가지겠습니다!! 정규표현식에 대한 개념을 아직 안보셨다면 아래 포스트를 먼저 읽어보시면 도움이 될것 같아요 정규표현식 활용 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다!! 오늘은 정규표현식에 대해서 간단히 알아보고 예시를 통해 설명드리는 시간을 가질거에요~ 간단히 개념부터 알려드리겠습니다!! 정규표 btcd.tistory.com 정규표현식 플래그란? 정규표현식이 특정한 규칙을가진 문자열의 집합을 표현할때 사용하는 형식 언어라고 말씀 드렸죠? 이러한 규칙을 가진 문자열을 검색하는 과정에서 검색 방식을 조정하기 위해 사용되는 옵션이 .. 2024. 2. 23.
정규표현식 활용 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다!! 오늘은 정규표현식에 대해서 간단히 알아보고 예시를 통해 설명드리는 시간을 가질거에요~ 간단히 개념부터 알려드리겠습니다!! 정규표현식이란? 정규표현식에 대해 들어보셨나요? 정규 표현식은 입력된 문자열이 특정 조건을 표현할 경우 매우 간단하게 표현할 수 있는 형식 언어입니다! 이렇게 말해도 감이 잘 안오실수도 있는데요.. 핵심은 문자열 패턴을 정해진 표현식에 맞게 처리하는 작업이라고 볼 수 있습니다! 구조가 복잡하기 때문에 처음 작성하는데는 어려움이 있을 수 있지만 작성해두면 자동화된 시스템을 구축하는데 큰 도움이 됩니다!! 정규 표현식에 대해 알기 위해서는 메타 문자에 대해 꼭 알아야 합니다!!함께 진행해볼까요? 메타 문자 메타 문자는 정규 표.. 2024. 1. 21.
Duet AI Bigquery 활용 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다!! 오늘은 GCP의 최신 기술 중 하나인 Duet AI를 BQ에 적용해서 함께 사용해볼거에요~ 한번 같이 살펴볼까요? Duet AI란? Duet AI에 대해 들어보셨나요? 이번 Google Cloud Summit Seoul 2023 행사에서도 구글이 강조한 기능인데요!! 간단히 설명하면 구글의 플랫폼 사용자를 AI가 지원하는 기능이라고 볼 수 있습니다. 특히 업무적으로는 클라우드 사용과 코드 작성에 어려움이 있는 사용자에게도 쉽게 구글의 서비스를 활용 할 수 있도록 지원해줍니다! 가장 쉽게 찾아볼 수 있는건 GCP 콘솔에서 검색 창 옆에 있는 Open Duet AI 기능이겠네요!! 이 기능은 GCP의 기능이나 사용 방법에대해 편하게 물어볼 수 있.. 2024. 1. 5.
Bigquery Table 속성 일괄 수정 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다!! 오늘은 Bigquery Table를 일괄 수정하는 방법을 함께 배워나갈거에요~ 업무적으로 되게 자주 사용하게 될 내용이니 꼭 익혀가시길 바래요!! Table 속성 수정하기 아마 익숙하지 않은 상태로 처음 이 과제를 받게 되면 콘솔을 먼저 살펴보시게 될거에요! 하지만 처음 수정을 위해 table의 세부정보를 수정하려하면 수정할 수 있는 항목이 적어서 당황하실거에요.. 하지만 만약 파티션 기준이나 Clustering field와 같은 내용을 고치고 싶다면 어떻게 해야 할까요? 이때는 Alter table 명령어를 사용해서 수정할 수 있습니다. ALTER TABLE mydataset.mytable SET OPTIONS ( description = .. 2023. 12. 27.
Airflow 환경 이전 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다!! 오늘은 Airflow 환경을 이전한다고 가정하고 환경 이전을 해보겠습니다!! 실무에서 꽤 사용하는 내용이니 기억해주세요~ 1. 수정 권한 확인 각자 User마다 가진 권한에 따라 Airflow Webserver상 확인 할 수 있는 카테고리가 다릅니다. 아마 데이터 엔지니어 역할을 하고 있다면 Admin 권한이 있어 Security나 Admin 등 중요한 항목까지 보이게 될텐데요! 다음과 같이 Security와 Admin이 보이는지 확인해주세요~ 확인이 안된다면 Airflow CLI를 통해 아래 명령어로 권한을 추가할 수 있습니다!! airflow users add-role -e {USER NAME} -r Admin 이제 모든 항목이 보인다면 .. 2023. 12. 24.
Parquet 데이터 수정하기 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다!! 오늘은 Parquet 형태 데이터 및 수정방법 대해 간단히 실습 해보겠습니다! 다음과 같은 형태로 진행하겠습니다!! 개요 Parquet 파일이란? Parquet 데이터 수정하기 1. Parquet 파일이란? Parquet란 데이터 처리 및 분석을 위한 오픈 소스 컬럼 기반 데이터 저장 포맷으로, 대용량 데이터의 저장과 처리에 유용합니다. 주로 하둡 생태계에서 많이 사용됩니다. 장점 1. Column 단위 저장방식으로 대용량 파일 Scan에 효율적 열단위 저장 방식을 통해 특정 열에 대한 검색 및 집계 작업을 최적화 하여 전체 데이터를 스캔하지 않아도 된다. 2. 다양한 압축 기법과 인코딩 형태를 지원 상황에 맞는 다양한 압축 기법을 제공해 편.. 2023. 12. 8.
Bigquery 할당량 및 한도 베하~ 반갑습니다!! 인사통의 BTC_김회장, 최총무입니다!! 오늘은 Bigquery의 할당량과 한도에 대해 함께 배워나갈거에요~ 함께 차근차근 진행해보시죠!! Bigquery quota와 limit Bigquery quota는 하드웨어, 소프트웨어, 네트워크 구성요소를 비롯해 Google Cloud 프로젝트가 사용할 수 있는 특정 공유 Google Cloud 리소스의 양을 제한합니다. 이러한 할당량을 초과하는 작업에 대해서는 대부분의 경우 시스템에서 관련 Google 리소스에 대한 액세스를 즉시 차단하고 수행하려는 작업이 실패하게 되어 할당량에 대해 잘 알아두는것이 중요합니다. 할당이 설정된 내용 중 대표적인 사항은 다음과 같습니다. 1. 일일 쿼터와 사용 제한 일일 쿼터는 하루 동안 BigQuery에.. 2023. 11. 24.