S3
-
[Airflow] Airflow-s3 remote logging 설정 방법Airflow 2023. 3. 31. 22:35
Airlfow DAG 실행 시 발생하는 로그들을 S3에 원격으로 적재하는 방법이 있는데, 이번 글에서는 그 설정 방법에 대해서 얘기해보려고 합니다. 1️⃣ 먼저 아래와 같이 aws-cli 명령어로 s3 connection Id를 생성하여 Airflow에 등록해야 합니다. aws-cli airflow connections add 's3_conn' \ --conn-type 's3' \ --conn-extra '{"region": "ap-northeast-2"}' \ 2️⃣ 이후에 airflow.cfg 파일에도 remote_logging 섹션에 위에서 생성한 connection id와 s3 버킷 정보를 입력합니다. airflow.cfg remote_logging = True remote_log_conn_id ..
-
파일 싱크 자동화를 위한 incrontab 스크립트 개발(feat. git->s3)개발Tip 2022. 12. 26. 21:32
도입배경 Airflow에서 실행하는 ETL pyspark 스크립트를 s3 버킷에 저장해두고 사용중이었는데, 그러면 매번 수동으로 파일을 upload해야하고, 파일의 히스토리 및 버전 관리의 필요성을 느낌. 따라서 Git에 파일을 올리고, s3에도 자동으로 업데이트 해주어 싱크를 맞출 수 있는 자동화 시스템을 구현할 수 있는 방법 모색함. 이때 고려했던 점은, 현재 회사에서 bitbucket server를 사용중이므로 GitHub Action를 사용할 수 없었고 Jenkins를 사용해보려고 했으나, 이전에 써보지 않았으므로 러닝커브를 고려하여 구글링을 통해 알게된 incrontab으로 간단하게 스크립트로 짜서 구현하기로함. 개발과정 1. 로컬에서 git에 etl 파일 업도르하면, Airflow 서버에서 c..
-
AWS S3 Bucket 다운로드AWS 2021. 5. 21. 23:15
AWS S3란? Amazon Simple Storage Service. S가 무려 3개나 들어간 SX3로 AWS S3라고 합니다:) 이름에서 볼 수 있듯이 AWS가 제공하는 저장소이며, Bucket 단위로 관리를 할 수 있습니다. AWS에 올라가 있는 이 S3 bucket을 다운로드 하는 방법을 알아보려고 합니다! 1. 먼저 제일 중요한 AWS CLI 설치하기 부터 https://docs.aws.amazon.com/ko_kr/cli/latest/userguide/install-cliv2.html AWS CLI 버전 2 설치, 업데이트 및 제거 - AWS 명령줄 인터페이스 이 페이지에 작업이 필요하다는 점을 알려 주셔서 감사합니다. 실망시켜 드려 죄송합니다. 잠깐 시간을 내어 설명서를 향상시킬 수 있는 방..