-
[Airflow] 에어플로우 worker 중단 현상 해결 Ver.2Airflow 2021. 12. 12. 12:47728x90
문제발생
2021.12.09 기준 전날부터 딥러닝 모델 학습 DAG의 Task들이 돌지 않는 현상 발생.
=> 이는 Workstation에 있는 airflow worker가 작동하지 못하고 있기 때문.
1. Workstation worker 프로세스 확인
$ ps aux |grep rnn
=> 다행히 프로세스가 죽지 않고 정상 작동하고 있음을 확인.
2. airflow main 서버에서 scheduler와 redis 프로세스 확인.
$ ps aux |grep scheduler $ ps aux |grep redis
3. airflow nohup.out 로그 확인
# workstation $ cd /data/airflow $ tail -100f nohup_dl_dags.out
⇒ 전날(21.12.08)에 인터넷 끊김 현상 때문에 ECS airflow worker fargate와 airflow main Ec2서버, workstation queue 통신이 끊긴 것. 따라서, queue에서 task를 가져와서 수행하는 작업이 이루어지지 않음.
해결방법
airflow worker를 죽이고, 다시 띄워주기
$ kill -9 {PID}
$ cd /data/airflow $ nohup airflow worker -q rnn &> nohup_dl_dags.out &
🌟 이후에도 worker를 재실행할 때 편하게 쓸 수 있도록,
위 명령어를 Shell script 파일로 만들어서 저장해두기.
- 이상 오늘의 삽질일기 끝!
여기저기 삽질도 해보고
날려도 먹으면서
배우는 게
결국 남는거다
- Z.Sabziller
'Airflow' 카테고리의 다른 글
[Airflow] xcom variable return_value 반환 에러 (0) 2022.03.15 [Airflow] Task in the 'queued' state(feat. 에어플로우 중단 현상) (0) 2022.03.09 [Airflow] 에어플로우 worker 중단 현상 해결 (0) 2021.11.19 [Airflow] 에어플로우 DAG Dynamically Generate Serial Tasks (feat. 직렬화 처리) (0) 2021.09.24 [Airflow] 에어플로우 Main, MySQL 서버 IP 주소 변경으로 인한 Airflow woker 실행 문제 해결(Feat. Docker container) (0) 2021.09.07