Airflow
[Airflow] 에어플로우 worker 중단 현상 해결 Ver.2
쫄보삽질러
2021. 12. 12. 12:47
문제발생
2021.12.09 기준 전날부터 딥러닝 모델 학습 DAG의 Task들이 돌지 않는 현상 발생.
=> 이는 Workstation에 있는 airflow worker가 작동하지 못하고 있기 때문.
1. Workstation worker 프로세스 확인
$ ps aux |grep rnn
=> 다행히 프로세스가 죽지 않고 정상 작동하고 있음을 확인.
2. airflow main 서버에서 scheduler와 redis 프로세스 확인.
$ ps aux |grep scheduler
$ ps aux |grep redis
3. airflow nohup.out 로그 확인
# workstation
$ cd /data/airflow
$ tail -100f nohup_dl_dags.out
⇒ 전날(21.12.08)에 인터넷 끊김 현상 때문에 ECS airflow worker fargate와 airflow main Ec2서버, workstation queue 통신이 끊긴 것. 따라서, queue에서 task를 가져와서 수행하는 작업이 이루어지지 않음.
해결방법
airflow worker를 죽이고, 다시 띄워주기
$ kill -9 {PID}
$ cd /data/airflow
$ nohup airflow worker -q rnn &> nohup_dl_dags.out &
🌟 이후에도 worker를 재실행할 때 편하게 쓸 수 있도록,
위 명령어를 Shell script 파일로 만들어서 저장해두기.
- 이상 오늘의 삽질일기 끝!
여기저기 삽질도 해보고
날려도 먹으면서
배우는 게
결국 남는거다
- Z.Sabziller
반응형