Airflow

[Airflow] 에어플로우 worker 중단 현상 해결 Ver.2

쫄보삽질러 2021. 12. 12. 12:47

문제발생

2021.12.09 기준 전날부터 딥러닝 모델 학습 DAG의 Task들이 돌지 않는 현상 발생.

=> 이는 Workstation에 있는 airflow worker가 작동하지 못하고 있기 때문.

 

 

1. Workstation worker 프로세스 확인

$ ps aux |grep rnn

=> 다행히 프로세스가 죽지 않고 정상 작동하고 있음을 확인.

 

 

2. airflow main 서버에서 scheduler와 redis 프로세스 확인.

$ ps aux |grep scheduler
$ ps aux |grep redis

 

3. airflow nohup.out 로그 확인

# workstation
$ cd /data/airflow
$ tail -100f nohup_dl_dags.out

⇒ 전날(21.12.08)에 인터넷 끊김 현상 때문에 ECS airflow worker fargate와 airflow main Ec2서버, workstation queue 통신이 끊긴 것. 따라서, queue에서 task를 가져와서 수행하는 작업이 이루어지지 않음.

 

 

해결방법

airflow worker를 죽이고, 다시 띄워주기

$ kill -9 {PID}
$ cd /data/airflow
$ nohup airflow worker -q rnn &> nohup_dl_dags.out &

 

🌟 이후에도 worker를 재실행할 때 편하게 쓸 수 있도록,

위 명령어를 Shell script 파일로 만들어서 저장해두기.

 

 

- 이상 오늘의 삽질일기 끝!

 


여기저기 삽질도 해보고

날려도 먹으면서

배우는 게

결국 남는거다

- Z.Sabziller

 

반응형