Google Cloud 에서 TCP LB에서 갑자기 Instance Group에 대해서 Health Check가 계속 Fail이 나는 현상이 발생할 수 있다.

 

이는 VM 내부에서 패키지나 서비스 업데이트가 일어나면서 systemd-networkd.service(network 서비스)가 restart 되면서 google guest agent가 추가한 route table이 모두 초기화되는 것이 원인이다.

 

TCP LB는 VM에서 LB로 Health Check를 날리는데, Route Table에 LB IP가 없으니 Time Out으로 실패한다.

 

2021/04/06 이후로 google guest agent가 패치 되어서 해당 문제는 수정되었다.

 

 

guest agent 버전 확인 : dpkg -l | grep guest
guest agent 상태 확인 : systemctl status google-guest-agent.service 또는 service google-guest-agent status
guest agent 서비스 재시작 : systemctl restart google-guest-agent.service 또는 service google-guest-agent restart
 

이 경우, google-guset-agent.service를 restart 하여서 조치하면 된다.

https://github.com/GoogleCloudPlatform/guest-agent/issues/103

https://github.com/GoogleCloudPlatform/guest-agent/pull/104