2 분 소요

페이스북 장애?

  • 페이스북 과 계열 서비스인 인스타그램 , 왓츠맨 등 4일 동부 시간 11시 40분 부터 약 7 시간 동안 장애 발생
  • 정확한 장애 원인은 공식적으로 발표 되지 않고 있음
  • 일부 사이트에서는(블라인드 등..) 사원증 테그 오류 및 원격 접속 등으로 장애 지연 발생
  • 공식적인 발표는 없으나, BGP 오류로 인한 장애로 지목 되고 있음
  • 관련 기사 :
    • https://m.khan.co.kr/world/world-general/article/202110051016001#c2b
    • http://it.chosun.com/site/data/html_dir/2021/10/06/2021100601589.html

장애 원인으로 지목된 BGP 란?

  • BGP(Border Gateway Protocol) ?
    • 내비게이션을 통하여 도착 지점의 최적의 경로를 찾듯 지속적으로 업데이트되는 내비게이션과 같음
    • 서로다른 AS(autonomous system) 사이에서 사용 되는 라우팅 프로토콜
    • 대륙 또는 기업/ISP 간 AS 의 라우팅 정보를 교환하는 데 사용
    • TCP 포트 179번 사용, 유니캐스트 방식으로 교환
    AS 란 : 
      - 독립적으로 운영(ISP 같은..) 하는 네트워크 
      - IRP(Interior Router Protocol) : AS 내에 라우터들 간의 라우팅 정보 교환을 위한 프로토콜 
      - ERP(Exterior Router Protocol) : 다른 AS에 속하는  라우터들  간에  라우팅  정보  교환을 위한 프로토콜
    
  • BGP Peer 종류
    • eBGP(external BGP) : 서로 다른 AS 사이에서 BGP를 구성하는 경우
    • iBPG(internal BGP) : 동일 AS 안에서 BPG를 구성하는 경우

BGP 문제가 장애의 원인이 맞는가?

  • 글로벌 장애로 내/외부 접속 불가 사태로 보았을때 네트워크 문제일 가능성이 큼
  • BGP 공유는 각 기업/ISP 등의 설정 방식에 따라 다르며, 복구 시간이 긴 것도 같은 원인일 듯
  • 일부 접속 가능 한 지역 이 있는 것으로 봐서 BGP 정보가 업데이트 전이거나 빠르게 정삭적인 BGP 정보가 업데이트 되지 않았을까? 추측

페이스북 공식 장애 원인

  • 마케팅 책임자 안젤리크 메디나는 “백본 네트워크 장애에 대한 자동화된 대응 조치가 DNS 고장을 일으킨 것으로 보인다”
  • 공식 블로그 내용
      안정적인 작동을 보장하기 위해 DNS 서버는 자체 데이터 센터와 통신할 수 없는 경우 해당 BGP 광고를 비활성화합니다. 
      이는 네트워크 연결이 비정상임을 나타냅니다. 
      최근 장애에서 전체 백본이 작동에서 제거되어 이러한 위치가 스스로를 비정상이라고 선언하고 해당 BGP 광고를 철회했습니다. 
      최종 결과는 DNS 서버가 여전히 작동 중임에도 불구하고 연결할 수 없다는 것이었습니다. 
      이로 인해 나머지 인터넷에서 우리 서버를 찾을 수 없었습니다. 
    
  • https://www.ciokorea.com/news/210044#csidx807a1e5da143e8aa013b58711818605
  • https://engineering.fb.com/2021/10/05/networking-traffic/outage-details/

정리하자면…

  • 휴먼 장애를 방지하기 위한 시스템이 비정상적으로 작동하여, 자동으로 제거 되는 시스템이 정상적으로 작동 되며 발생된 장애
  • 장애 처리하고자 외부에 접근 하려 했으나, 여러 보안 시스템에 의해 접근 불가 하였으며, 데이터 센터로 들어 가는 시간도 보안 시스템 으로 시간 지연 발생
  • 한번에 서비스 활성화 하면 트래픽 급증 할수 있으나, 자체 “storm”(카오스 엔지니어?? 말하는건가?) 훈련을 통하여 정해진 시나리오대로 추가적인 장애 없이 빠르게 복구 됨

교훈을 찾자면…

  • 공식 블로그 내용
    네트워크 내에서 상호의존성이 너무 커서 전체 서비스 아키텍처의 한 부분에서 발생한 작은 문제가 엄청난 파급효과를 낳는다"
    다수의 기업들이 내부 서비스를 많이 사용하는데, 이 때문에 예기치 않은 결과가 초래될 수 있다
    
  • 어느 부분에서든 장애를 유발할 수 있으며, 장애 원인을 빠르게 찾는 구성과 장애가 발생할 수 있는 취약점을 찾아 끊임 없는 개선과 더불어 카오스 엔지니어링을 통한 수 많은 이벤트에 대한 시뮬레이션과 훈련을 통하여 이벤트를 대비 하는게 좋치 않을까.
    사람에 의한 장애가 많을까. 사람의 리스크를 줄이고자 만든 시스템에 의한 장애가 많을까. 
    나도 접근 불가한 완벽한 보안 프로세스를 적용하는게 좋을까. 나만이라도 접근 가능한 보안 구성이 좋을까
    아슬아슬한 줄타기...

참고 URL : https://www.itworld.co.kr/t/62078/%EB%84%A4%ED%8A%B8%EC%9B%8C%ED%81%AC/181614

댓글남기기