본문 바로가기
IT KNOWLEDGE

인프라 엔지니어가 봐야할 운영 업무 (1)

by BTC-손준영 2022. 12. 16.

안녕하세요!

막내가최고야 팀입니다~

지난 차시에는 최근에 화재가 있었던 데이터 센터를 설명드렸는데요,

이번차시에는 엔지니어가 인프라 운영을 어떻게 진행해야 하는지 알아보겠습니다!


 

 

 

 

인프라 운영에는 인프라의 장애 감시 및 대응

수용량 최적화 및 장애 예방 등이 있는데요 

운영업무중 장애가 생기면 서비스가 중단될수도있기때문에 예방이 중요한데 이부분 자세하게 알아보겠습니다!

 

 

 

 

1. 장애 대응
인프라 엔지니어에는 당연히 감시 솔루션은 장애 선 감지를 위해 많은 비중을 차지하는 도구인데요!

장애를 대응하는 방법은 크게 아래와 같다고 볼수있슴다.

  • 하드웨어는 언젠가 반드시 고장이 난다는 생각때문에 가능한 무중단 서비스 하도록 하는 방향으로 해야함
    • 서비스를 가동한 채로 이중화된 부품 중 고장난 부품을 교환할 수 있는 핫스왑
    • 이상 감지하면 자동으로 보정하는 ECC 기능

 

2. 병목
일반적으로 IT시스템에서는 병목이 한 군데만 있어도 시스템 전체의 응답 속도에 악영향을 끼친다고합니다.

그러면 시스템에서 병목이 일어나기 쉬운 부분을 알아야하는데 쉬운 부분은 아래와 같아요

  • 코어 스위치의 수용량
  • L2 스위치의 수용량
  • 웹 서버의 메모리 부족
  • 데이터베이스 서버의 CPU 메모리 부족
  • 데이터베이스 서버의 디스크 I/O 포화

 

2-1 네트워크 장비의 병목 문제

시스템 뿐 아니라 네트워크장비도 병목 현상이 생기는데요 사전 조사 방법은 아래와 같습니다.

  • 각 포트의 물리 인터페이스의 속도가 트래픽을 감당하는지
  • 네트워크 장비의 전송 능력에 한계는 없는지

 

2-2 예시의 병목 현상에 대한 해결

  • 프론트엔드 서버의 응답률이 저하
    • 조사 방법
      • 각 서버의 응답 시간을 정기적으로 가져와 극단적 저하가 있는지 확인
      • 사용자로부터 응답 속도에 관한 질문이 들어왔는지 확인
        • 대책
          • 우선 프론트 서버 문제인지 백엔드 서버 문제인지 확인
            • 백엔드
              • CPU,Memory,Disk,Network 실시간 이용 상황을 보고
              • 위 사항이 아닐 경우 프론트 엔드 서버 문제 의심
            • 하드웨어 리소스를 많이 사용하는 서버를 파악하면 다음 원인 분석
              • 리소스 부족
              • 애플리케이션 문제
              • 하드웨어 고장

2-3 하드웨어 리소스가 부족할 경우 조치 방안

  • CPU
    • CPU 소켓 수 혹은 코어 수 확장
    • CPU 수를 늘릴 수 없을 때는 속도가 빠른 CPU로 교체
    • 서버 자체를 상위 기종으로 교체하거나 서버 수를 늘려 분산
  • Memory
    • 설치 용량 증설
  • Network
    • 복수의 네트워크 인터페이스를 묶어 네트워크 대역 확장
  • DISK
    • 더 빠른 스토리지를 도입하거나 하드디스크를 SSD와 엔터프라이즈 플래시 메모리 같은 고속 디스크 교체

 

 

이번 차시에는 장애 대응및 조치 방안에 대해 알아보았는데요,

다음차시엔 MSP(managed service provider)에 대해 알아보겠습니다.

 

다음에 봐요!~

 

 

 

댓글