안녕하세요!
막내가최고야 팀입니다~
지난 차시에는 최근에 화재가 있었던 데이터 센터를 설명드렸는데요,
이번차시에는 엔지니어가 인프라 운영을 어떻게 진행해야 하는지 알아보겠습니다!
인프라 운영에는 인프라의 장애 감시 및 대응
수용량 최적화 및 장애 예방 등이 있는데요
운영업무중 장애가 생기면 서비스가 중단될수도있기때문에 예방이 중요한데 이부분 자세하게 알아보겠습니다!
1. 장애 대응
인프라 엔지니어에는 당연히 감시 솔루션은 장애 선 감지를 위해 많은 비중을 차지하는 도구인데요!
장애를 대응하는 방법은 크게 아래와 같다고 볼수있슴다.
- 하드웨어는 언젠가 반드시 고장이 난다는 생각때문에 가능한 무중단 서비스 하도록 하는 방향으로 해야함
- 서비스를 가동한 채로 이중화된 부품 중 고장난 부품을 교환할 수 있는 핫스왑
- 이상 감지하면 자동으로 보정하는 ECC 기능
2. 병목
일반적으로 IT시스템에서는 병목이 한 군데만 있어도 시스템 전체의 응답 속도에 악영향을 끼친다고합니다.
그러면 시스템에서 병목이 일어나기 쉬운 부분을 알아야하는데 쉬운 부분은 아래와 같아요
- 코어 스위치의 수용량
- L2 스위치의 수용량
- 웹 서버의 메모리 부족
- 데이터베이스 서버의 CPU 메모리 부족
- 데이터베이스 서버의 디스크 I/O 포화
2-1 네트워크 장비의 병목 문제
시스템 뿐 아니라 네트워크장비도 병목 현상이 생기는데요 사전 조사 방법은 아래와 같습니다.
- 각 포트의 물리 인터페이스의 속도가 트래픽을 감당하는지
- 네트워크 장비의 전송 능력에 한계는 없는지
2-2 예시의 병목 현상에 대한 해결
- 프론트엔드 서버의 응답률이 저하
- 조사 방법
- 각 서버의 응답 시간을 정기적으로 가져와 극단적 저하가 있는지 확인
- 사용자로부터 응답 속도에 관한 질문이 들어왔는지 확인
- 대책
- 우선 프론트 서버 문제인지 백엔드 서버 문제인지 확인
- 백엔드
- CPU,Memory,Disk,Network 실시간 이용 상황을 보고
- 위 사항이 아닐 경우 프론트 엔드 서버 문제 의심
- 하드웨어 리소스를 많이 사용하는 서버를 파악하면 다음 원인 분석
- 리소스 부족
- 애플리케이션 문제
- 하드웨어 고장
- 백엔드
- 우선 프론트 서버 문제인지 백엔드 서버 문제인지 확인
- 대책
- 조사 방법
2-3 하드웨어 리소스가 부족할 경우 조치 방안
- CPU
- CPU 소켓 수 혹은 코어 수 확장
- CPU 수를 늘릴 수 없을 때는 속도가 빠른 CPU로 교체
- 서버 자체를 상위 기종으로 교체하거나 서버 수를 늘려 분산
- Memory
- 설치 용량 증설
- Network
- 복수의 네트워크 인터페이스를 묶어 네트워크 대역 확장
- DISK
- 더 빠른 스토리지를 도입하거나 하드디스크를 SSD와 엔터프라이즈 플래시 메모리 같은 고속 디스크 교체
이번 차시에는 장애 대응및 조치 방안에 대해 알아보았는데요,
다음차시엔 MSP(managed service provider)에 대해 알아보겠습니다.
다음에 봐요!~
'IT KNOWLEDGE' 카테고리의 다른 글
인프라 엔지니어가 봐야할 대규모 운영업무 (1) (0) | 2022.12.16 |
---|---|
인프라엔지니어 가 봐야할 운영 업무 (2) (0) | 2022.12.16 |
CWPP(클라우드 워크로드 보안 플랫폼) (0) | 2022.12.15 |
SLA(Service Level Agreement)란 (0) | 2022.12.13 |
SSL/TLS 보안에 대해 알아보자! (0) | 2022.12.07 |
댓글