인프라 엔지니어가 봐야할 운영 업무 (1)

안녕하세요!

막내가최고야 팀입니다~

지난 차시에는 최근에 화재가 있었던 데이터 센터를 설명드렸는데요,

이번차시에는 엔지니어가 인프라 운영을 어떻게 진행해야 하는지 알아보겠습니다!

인프라 운영에는 인프라의 장애 감시 및 대응

수용량 최적화 및 장애 예방 등이 있는데요

운영업무중 장애가 생기면 서비스가 중단될수도있기때문에 예방이 중요한데 이부분 자세하게 알아보겠습니다!

1. 장애 대응
인프라 엔지니어에는 당연히 감시 솔루션은 장애 선 감지를 위해 많은 비중을 차지하는 도구인데요!

장애를 대응하는 방법은 크게 아래와 같다고 볼수있슴다.

하드웨어는 언젠가 반드시 고장이 난다는 생각때문에 가능한 무중단 서비스 하도록 하는 방향으로 해야함
- 서비스를 가동한 채로 이중화된 부품 중 고장난 부품을 교환할 수 있는 핫스왑
- 이상 감지하면 자동으로 보정하는 ECC 기능

2. 병목
일반적으로 IT시스템에서는 병목이 한 군데만 있어도 시스템 전체의 응답 속도에 악영향을 끼친다고합니다.

그러면 시스템에서 병목이 일어나기 쉬운 부분을 알아야하는데 쉬운 부분은 아래와 같아요

2-1 네트워크 장비의 병목 문제

시스템 뿐 아니라 네트워크장비도 병목 현상이 생기는데요 사전 조사 방법은 아래와 같습니다.

2-2 예시의 병목 현상에 대한 해결

2-3 하드웨어 리소스가 부족할 경우 조치 방안

CPU
- CPU 소켓 수 혹은 코어 수 확장
- CPU 수를 늘릴 수 없을 때는 속도가 빠른 CPU로 교체
- 서버 자체를 상위 기종으로 교체하거나 서버 수를 늘려 분산
Memory
- 설치 용량 증설
Network
- 복수의 네트워크 인터페이스를 묶어 네트워크 대역 확장
DISK
- 더 빠른 스토리지를 도입하거나 하드디스크를 SSD와 엔터프라이즈 플래시 메모리 같은 고속 디스크 교체

이번 차시에는 장애 대응및 조치 방안에 대해 알아보았는데요,

다음차시엔 MSP(managed service provider)에 대해 알아보겠습니다.

다음에 봐요!~

인프라 엔지니어가 봐야할 대규모 운영업무 (1) (0)	2022.12.16
인프라엔지니어 가 봐야할 운영 업무 (2) (0)	2022.12.16
CWPP(클라우드 워크로드 보안 플랫폼) (0)	2022.12.15
SLA(Service Level Agreement)란 (0)	2022.12.13
SSL/TLS 보안에 대해 알아보자! (0)	2022.12.07

베스핀글로벌 테크센터 블로그