안녕하세요~! 막내즈입니다!!!!!
오늘은 빅데이터와 관련된 오픈소스인 Hadoop 에 대해서 알아보도록 하겠습니다.
1.1 Hadoop이란?
빅데이터 분석이 쉬워진 것은 하둡이 나오면서 부터입니다.
하둡은 대용량의 데이터를 적은 비용으로 더 빠르게 분석할 수 있는 플랫폼.
정형 데이터 및 사진 영상 등의 비정형데이터를 효과적으로 처리하는 오픈소스 빅데이터 솔루션
1.2 Hadoop의 필요성
하둡은 어떤 수준의 장비든지 하둡을 설치하여 운용할 수 있습니다.
(온프레미스, 대용량, RDBMS 모두 가능)
하둡은 복제본을 저장하기 때문에 유실이나 장에에도 데이터 복구를 할 수 있다는 장점이 있습니다.
- 확장성
- 경제적
- 효율성
- 신뢰성
2.1 HDFS
HDFS : Hadoop Distributed File System 분산 파일 시스템
Hadoop HDFS를 사용하면 대량의 데이터를 다양한 형식으로 저장하고 Hadoop 클러스터 전반에 걸쳐 분산할 수 있습니다. 애플리케이션 데이터에 대한 여러 엑세스를 처리하며 데이터 세트가 큰 애플리케이션에 적합합니다.
2.2 HDFS 특징
- 대용량 데이터를 범용 서버만으로 처리 가능
- 용량 확장성
- 높은 처리량 실현
- 이중화로 인한 데이터 손실 방지
'Database' 카테고리의 다른 글
Apache Superset & 설치 (0) | 2023.05.15 |
---|---|
Airflow 란? (0) | 2023.05.15 |
REDIS (1) | 2022.12.27 |
PostgreSQL에 대하여 (0) | 2022.12.12 |
ETL이란? (0) | 2022.11.18 |
댓글