본문 바로가기
Programming/Python

Python Pandas

by BTC_하동녹차 2024. 1. 2.

베하~! BTC_녹차공원 팀의 하동녹차 입니다.

이번주는 Python Pandas 에 대해 알아 보겠습니다.

 

 

Python Pandas

 

Pandas는 Python에서 데이터 분석과 처리를 위한 라이브러리 입니다.
주로 테이블 형태의 데이터를 처리하고 분석하는데 사용되며, 빠르고 유연한 데이터 구조를 제공하며

특히, 빅 데이터를 처리하거나 복잡한 데이터 분석 작업을 수행할 때 효과적입니다.

 

 

 

 

Pandas 주요 특징

 

1. 데이터 구조

  • Pandas의 핵심 데이터 구조는 Series와 DataFrame입니다.
  • Series: 1차원 배열과 유사한 자료구조로, 인덱스를 갖습니다.
  • DataFrame: 2차원 테이블 형태의 자료구조로, 여러 개의 Series를 포함하며, 각 열은 다른 데이터 타입을 가질 수 있다.

 

2. 데이터 읽기 및 쓰기

  • 다양한 데이터 소스(예: CSV, Excel, SQL 데이터베이스)에서 데이터를 읽고 쓸 수 있는 기능을 제공합니다.

 

3. 데이터 정제 및 변환

  • 누락된 데이터 처리, 데이터 형 변환, 데이터 정렬, 필터링 등 다양한 데이터 처리 기능을 제공합니다.

 

4. 데이터 병합 및 연결

  • 여러 데이터 소스나 다른 DataFrame의 데이터를 병합하거나 연결할 수 있습니다.

 

5. 데이터 집계 및 그룹화

  • 통계적 요약, 그룹별 연산, 피벗 테이블 등을 통해 데이터를 집계하고 분석할 수 있습니다.

 

6,데이터 시각화

  • Matplotlib나 Seaborn과 같은 시각화 라이브러리와 통합하여 데이터를 쉽게 시각화할 수 있습니다.

 

 

 

 

Pandas 활용 분야

 

Python Pandas는 다양한 분야에서 데이터 처리 및 분석에 활용되며,

특히 다음과 같은 주요 활용 분야에서 널리 사용됩니다:

 

1. 데이터 과학

  • 데이터 수집, 정제, 분석, 시각화 등의 작업을 수행할 때 Pandas는 필수적인 도구로 자리 잡았습니다.
    데이터 과학자들은 Pandas를 통해 대규모 데이터셋을 쉽게 처리하고 분석할 수 있습니다.

 

2. 금융 분석

  • 주식, 채권, 파생상품 등 금융 데이터를 분석하고 처리하는 데 Pandas가 주로 사용됩니다.
    시계열 데이터 처리, 포트폴리오 분석, 리스크 관리 등에 활용됩니다.

 

 

3. 데이터베이스 연동

  •  SQL 데이터베이스와 연동하여 데이터를 추출하거나 저장하는 데에도 Pandas가 활용됩니다.

 

 

4. 머신러닝 및 딥러닝

  • 데이터 전처리 단계에서 Pandas를 사용하여 데이터를 준비하고, 모델 학습 및 평가를 위한 데이터셋을 구성하는 데에 활용됩니다.

 

 

5. 시각화

  • Pandas는 데이터 시각화 라이브러리(Matplotlib, Seaborn 등)와 연동하여, 통계적 그래프나 차트를 생성하는 데에도 사용됩니다.

 

 

 

 

Python Pands 실습

 

Python의 pandas를 사용하는 실습을 진행해보겠습니다! 

 

1. Excel 파일 쓰기

Python의 pandas를 사용하여 데이터를 Excel 파일로 저장하는 실습을 해보겠습니다.

 

실습 코드 입니다.

import pandas as pd

# 데이터 생성
data = {
    '학생명': ['홍길동', '김철수', '이영희'],
    '과목1(국어)': [90, 78, 85],
    '과목2(수학)': [85, 92, 87],
    '과목3(영어)': [88, 80, 90]
}

df = pd.DataFrame(data)

# DataFrame을 Excel 파일로 저장
df.to_excel('student_scores.xlsx', index=False)

 

 

위의 코드를 실행하면 student_scores 이름의 Excel 파일이 생성 됩니다.

 

student_scores 의 내용을 확인 해보겠습니다.

위와 같이 데이터가 잘 생성 된 것을 확인 할 수 있습니다.

 

 

2. Excel 파일 읽기
Python의 pandas를 사용하여 위에서 생성한 Exce 데이터를 읽는 실습을 해보겠습니다.

실습 코드 입니다.

import pandas as pd

df = pd.read_excel('student_scores.xlsx', sheet_name='Sheet1')

# DataFrame 출력
print(df)

 

아래와 같이 데이터를 잘 읽어 오는 것을 확인 할 수 있습니다.

 

 

 

끝!

 

이번에는 Python Pandas 에 대한 주제로 간단한 실습과 함께 찾아왔는데요.

다음에는 더욱 재밌는 주제로 찾아오도록 하곘습니다.

 

이상 BTC_녹차공원 팀이였습니다!

베빠~!

 

 

'Programming > Python' 카테고리의 다른 글

[Django] {%block%} 태그  (0) 2024.01.15
virtualenv 명령어 실행 또는 가상환경이 생성되지 않는 경우  (0) 2024.01.05
Python Flask 란?  (0) 2023.12.22
[Python] pymysql 사용하기  (0) 2023.12.11
Python의 Generators  (1) 2023.12.07

댓글