개발 실습 및 프로젝트

파이썬을 사용한 데이터 분석 기초

코드로 칼퇴하기 2024. 5. 20. 20:14
반응형

파이썬을 사용한 데이터 분석 기초

데이터 분석이란?

데이터 분석은 데이터에서 유의미한 정보를 추출하고, 이를 바탕으로 의사 결정을 내리는 과정을 의미합니다. 데이터 분석은 다양한 분야에서 중요한 역할을 하며, 특히 비즈니스 인텔리전스, 금융, 마케팅, 의료 등에서 널리 사용됩니다.

파이썬을 사용하는 이유

파이썬은 간결하고 읽기 쉬운 문법을 가지고 있어 데이터 분석에 적합합니다. 또한, 다양한 데이터 분석 라이브러리를 제공하여 효율적으로 데이터를 처리하고 시각화할 수 있습니다.

주요 라이브러리 소개

  1. Pandas: 데이터 조작 및 분석을 위한 고성능 라이브러리.
  2. NumPy: 대규모 다차원 배열과 행렬 연산을 지원하는 라이브러리.
  3. Matplotlib: 데이터 시각화를 위한 2D 그래프 라이브러리.
  4. Seaborn: 통계적 데이터 시각화를 위한 라이브러리로, Matplotlib 기반.

데이터 분석 실습

  1. 필수 라이브러리 설치
  2. pip install pandas numpy matplotlib seaborn
  3. Pandas를 사용한 데이터 로드 및 기본 탐색
    • 출력 결과 예시:
      Column1 Column2 Column3 Column4 Column5
      1 0.5 A 10 0.1
      2 0.6 B 15 0.2
      3 0.7 A 20 0.3
      4 0.8 B 25 0.4
      5 0.9 A 30 0.5
    • <class 'pandas.core.frame.DataFrame'> RangeIndex: 100 entries, 0 to 99 Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Column1 100 non-null int64 1 Column2 100 non-null float64 2 Column3 100 non-null object 3 Column4 100 non-null int64 4 Column5 100 non-null float64 dtypes: float64(2), int64(2), object(1) memory usage: 4.0+ KB
  4. import pandas as pd # 데이터 로드 data = pd.read_csv('your_dataset.csv') # 데이터 프레임의 기본 정보 확인 print(data.info()) # 데이터 프레임의 첫 5행 출력 print(data.head())
  5. 기초 통계량 계산
    • 출력 결과 예시:
               Column1      Column2      Column4     Column5
        count  100.000000  100.000000  100.000000  100.000000
        mean    50.500000    0.750000   50.000000    0.300000
        std     29.011492    0.200000   28.867513    0.158114
        min      1.000000    0.500000    1.000000    0.100000
        25%     25.750000    0.625000   25.000000    0.200000
        50%     50.500000    0.750000   50.000000    0.300000
        75%     75.250000    0.875000   75.000000    0.400000
        max    100.000000    1.000000  100.000000    0.500000
  6. # 기초 통계량 계산 print(data.describe())
  7. 데이터 전처리
  8. # 결측값 처리 data = data.fillna(method='ffill') # 필요 없는 열 삭제 data = data.drop(columns=['unnecessary_column'])
  9. 데이터 시각화
  10. # 상관 행렬 히트맵 plt.figure(figsize=(12, 8)) sns.heatmap(data.corr(), annot=True, fmt='.2f') plt.title('Correlation Matrix') plt.show()
  11. import matplotlib.pyplot as plt import seaborn as sns # 히스토그램 plt.figure(figsize=(10, 6)) sns.histplot(data['Column2'], bins=30) plt.title('Distribution of Column2') plt.xlabel('Column2') plt.ylabel('Frequency') plt.show()
  12. 간단한 데이터 분석 예제
    • 출력 결과 예시:
                Column1  Column2  Column4  Column5
        Column3                                    
        A        52.5     0.8     55.0     0.3
        B        48.5     0.7     45.0     0.3
  13. # 특정 조건에 따른 데이터 필터링 filtered_data = data[data['Column2'] > 0.75] # 그룹화 및 집계 grouped_data = data.groupby('Column3').mean() print(grouped_data)

파이썬을 사용한 데이터 분석은 다양한 데이터 세트를 다루고, 이를 통해 의미 있는 인사이트를 도출할 수 있는 강력한 도구입니다. 위의 실습 예제를 통해 기본적인 데이터 분석 과정을 익히고, 실제 데이터 분석에 적용해 보세요. 추가적인 질문이나 도움이 필요하시면 언제든지 댓글로 남겨주세요. 감사합니다!