본문 바로가기
2023 활동 - 4학년/[1월 ~ 4월] sw 아카데미 백엔드 과정

[2023.01.04 / CNU SW 아카데미] 특강.데이터분석 및 AI 기초2

by 은행장 노씨 2023. 1. 4.

두 번째 특강 날이다. 


2강. 데이터 전처리

오늘은 pandas 라이브러리로 데이터 전처리를 하는 법을 배웠다. 

기계학습을 들을 때, 많이 사용했어서 중요한 부분만 간략하게 정리했다.

 

• isna() : 결손값 여부 

• fillna() : 데이터 결손값 처리

• next() : 헤더 제거

 

• groupby() : 데이터 그룹핑

• mean() : 평균 계산

• corr() : 상관 관계 계산

• count() : null 아닌 값의 개수 계산

• describe() : 데이터 간단 분석

• min(), max(), mean(), sum() 

 

• pivot() : 행과 열을 변환 

• sort_values() : 데이터 정렬.

 

 

3강. 데이터 시각화

matplotlib 라이브러리를 이용하여 데이터 시각화에 대해 배운다. 

내가 어떻게 하면 데이터를 잘 표현할 수 있을까? 어떤 형식으로 표현하면 적절할까?

 

• 히스토그램 : 빈도와 비율 표현

• 대화식 다이어그램 

 

* 안좋은 그래프 예시
예 ) 원 그래프에서 확률값이 아님, 후보군을 원 그래프로 표시
예 ) 순위 그래프에서는 값을 높게 올려야한다. 낮을 걸 위로 그려야 한다. 
예 ) 랭킹을 막대 그래프로 그림
예 ) 원 그래프에서 전체 합이 100이 아님

=> 내가 목적을 하는 데이터 형태와 정보를 정확하게 표현해야 한다. 

그래프를 많이 보고, 센스를 키우자.

 

• plot() : 선그래프

• bar() : 막대그래프