본문 바로가기
2023 활동 - 4학년/[1월 ~ 4월] sw 아카데미 백엔드 과정

[2023.01.06 / CNU SW 아카데미] 한 주가 끝났다.

by 은행장 노씨 2023. 1. 6.

classification

K-nearest neighbor 

새로운 데이터와 가장 가까운 k개의 데이터를 보고, 클래스에 라벨링하는 방법

데이터값이 비슷하면 같은 클래스일 것이다. 

직관적으로 분류 문제를 풀 수 있다.

 

경계값은 분류가 어렵다.

 

KNN 한계  
- k를 얼마로 잡냐에 따라 결과값이 바뀔 수 있다.
- 경계값은 분류가 어렵다. 

 

Clustering

지도학습, 비지도 학습, 강화학습이 있었다.

차원을 축소하거나 표현하는 것도 비지도 학습의 일종이다. 클러스터링은 비지도 학습의 일종이 되겠다. 비슷한 애들끼리 세 개의 그룹으로 나눠봐라. 답이 없다. 레이블이 없기 때문이다. 

 

K-means clustering

데이터 간의 거리를 계산했을 때, 가장 가까운 내부거리를 가지도록 하는 것

 

Gaussian mixture clustering

자연에 있는 데이터의 분포가 정규 분포를 따른다. 

데이터들도 정규 분포를 따를 것이다. 가장 가까운 것 끼리 모으는 것도 의미가 있지만, k 개의 정규분포로 표현될 수 있도록 분류한다. 

 

- 데이터가 k 개의 Gaussian으로 구성되어 있다고 할 때, 가장 데이터를 잘 설명하는 k 개의 평균과 covariance를 찾는 알고리즘이다. 


6강. 딥러닝을 통한 데이터 분석

데이터, 경험을 가지고 모델을 학습해 나가는 기계학습, 그 안에 딥러닝이 있다.

딥러닝은 뉴럴 네트워크를 모방한다. 인기를 끌지 못하다가 10년 전쯤 인기를 끌게 되었다. 딥러닝이 영상처리 분야에서 아주 뛰어난 성능을 보여줬다.

 

Perceptron

사람의 뇌를 분석한다. -> 어떻게 신호가 전달됐을까?

 

Activation function

활성화 함수다. 

어떤 값에서는 반응을 하지 않다가 범위를 넘어가면 반응하더라. 

처음에는 sigmoid 함수를 사용했다. 뉴런은 실제로 sigmoid 함수처럼 반응하더라. 

하지만 학습을 시켜 보니까 잘 안 됐다. 다른 곳에서 돌파구를 찾게 된다.

 

가장 많이 쓰이는 것은 ReLU 이다. 

 

Multilayer Perceptron(MLP)

각 신호 값에다가 노드 사이에 weight들이 존재한다. 

input 신호에 대한 output을 반환한다. 노드 사이에는 퍼셉트론이다. non linear 형식을 따른다. 복잡한 함수가 input에 대한 복잡한 문제를 풀 수 있는 모델이 된다. 

 

여러 개의 클래스를 분류할 때 마지막 활성화 함수로 softmax함수를 사용한다. 

결과값이 실제와 얼마나 차이가 나는지로 학습을 해야 한다. 

학습한다 == weight를 학습한다. 

 

Backpropagation

각각의 w가 loss function에 얼마만큼 기여했는지, 

미분값을 어떻게 계산하느냐. => 역전파