classification
K-nearest neighbor
새로운 데이터와 가장 가까운 k개의 데이터를 보고, 클래스에 라벨링하는 방법
데이터값이 비슷하면 같은 클래스일 것이다.
직관적으로 분류 문제를 풀 수 있다.
KNN 한계
- k를 얼마로 잡냐에 따라 결과값이 바뀔 수 있다.
- 경계값은 분류가 어렵다.
Clustering
지도학습, 비지도 학습, 강화학습이 있었다.
차원을 축소하거나 표현하는 것도 비지도 학습의 일종이다. 클러스터링은 비지도 학습의 일종이 되겠다. 비슷한 애들끼리 세 개의 그룹으로 나눠봐라. 답이 없다. 레이블이 없기 때문이다.
K-means clustering
데이터 간의 거리를 계산했을 때, 가장 가까운 내부거리를 가지도록 하는 것
Gaussian mixture clustering
자연에 있는 데이터의 분포가 정규 분포를 따른다.
데이터들도 정규 분포를 따를 것이다. 가장 가까운 것 끼리 모으는 것도 의미가 있지만, k 개의 정규분포로 표현될 수 있도록 분류한다.
- 데이터가 k 개의 Gaussian으로 구성되어 있다고 할 때, 가장 데이터를 잘 설명하는 k 개의 평균과 covariance를 찾는 알고리즘이다.
6강. 딥러닝을 통한 데이터 분석
데이터, 경험을 가지고 모델을 학습해 나가는 기계학습, 그 안에 딥러닝이 있다.
딥러닝은 뉴럴 네트워크를 모방한다. 인기를 끌지 못하다가 10년 전쯤 인기를 끌게 되었다. 딥러닝이 영상처리 분야에서 아주 뛰어난 성능을 보여줬다.
Perceptron
사람의 뇌를 분석한다. -> 어떻게 신호가 전달됐을까?
Activation function
활성화 함수다.
어떤 값에서는 반응을 하지 않다가 범위를 넘어가면 반응하더라.
처음에는 sigmoid 함수를 사용했다. 뉴런은 실제로 sigmoid 함수처럼 반응하더라.
하지만 학습을 시켜 보니까 잘 안 됐다. 다른 곳에서 돌파구를 찾게 된다.
가장 많이 쓰이는 것은 ReLU 이다.
Multilayer Perceptron(MLP)
각 신호 값에다가 노드 사이에 weight들이 존재한다.
input 신호에 대한 output을 반환한다. 노드 사이에는 퍼셉트론이다. non linear 형식을 따른다. 복잡한 함수가 input에 대한 복잡한 문제를 풀 수 있는 모델이 된다.
여러 개의 클래스를 분류할 때 마지막 활성화 함수로 softmax함수를 사용한다.
결과값이 실제와 얼마나 차이가 나는지로 학습을 해야 한다.
학습한다 == weight를 학습한다.
Backpropagation
각각의 w가 loss function에 얼마만큼 기여했는지,
미분값을 어떻게 계산하느냐. => 역전파
'2023 활동 - 4학년 > [1월 ~ 4월] sw 아카데미 백엔드 과정' 카테고리의 다른 글
[2023.01.10 / CNU SW 아카데미] 리눅스 특강1 (0) | 2023.01.10 |
---|---|
[2023.01.09 / CNU SW 아카데미] 2주차 시작.. (0) | 2023.01.09 |
[2023.01.05 / CNU SW 아카데미] 팀프로젝트 시작 (0) | 2023.01.05 |
[2023.01.05 / CNU SW 아카데미] 특강.데이터분석 및 AI 기초3 (1) | 2023.01.05 |
[2023.01.04 / CNU SW 아카데미] 백엔드 미니 데브코스 (2) | 2023.01.04 |