기본 콘텐츠로 건너뛰기

SW) 머신러닝과 딥러닝 특론 3주차 (오경선교수님) 지도 비지도

--------------------------------------------

머신러닝 (기계학습)

바둑, 스팸메일, 추천 등 일일이 프로그래밍으로는 어려운 영역

1) 지도 학습 : KNN, 의사결정트리, 회귀, 랜덤포레스트, 분류 

                 (의사결정트리는 분류, 회귀에 모두 쓰임)

2) 비지도 학습 (클러스터링, 군집화) : K-means 알고리즘

3) 강화 학습 : Q러닝 (최적화 학습), 

                   보상 처벌, 조금 특이한 점은 에이전트와 환경으로 구성된다는 점(중요)


1) 지도학습의 목표는 입력을 출력에 매핑하는 일반적인 규칙을 학습하는 것이다.

2) 비지도 학습은 정답이 주어지지 않은 데이터를 입력하고

   학습 알고리즘을 통해 규칙을 발견하는 것이다. 그 규칙대로 군집화.

-----------------------------------------

 지도학습 - 의사결정트리

1) 복잡해지면 예측력이 떨어지고 해석이 어렵다.

2) 포인트 : 데이터를 잘 나눌 수 있는 질문을 찾아서 분류의 정확도를 높여야 한다.

   (관련 이야기로 허프만 트리 코드이야기가 나오는데 뭐지? 

    하여간 질문이 좋아야 몇 번 안하고 싹 분류 된다.)

   (자주 있는 값은 간단한 질문, 한번만 질문 / 가끔 나오는 빈도수 낮은 값은 질문이 여러개)

   (이거 물어봐야 겠네)

3) 예시로 원숨이 미소짓고 / 이빨이 보인다 등등으로 분류하는 카드가 

    나온다. 

   [원숭이 의사결정 트리 괜찮네^^]

   AI Education with All-in-One - Classification with Decision Trees (google.com)

    너무 신기한 것이 비버챌린지에있는 물약 게임이 의사결정트리가 들어간

    문제였나보다...!

    여기서 해당하는 빈도수가 많은 애를 우선 질문 노드로 만든다.

    그게 기가막히다. 나중에 애들하고 그 문제를 같이 풀 때는

    뭐 부터 기준 삼아 가를지 질문할 수 있겠다.

    와 진짜 배운 보람이 있다.ㅎㅎㅎㅎ

    무는 원숭이의 개수가 적기 때문에

    얘네만 보고 빈도수 많은 부분을 기준 삼아 내려가는 것

4) 와인 분류 실습 (kaggle의 데이터 셋 가져다가 씀)

지도비지도학습.ipynb - Colaboratory (google.com)

------------------------------------------

지도학습 - KNN (새로운 데이터가 주어질 때 기존 데이터에 가장  가까운)

1) 임의의 값 K는 홀수를 쓰는데 보통 3을 씀. 3개까지 고려한다는 것

   유클리드의 거리 계산 방식 적용. 

   다수결의 원칙 (A 1개 B 2개에 가까우면 B지뭐, 그래서 짝수개로 하면 모호할 수)

2) 실제 계산은 수학시간이고 원리만 학습하는 것도 좋으니

   특히 초등학생에게는 원리 시각화해주는 사이트 추천

vision.stanford.edu/teaching/cs231n-demos/knn/

(왕신기)    

Metric = 거리를 측정하는 방식, L1은 맨해튼 방식 L2가 유클리드 방식

Num classes = 현재 클래스개수 

Num Neighbors(K) = 최근접 이웃의 개수 / 다수결 / 유클리드 / 홀수가 무난해!

Num points = 데이터의 갯수를 말함

-----------------------------

비지도학습(애들한테는 이름표가 없어요!라고 설명하면 좋겠다)

 - K-means 

최적의 중심을 찾는 것

1) 임의적으로 중심점 3개를 만들고 중심점에 가깝게 나머지 애들 다 세 팀

   안에 넣는다.

2) 걔네 평균값 구한다. 또 위에 처럼

3) 계속 하다가 더이상 중심이 안 바뀌면 끝

--------

1) 보여주신 예시 : 카드 막 흩뿌려놓고 (군집화해야 할 데이터들)

                         주사위 굴려서 값으로 해보나봄

    가) 주사위 굴려나온 값 - 기준점의 갯수

    나) 1~6카즈 중에 3개를 뽑아서 기준점을 만든다. (임의로 1,3,6으로 생각--------------------------------------------


머신러닝 (기계학습)


바둑, 스팸메일, 추천 등 일일이 프로그래밍으로는 어려운 영역


1) 지도 학습 : KNN, 의사결정트리, 회귀, 랜덤포레스트, 분류 


                 (의사결정트리는 분류, 회귀에 모두 쓰임)


2) 비지도 학습 (클러스터링, 군집화) : K-means 알고리즘


3) 강화 학습 : Q러닝 (최적화 학습), 


                   보상 처벌, 조금 특이한 점은 에이전트와 환경으로 구성된다는 점(중요)




1) 지도학습의 목표는 입력을 출력에 매핑하는 일반적인 규칙을 학습하는 것이다.


2) 비지도 학습은 정답이 주어지지 않은 데이터를 입력하고


   학습 알고리즘을 통해 규칙을 발견하는 것이다. 그 규칙대로 군집화.


-----------------------------------------


 지도학습 - 의사결정트리


1) 복잡해지면 예측력이 떨어지고 해석이 어렵다.


2) 포인트 : 데이터를 잘 나눌 수 있는 질문을 찾아서 분류의 정확도를 높여야 한다.


   (관련 이야기로 허프만 트리 코드이야기가 나오는데 뭐지? 


    하여간 질문이 좋아야 몇 번 안하고 싹 분류 된다.)


   (자주 있는 값은 간단한 질문, 한번만 질문 / 가끔 나오는 빈도수 낮은 값은 질문이 여러개)


   (이거 물어봐야 겠네)


3) 예시로 원숨이 미소짓고 / 이빨이 보인다 등등으로 분류하는 카드가 


    나온다. 


   [원숭이 의사결정 트리 괜찮네^^]


   AI Education with All-in-One - Classification with Decision Trees (google.com)


    너무 신기한 것이 비버챌린지에있는 물약 게임이 의사결정트리가 들어간


    문제였나보다...!


    여기서 해당하는 빈도수가 많은 애를 우선 질문 노드로 만든다.


    그게 기가막히다. 나중에 애들하고 그 문제를 같이 풀 때는


    뭐 부터 기준 삼아 가를지 질문할 수 있겠다.


    와 진짜 배운 보람이 있다.ㅎㅎㅎㅎ


    무는 원숭이의 개수가 적기 때문에


    얘네만 보고 빈도수 많은 부분을 기준 삼아 내려가는 것


4) 와인 분류 실습 (kaggle의 데이터 셋 가져다가 씀)


지도비지도학습.ipynb - Colaboratory (google.com)


------------------------------------------


지도학습 - KNN (새로운 데이터가 주어질 때 기존 데이터에 가장 가까운)


1) 임의의 값 K는 홀수를 쓰는데 보통 3을 씀. 3개까지 고려한다는 것


   유클리드의 거리 계산 방식 적용. 


   다수결의 원칙 (A 1개 B 2개에 가까우면 B지뭐, 그래서 짝수개로 하면 모호할 수)


2) 실제 계산은 수학시간이고 원리만 학습하는 것도 좋으니


   특히 초등학생에게는 원리 시각화해주는 사이트 추천


vision.stanford.edu/teaching/cs231n-demos/knn/


(왕신기)    


Metric = 거리를 측정하는 방식, L1은 맨해튼 방식 L2가 유클리드 방식


Num classes = 현재 클래스개수 


Num Neighbors(K) = 최근접 이웃의 개수 / 다수결 / 유클리드 / 홀수가 무난해!


Num points = 데이터의 갯수를 말함


-----------------------------


비지도학습(애들한테는 이름표가 없어요!라고 설명하면 좋겠다)


 - K-means 


최적의 중심을 찾는 것


1) 임의적으로 중심점 3개를 만들고 중심점에 가깝게 나머지 애들 다 세 팀


   안에 넣는다.


2) 걔네 평균값 구한다. 또 위에 처럼


3) 계속 하다가 더이상 중심이 안 바뀌면 끝


--------


1) 보여주신 예시 : 카드 막 흩뿌려놓고 (군집화해야 할 데이터들)


                         주사위 굴려서 값으로 해보나봄


    가) 주사위 굴려나온 값 - 기준점의 갯수


    나) 1~6카즈 중에 3개를 뽑아서 기준점을 만든다. (임의로 1,3,6으로 생각)

    다) 흩뿌린 데이터를 정렬한 다음

    라) 1에 가까운애들, 3에 가까운 애들 6에 가까운 애들 묶어준다.



댓글

Creative Commons License