728x90
반응형
SMALL

7. 수학공부/기타 8

Reinforcement Learning_ Markov Decision Process

안녕하세요,오늘은 토론토대학교 강화학습 수업을 들으면서 이해가 되지 않는 부분이 있어 유튜브 혁펜하임으로 공부한 내용을 업로드합니다. Markov Decision Process 중요한 성질 : State와 Action이 Random하다.s1와 주어져 있으면 s0과 a0을 알건 모르건 상관없이 a1의 확률이 정해진다. 두다리는 지워주고, 한다리는 남긴다. 1. P(a1 | s0, a0, s1) 이면 P(a1| s1)만 남는다. (여기서는 s1만 알면 a1이 되기에) 2. P(s2 | s0, a0, s1, a1) 이면 P(s2| s1, a1)만 남는다. (여기서는 s1과 a1을 알아야 s2가 되기에)  1번 >> Policy : State에서 어떤 action을 할지에 대한 분포가 정책이다.   2번 >>..

[U of T.Reinforcement Learning] Q-Learning, Greedy, exploration, exploitation, discount factor, 그리디, 탐색, Q-러닝

안녕하세요,오늘은 토론토대학교 강화학습 수업을 들으면서 Q-Learning 부분에 대해 유튜브 혁펜하임으로 공부한 내용을 업로드합니다. Reinforcement Learning 이란, 맛집 찾기 이다. Q-Learning (Greedy action)맛집을 찾을 때, Q-Learning은 Greedy aciton(탐욕행동?)을 씁니다. 이동을 하면서 점수를 매길 것이고, 점수가 가장 큰 쪽으로 이동하는 것이 Greedy Action입니다.처음에는 0이다.위의 X표시의 모든 S(State, 상태)는 다 0이다. 맛집에 들어가면서 에피소드가 끝난다.  첫번째 에피소드맛집에 들어가면 R=1 리워드를 받는다. 위로 가면 리워드를 받기에 위쪽에 1 표시. 두번째 에피소드이동할 때, 오른쪽으로 고르는 동시에 Q-Le..

Lecture 5 Training Neural Networks, Part I

안녕하세요,오늘은 Lecture 5강 두번째 Data Preprocessing부터 학습해보도록 하겠습니다.  2) Data Preprocessing (데이터 전처리) original data를 zero-centered로 맞춰준다.(방법은 각각에 대해서 전체의 평균값을 빼준다.)정규화 작업 : 표준편차로 나눠줌으로써 수행한다. (ex -1~1 사이의 특정 범위 안에 들어가도록) 이미지에서 zero-centered는 일반적으로 해주고, 다만 normalization은 일반적으로 수행하지 않는다.normalization 목적 자체가 특정 범위에 들어가도록 해주는 것인데 이미지는 0에서 255 사이의 픽셀이라는 이미 특정 범위에 들어있는 것이라서 주성분 분석 PCA : 데이터를 비상관화해서 차원을 줄이는 것Wh..

Lecture 5 Training Neural Networks, Part I

신경망을 어떻게 학습시키는지 알아보려 합니다.오늘은 분량이 많아 데이터전처리 전단계까지 리뷰하겠습니다.  지난시간 학습내용 정리 ConvNets need a lot of data to train 이라고 생각하는데 어쩌면 잘못된 생각일 수 있다왜 ? finetuning 방법이 있어서이다. 즉, we rarely ever train ConvNets from scratch.(우리는 우리 모델을 처음부터 학습시키는 경우가 별로 없다.)다시 말해서, 이미지넷의 데이터를 기반으로 학습시키고 우리는 이미 학습된 가중치를 가져와서 이 가중치를 우리 데이터에 finetuning 시킨다.우리는 가운데 그림에서처럼 우리가 가지고 있는 데이터셋이 작으면기존의 이미지넷에서 학습한 모든 가중치를 그대로 고정시킨다.그리고 마지막부..

Lecture 4 Introduction to Neural Networks

CS231n 4강 공부 및 리뷰를 시작하겠습니다. 인공지능을 준비하시는 분들에게도 도움이 되었으면 좋겠습니다.  Backpropagation Gradient Descent를 구하는 방법은 2가지가 있다.실제로는 Numerical gradient로 구하면 된다. 매우 간단한 과정으로 나왔는데, 실제 Computational Graph는 굉장히 거대한 규모로 되어있다. 따라서 위의 그림처럼 늘여서 한꺼번에 계산한다는 것은 불가능하다.아래의 예시 2가지를 보면 불가능한 이유를 알 수 있다. AlexNet 예시) Neural Turing Machine + RNN 예시)위의 두 모듈처럼 매우 거대한 규모이기 때문에 한꺼번에 모두를 계산하는 것은 어렵다. 간단한 예를 들어서 module별로 계산해나가는 방법을 학습..

Lecture 3 | Loss Functions and Optimization

CS231n 3강 공부 및 리뷰를 시작하겠습니다. 인공지능을 준비하시는 분들에게도 도움이 되었으면 좋겠습니다. 지난 2강 복습컴퓨터가 비전을 인식하는데 여러 challenge들이 있다. (각도, 조명, 변형, 은폐/은닉, 배경, 클래스 내의 variatione들) 그럼에도 기계는 사람의 능력을 넘어서는 classify를 할 수 있게 되었다.Data driven approach - 1) nearest neighbor 2) Linear classifier(매칭 탬플릿, 클래스 기반 구분) 오늘은 Score에 대해 불만족하는 정도를 정량화하는 Loss Function 정리 및 Loss function을 최소화하는 parameter 값들을 찾는 과정인 Optimization을 배워보도록 한다. 1. Loss f..

CS231 Lecture 2 | Image Classification

안녕하세요, 오늘은 CS231N 두번째 강의인 Image Classification 공부를 이어서 해보려고 합니다.개인적인 공부용으로 블로그를 작성하는 것이며, 인공지능에 대해 알고자 하는 분들에게도 도움이 되었으면 좋겠습니다.  Image Classification(이미지 분류)는 컴퓨터 비전에서 가장 핵심 기술 Image는 기본적으로 숫자(0~255 사이숫자)로 구성된 3D array. > 300은 height / 100은 width / 3은 color channel (RGB)Challenges1) Viewpoint Variation (보는 시각)2) Illumination (조명)3) Deformation (형태의 변형)4) Occlusion (은폐/은닉) - 기계가 인식할 수 있겠느냐?5) Bac..

CS231N, Lecture 1 | Introduction to Convolutional Neural Networks for Visual Recognition

안녕하세요, 오늘은 굉장히 유명한 Stanford 대학교의 CS231N 강의에 대해 리뷰해보도록 하겠습니다. 인공지능을 하시는 분들이라면 해당 강의를 한 번씩은 접해보셨을 거라 생각합니다.한번 더 공부하시고 싶은 분들이나 처음 접하시는 분들에게 도움이 되는 글이길 바라면서Lecture 1 | Introduction to Convolutional Neural Networks for Visual Recognition  시작하도록 하겠습니다.  1. 소개The amount of visual data in our world has really exploded to a ridiculous degree in the last couple of years. And, this is largely a result of t..

728x90
반응형
LIST