본문 바로가기

분류 전체보기

(38)
Lec8_CNN Architectures 1. AlexNet [구조] 일부가 max-pooling layer가 적용된 5개의 convolutional layer와 3개의 full-connected layer로 이루어져 있다. [특징] ReLU Nonlinearity 활성화 함수로 ReLU를 적용했다. 논문에서는 saturating nonlinearity (tanh, sigmoid)보다 non-saturating nonlinearity(ReLU)의 학습 속도가 몇배는 빠르다고 나와 있다. 4층의 CNN으로 CIFAR-10을 학습시켰을 때 ReLU가 tanh보다 6배 정도 빠르다. Training on Multiple GPUs network를 2개의 GPU로 나누어서 학습했다. 이를 GPU parallelization이라고 한다. 논문에서는 2개의..
Lec7_ Convolutional Networks Fully-Connected Networks vs Convolution Networks Fully-connected는 이미지를 분류/설명하는데 적합하게 예측 vs Convolution은 이미지를 형상으로 분할하고 분석 1.Convolution Layers 학습을 하면서 Convolustion filter는 low level feature를 조합해서, high level feature를 형성 Convolutional Layer를 여러 번 통과할수록 이미지의 특징점들이 선명하게 나타난다. 기본 요소인 edge, 대각선 등을 먼저 인식하고, 이후 구체화된 눈, 코, 입 등을 인식한다. 이를 바탕으로 high-level인 사람의 얼굴 전체를 인식한다. - fully connected layer -> bank o..
Lec6_Backpropagation 1. What is Backpropagation? : 다층 퍼셉트론 (인공 신경망)을 훈련하기 위한 알고리즘으로, 역방향으로 오차를 전파시키면서 각 층의 가중치를 업데이트하여 최적의 학습 결과를 찾아가는 방법 가중치 업데이트? 미분을 해서 기울기가 감소하는 방향으로! (Bad) Idea : Derive derivative on hand (Better) Idea : Computational Graphs Simple example ① : 역전파는 gradient descent를 이용하여 W를 여러번 갱신하여 최적화한다. - 역전파 연산에서 핵심은 'Chain Rule' 즉 연쇄법칙(합성함수의 도함수)이다. - 4번 그림을 보면 Upstream Gradient는 이전 단계에서 구한 부분을 의미하므로, Loca..
Lec5_Neural Networks 1. Limitations of Linear Classification ① 비선형 구조 구분 안됨 ② 다른 모양의 class 인식 안됨 (in visual viewpoint) 2. Solution ① Feature Transforms ② Image Features Histogram of Oriented Gradient (HoG) : 픽셀의 변화량의 각도와 크기를 고려하여 히스토그램 형태의 feature를 추출하는 방법 (객체 탐지에 쓰임) - 각 픽셀의 edge 방향/강도를 계산한다. (컬러 정보 생략) - 이미지를 8x8 크기로 나눈다. - 각 크기내에서, edge strength로 가중된 edge direction의 히스토그램을 계산한다. Bag of Words (Data-Driven!) : - 각 ..
Lec4_Optimization 1. Optimization Idea #1 : Random Search Idea #2 : Follow the slope = Gradient : 임의의 W를 업데이트 할 수도 있지만 이는 극단적으로 오래 걸린다. 그래서 사용하는 방법은 Slope(경사)를 이용하는 것인데 loss가 감소하는 방향으로 W를 변화시키다 보면 결국에는 최적의 W를 찾을 수 있을 것이다. - 일차원 벡터에서의 경사 - 고차원의 벡터라면 gradient를 이용해야 한다. ① Numeric gradient : W의 원소를 아주 조금씩 변화시키면서 계산하는 방법 (h=0.0001) ② Analytic gradient : 미분의 계산 공식 사용 2. Gradient Descent : 비용함수(Cost Function)의 비용값을 최소화하..
Lec3_Linear Classification 01. Linear Classification 1-1) Algebraic 관점 1-2) Visual 관점 1-3) Geometric 관점 02. Loss function 2-1) L1 Loss - 실제값과 예측값 사이의 오차의 절댓값 사용 2-2) L2 Loss - 실제값과 예측값 사이의 오차의 제곱합 사용 2-3) Cross Entropy Loss 2-4) Multiclass SVM Loss - max가 0이라서 음수를 다룰 수 없는 한계점이 있다. 2-5) Softmax classifier loss - 위의 SVM loss func을 보완할 수 있는 것이 softmax loss func이다. - Softmax Loss function에서는 구한 score값을 exponential 해준 후에 이를 no..
파이썬 자연어 분석 (NLP) 1. 토큰화(Tokenization) - 기초 단어화 - 문자열에서 단어로 분리시키는 단계 2. 불용어 제거(Stop word elimination) - 전치사, 관사 등 너무 많이 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계 모든 단어를 소문자화 한다. '불용어 사전'을 검색하여 불용어를 삭제한다. (한글에서는 감성사전, 불용어 사전 있긴 하지만,, 코드화 되어있진 않음) 전체 말뭉치에서 n번 이상 등장하지 않는(=중요하지 않는) 단어를 삭제한다. 3. 어간 추출(Stemming) - 형태소 분석기 - 단어원형 + 활용어 - 표현형 -> 기본형 : 다른 단어로 인덱싱 되지 않도록 4. 문서 표현(Representation) - 데이터화 -> 벡터(=수치화 되었다) ..
시계열 데이터 분석 # 단변량 시계열 데이터 분석 모델 1. ARIMA (Autoregressive integrated MovingAverage) AR(자기상관) : 이전의 값이 이후의 값에 영향을 미치고 있는 상황 -이전의 값 참고 MA(이동평균) : 랜덤 변수의 평균값이 지속적으로 증가하거나 감소하는 추세 - 이전의 오차 참고 I(차분) : 시계열 데이터의 불규칙성 보완 from statsmodels.tsa.arima_model import ARIMA import statsmodels.api as sm # to_datetime으로 day 피처를 시계열 피처로 변환 bitcoin_df['day'] = pd.to_datetime(bitcoin_df['day']) # day 데이터프레임의 index 설정 bitcoin_df...