본문 바로가기

분류 전체보기31

[Deep learning] Class-Incremental Learning (LwF, PODNet) 모든 데이터를 한 번에 저장하고 학습하는 것은 비효율적이고 어쩌면 비현실적이다. 특히, 데이터가 매우 크거나 민감한 정보를 포함하는 경우에는 더욱! 그래서 고안된 Class-Incremental Learning (CIL)은 모델이 시간이 지남에 따라 점진적으로 새로운 클래스를 학습하는 학습법이다. 전통적인 학습 방식에서는 모든 클래스를 한 번에 학습하지만, CIL에서는 데이터가 점진적으로 제공되며 모델이 새로운 클래스를 학습할 때 이전에 학습한 내용을 잊지 않도록 하는 것이 중요하다. 이는 CIL이 다루는 Catastrophic Forgetting 문제라고도 불리는데, 이를 해결하기 위한 다양한 방법 중 LwF와 PODNet을 간단히 소개해 보겠다.둘을 구현한 ipynb 파일을 아래 Github repo.. 2024. 7. 8.

[Deep learning] What is 'Style transfer'? (CVPR 2016) Image Style Transfer Using Convolutional Neural Networks (https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Gatys_Image_Style_Transfer_CVPR_2016_paper.pdf)(ECCV 2016)Perceptual Losses for Real-Time Style Transfer and Super-Resolution (https://arxiv.org/pdf/1603.08155.pdf) ✨ Style Transfer란? 이미지의 '컨텐츠'는 그대로 두고 '스타일'을 변환하는 기술이다. 특히 2016년에 발표된 두 논문, "Image Style Transfe.. 2024. 7. 7.

[Deep learning] Accelerating the Super-Resolution Convolutional Neural Network 논문 리뷰 (ECCV 2016) Accelerating the Super-Resolution Convolutional Neural Network (https://arxiv.org/pdf/1608.00367.pdf)이 논문은 기존의 Super Resolution CNN(SRCNN)의 연산을 가속화하는 방법을 연구했다. Super resolution task는 저해상도 이미지를 입력받아 고해상도로 복원하는 작업이다. 1. 기존의 SRCNN SRCNN은 Dong et al. (2014)에 의해 제안된 모델로, 기본적으로 세 개의 컨볼루션 레이어로 구성되어 Patch Extraction and Representation, Non-Linear Mapping, Reconstruction의 과정을 통해 이미지 해상도를 복원.. 2024. 7. 7.

[CV] ViT, ViViT (Vision Transformer, Video Vision Transformer) https://yoomimi.tistory.com/entry/Attention-Seq2Seq-Transformer [Deep Learning] Attention, Seq2Seq, TransformerVision Transformer를 이해하기 위해 필수적인 개념들을 한데 정리해보려고 한다.우선 RNN, LSTM, GRU에 관한 포스팅은 아래! 이 개념을 알아야 이해하기 편하다. https://yoomimi.tistory.com/entry/RNN-LSTM-GRU [Deepyoomimi.tistory.com 우선 Attention과 Transformer에 관한 이해가 필요하다. 1. ViT (Vision Transformer)Transformer가 자연어 처리 분야에서 SOTA로 쓰이니 CV 쪽에서도 이를.. 2024. 7. 5.

[CV] Statistical object recognition, PCA/LDA, SVD 📍 Statistical object recognition, PCA/LDA, SVD2024년 연세대학교 컴퓨터과학과 4학년 과목인 Computer Vision을 수강하며... #1. Object recognition에서 categorization에 대한 statistical한 관점베이즈 정리 (Bayes Rule) 이용: p(zebra | image) = p(image | zebra) p(zebra) 사후 확률 (Posterior): p(zebra ∣ image)우도 (Likelihood): p(image ∣ zebra)사전 확률 (Prior): p(zebra) MAP decision (Maximum a Posteriori Decision): 결국 우리의 목적은 posterior가 최대가 되도록 하는.. 2024. 6. 9.

[Deep Learning] Attention, Seq2Seq, Transformer Vision Transformer를 이해하기 위해 필수적인 개념들을 한데 정리해보려고 한다.우선 RNN, LSTM, GRU에 관한 포스팅은 아래! 이 개념을 알아야 이해하기 편하다. https://yoomimi.tistory.com/entry/RNN-LSTM-GRU [Deep Learning] RNN, LSTM, GRU 총정리★ (+판서)RNN(Recurrent Neural Network)우선 더 익숙한 CNN에서 출발해보자. CNN은 input(들)을 이용해 output을 예측하는데, 그 과정에서 data가 재사용되지 않는다. 당연하다. CNN은 input 하나를 한꺼번에 넣어주기 때문yoomimi.tistory.com 들어가기 전, 기계 번역의 발전 과정을 알고 가면 좋다.RNN > LSTM > .. 2024. 2. 19.

[Deep Learning] RNN, LSTM, GRU 총정리★ (+판서) RNN(Recurrent Neural Network)우선 더 익숙한 CNN에서 출발해보자. CNN은 input(들)을 이용해 output을 예측하는데, 그 과정에서 data가 재사용되지 않는다. 당연하다. CNN은 input 하나를 한꺼번에 넣어주기 때문이다. 하나를 한꺼번에? 이미지 하나를 넣을 때 각각의 픽셀을 순서대로 넣지 않고 한번에 Convolution layer를 만나게 해버리는 일을 상상해보면 된다. 물론 Convolution layer의 kernel size때문에 먼저 읽히는 부분이 존재하지 않느냐 싶을 수 있지만, 그 순서가 중요한가? 절대 그렇지 않다. 이미지에서 locality가 중요한 것은 sequence가 중요한 것과는 다른 의미다. RNN은 sequence data(시계열 dat.. 2024. 1. 12.

[HCI] The Alleviation of Perceptual Blindness During Driving in Urban Areas Guided by Saccades Recommendation, IEEE Transactions on Intelligent Transportation Systems (2022) (논문 리뷰) ✨ ABSTRACT 운전 시 인지적 맹점이 주요 교통사고 원인 중 하나다. 이 논문은 computational visual attention models (CVAMs)이 인간의 attention mechanism과 유사하게 주의를 예측하는 데 사용되는 것을 기반으로, 도시 도로 환경에서 운전 안전을 향상시키기 위한 saccades strategy recommendation을 시사한다. 이 논문의 차별점은 기존 연구들이 driving task에서 visual attention을 이용한 computational model을 test할 때 image나 video를 사용한데 반해 real-world task를 수행시켰다는 점이다. ✨ METHOD eye movements를 다음의 특징들에 따라 분류하고, 이를 .. 2024. 1. 12.

이전 1 2 3 4 다음

티스토리툴바