jam 블로그

[이미지 처리] 1990년 이후 이미지 관련 모델이나 기법 본문

인공지능

[이미지 처리] 1990년 이후 이미지 관련 모델이나 기법

kid1412 2023. 2. 26. 21:22
728x90

LeNet-5 (1998): 이미지 분류를 위한 최초의 합성곱 신경망 모델로, 손글씨 숫자 인식에 성공함. [논문: "Gradient-based learning applied to document recognition", 1998]

 

SIFT (1999): 이미지에서 특징점을 검출하고, 이를 기초로 이미지를 비교하는 방법으로, 이미지 인식 분야에서 큰 역할을 함. [논문: "Distinctive Image Features from Scale-Invariant Keypoints", 1999]

 

Bag-of-features (2004): 이미지의 전체적인 특징만을 고려하여 이미지를 분류하는 방법으로, 이미지 분류 분야에서 활용되었음. [논문: "An Introduction to the Bag-of-Features Framework for Image Classification and Retrieval", 2004]

 

HOG (2005): 이미지 내의 에지 방향을 히스토그램으로 표현한 후, 이를 분석하는 방법으로, 사물 검출 분야에서 활용됨. [논문: "Histograms of Oriented Gradients for Human Detection", 2005]

 

Deformable Part-based Model (DPM) (2008): 객체의 각 부분을 검출하고, 이들을 조합하여 객체를 검출하는 방법으로, 사물 검출 분야에서 활용되었음. [논문: "Beyond PASCAL: A benchmark for 3D object detection in the wild", 2008]

 

Deep Convolutional Neural Network (DCNN) (2012): 다층 합성곱 신경망 모델로, 이미지 인식 분야에서 혁신적인 성과를 냈고, 이후 많은 딥러닝 모델들의 기반 기술이 되었음. [논문: "Imagenet classification with deep convolutional neural networks", 2012]

 

Spatial Pyramid Pooling (SPP) (2014): 이미지 내의 특징들을 고정된 크기의 블록으로 분할하여 히스토그램으로 만들어, 크기가 다른 이미지에서도 동일한 크기의 특징 벡터를 추출할 수 있도록 한 방법으로, 이미지 인식 분야에서 활용되었음. [논문: "Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition", 2014]

 

ResNet (2015): 이미지 인식 분야에서 혁신적인 딥러닝 모델 중 하나인 ResNet은 네트워크의 깊이가 증가함에 따라 발생하는 gradient vanishing 문제를 해결하였습니다. ResNet은 residual connection이라는 새로운 구조를 도입하여, 이전 레이어의 출력을 다음 레이어의 입력으로 사용함으로써, 딥러닝 모델을 더욱 깊게 학습시킬 수 있게 되었습니다. [논문: "Deep Residual Learning for Image Recognition", 2015]

 

GQN (2018): 다양한 위치와 방향에서 입력된 2D 이미지들을 3D 공간에 배치하고 이를 연속적으로 조합하여 새로운 관찰 가능한 이미지를 생성하는 Generative Query Network (GQN)가 제안됨. [논문: "Neural Scene Representation and Rendering", 2018]

 

BigGAN (2018): 기존의 GAN 모델에서 발전시켜 고해상도, 다양한 카테고리의 이미지 생성에 뛰어난 성능을 보이는 BigGAN 모델이 발표됨. [논문: "Large Scale GAN Training for High Fidelity Natural Image Synthesis", 2018]

 

StyleGAN (2019): GAN 기반 모델 중 하나인 StyleGAN은 기존의 GAN 모델들과는 다르게 생성된 이미지의 품질 뿐 아니라 이미지의 특정 스타일을 조정할 수 있는 기능을 갖추고 있음. [논문: "A Style-Based Generator Architecture for Generative Adversarial Networks", 2019]

 

ViT (2020): 기존의 CNN 모델에 비해 더욱 간결한 구조를 갖추고 있으며, 전이학습에 용이한 Vision Transformer (ViT)가 발표됨. [논문: "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale", 2020]

 

CLIP (2021): 이미지와 텍스트를 함께 이용하여 모델 학습을 진행하는 Contrastive Language-Image Pre-Training (CLIP) 모델이 발표됨. 이 모델은 이미지 검색, 이미지 분류 등 다양한 응용 분야에서 높은 성능을 보임. [논문: "Learning Transferable Visual Models From Natural Language Supervision", 2021]

 

Stable Diffusion (2021): 이미지 생성 분야에서 최신 기술 중 하나인 Stable Diffusion이 발표되었습니다. 이 모델은 CLIP, UNet, VAE(Variational Auto Encoder, 자기부호화기)이라는 세 가지 인공신경망으로 이루어져 있다. 유저가 텍스트를 입력하면 텍스트 인코더(CLIP)가 유저의 텍스트를 토큰(Token)이라는 UNet이 알아들을 수 있는 언어로 변환하고, UNet은 토큰을 기반으로 무작위로 생성된 노이즈를 디노이징하는 방식이다. 디노이징을 반복하다 보면 제대로 된 이미지가 생성되며, 이 이미지를 픽셀로 변환하는 것이 VAE의 역할이다. 해상도가 높아질수록 리소스를 기하급수적으로 사용하게 되는 종전의 확산 확률 이미지 생성 모델과 달리, 앞뒤에 오토인코더를 도입하여 이미지 전체가 아닌 훨씬 작은 차원의 잠재공간(latent space)에서 노이즈를 삽입/제거하므로, 비교적 큰 해상도의 이미지를 생성하는데도 리소스 사용량을 대폭 줄여 일반 가정의 그래픽카드 정도로도 이용이 가능해진 것이 특징입니다. [논문: "High-Resolution Image Synthesis with Latent Diffusion Models", 2021]

Comments