Table of Contents

DeepLearning

MLP --> CNN --> Transformer

꼬꼬마코더 2024. 7. 29. 20:54
728x90

비전 분야에서는 전통적인 MLP (MultiLayer Perceptron) 모델이 갖는 몇 가지 한계로 인해 주로 CNN (Convolutional Neural Network)이 널리 사용됩니다. MLP와 CNN은 모두 딥러닝 모델의 유형이지만, 이미지와 같은 고차원 데이터를 처리할 때 CNN이 더 적합한 구조를 가지고 있습니다.

MLP의 한계

MLP는 이미지와 같은 고차원 데이터를 처리할 때 몇 가지 제약이 있습니다:

  1. 데이터의 공간 구조 무시: MLP는 입력 데이터를 일렬로 펼쳐야 하기 때문에 (Flatten), 이미지의 공간적인 정보가 손실됩니다. 이로 인해 이미지 내의 로컬 패턴과 구조를 학습하는 데 비효율적일 수 있습니다.
  2. 매개변수의 수: 이미지를 일렬로 펼치면 매우 많은 수의 입력 특성이 생성됩니다. 이는 은닉층과 연결될 때 막대한 양의 가중치를 필요로 하며, 이는 과적합(overfitting)을 유발하고 계산 비용을 증가시킬 수 있습니다.

CNN의 장점

반면, CNN은 이러한 문제를 효과적으로 해결하며 이미지 처리에 매우 적합합니다:

  1. 공간 구조 보존: CNN은 합성곱 층을 사용하여 이미지의 공간 정보를 보존합니다. 이 층은 이미지의 로컬 영역만을 집중적으로 보면서 각 피쳐맵(feature map)을 생성하고, 이는 패턴이나 객체의 공간적 계층구조를 효과적으로 학습할 수 있게 합니다.
  2. 매개변수 공유: CNN에서는 합성곱 필터의 가중치가 이미지 전체에 걸쳐 공유됩니다. 이는 필요한 매개변수의 수를 대폭 감소시키며, 이로 인해 모델의 학습이 더 효율적이고, 과적합의 위험도 줄어듭니다.
  3. 풀링(Pooling): CNN은 풀링 층을 사용하여 피쳐맵의 크기를 줄이고, 더 높은 수준의 피쳐를 추출합니다. 이는 모델의 불변성을 증가시키고, 더 넓은 영역의 정보를 캡처할 수 있게 합니다.

결론

따라서 비전 분야에서는 MLP보다는 CNN이 훨씬 더 널리 사용됩니다. CNN은 이미지의 고유한 특성을 효과적으로 활용하여 뛰어난 성능을 제공하며, 다양한 이미지 관련 작업에서 뛰어난 결과를 보여줍니다. MLP는 이미지를 일렬로 펼치는 과정에서 중요한 공간적 정보를 상실하기 때문에, 일반적으로 텍스트 처리나 단순 벡터 데이터의 분류에 더 적합합니다.

feature extraction(feature maps: convolution+ReLU,pooling,padding,stride) + classification(mlp) + probabilistic distribution(softmax activation function)

 

 

 

최근 몇 년 동안, 특히 자연어 처리(NLP) 분야에서 Transformer 아키텍처가 큰 성공을 거두면서, 비전 분야에서도 Transformer 기반 모델들이 크게 주목받고 있습니다. Transformer는 원래 NLP 작업을 위해 개발되었지만, 그 효과적인 구조와 메커니즘 덕분에 이미지 처리 작업에도 매우 유용하게 적용되고 있습니다.

Transformer의 특징

Transformer 모델은 주로 자기 주의(self-attention) 메커니즘에 기반을 둡니다. 이는 모델이 입력 데이터의 전체적인 컨텍스트를 한 번에 캡처할 수 있게 해 주며, 이로 인해 복잡한 데이터 관계를 효과적으로 모델링할 수 있습니다.

비전에서의 Transformer 활용

비전 분야에서의 Transformer 응용은 주로 "Vision Transformer (ViT)"와 같은 모델을 통해 이루어지고 있습니다. ViT는 이미지를 여러 개의 작은 패치로 나누고, 이 패치들을 Transformer 모델의 입력으로 사용합니다. 이 접근 방식은 CNN에서 사용되는 합성곱 연산과 다르게, 각 이미지 패치를 독립적인 토큰으로 처리하며, 각 토큰 사이의 관계를 자기 주의 메커니즘을 통해 학습합니다.

CNN 대 Transformer

  • 성능: 많은 연구에서 ViT와 같은 Transformer 모델이 특정 비전 작업에서 CNN 모델을 능가하는 결과를 보여주었습니다. 특히, 대규모 데이터셋에서 학습될 때 더 뛰어난 성능을 보이는 경향이 있습니다.
  • 계산 비용: Transformer 모델은 일반적으로 더 많은 계산 자원을 요구합니다. 자기 주의 메커니즘이 입력 데이터의 모든 부분 사이의 관계를 계산하기 때문에, 큰 이미지나 긴 시퀀스를 처리할 때는 매우 많은 계산이 필요할 수 있습니다.
  • 적용 가능성: CNN은 여전히 많은 비전 작업에서 효과적이고 효율적인 선택입니다. 하지만 Transformer는 특히 복잡한 컨텍스트나 관계를 학습해야 하는 작업에서 더 우수할 수 있습니다.

결론

Transformer가 비전 분야에서도 중요한 역할을 하고 있으나, CNN이 사용되지 않는다고 말하기는 어렵습니다. 각각의 모델은 서로 다른 특성과 장단점을 가지고 있으며, 특정 작업에 더 적합할 수 있습니다. 따라서, 목표 작업의 요구 사항과 사용 가능한 자원을 고려하여 가장 적합한 모델을 선택하는 것이 중요합니다.

'DeepLearning' 카테고리의 다른 글

Receptive Field  (0) 2024.07.29
3x3 컨볼루션 커널을 사용하는 이유  (0) 2024.07.29
torch 모델 구조 graph로 그리기  (0) 2024.07.26
torch 모델 출력하기, torchinfo  (0) 2024.07.25
CAM, Grad-CAM  (0) 2024.07.25