[카테고리:] Paper Review
-
[논문 리뷰] InstructPix2Pix: Learning to Follow Image Editing Instructions (2023 CVPR)
2023년 CVPR에서 소개된 image editing 관련 논문이다. 전체적인 flow는 아래 그림과 같다. 먼저 GPT3, Stable Diffusion, Prompt2Prompt 등을 이용해 instruction과 image pair를 생성하여 학습용 데이터셋을 생성한다. 이후 Stable Diffusion 모델을 fine-tuning 하여 inference에서는 image와 instruction을 주면 그에 맞게 이미지가 바뀌는 식이다. 1. Introduction 기본적으로 human-written instruction 과 그에 해당하는 image pair 데이터는 구하기 쉽지가 않다.…
-
[논문 리뷰] Controlling Vision-Language Models For Multi-Task Image Restoration (2024 ICLR)
Introduction 이전의 CVPR 2022 AirNet (All-in-one Image Restoration) 이후에 universal한 image restoration 네트워크를 만들고자 하는 노력이 이어지고 있다. 이번 논문은 CLIP을 이용하여 Clean 이미지, degradation type 등의 정보를 더 잘 추출할 수 있도록 학습시키는 방법을 제안한다. CLIP을 단순하게 그대로 사용하는 것이 아니라 Image Restoration에 맞게 약간 변형하여 사용하여 Degradation Aware CLIP (DA-CLIP) 이라고 부르고 아래와…
-
[논문 리뷰] PromptIR: Prompting for All-in-One Blind ImageRestoration (2023 NeurIPS)
Introduction 2022 CVPR에 나온 ‘All-In-One Image Restoration for Unknown Corruption (AirNet)’ 을 시작으로 All-in-one restoration에 대한 논문이 많이 나오고 있는 것 같다. All-in-one image restoration의 기본적인 컨셉은 수많은 restoration task들 (Denoising, Deblurring, Deraining, Desnowing, Dehazing 등등) 을 각각 따로 학습시키지 않고 네트워크 하나로 학습을 하겠다는 것이다. 모든 task를 각각 따로 학습시키는 것이 너무 번거롭고 각각 학습시킨…
-
[논문 리뷰] Learning in the Frequency Domain (2020 CVPR)
Abstract 많은 CNN 네트워크는 고정된 size의 이미지를 input으로 받는다. 이 과정에서 이미지를 원하는 size로 조정하기 위해 downsample 등을 하게 되는데 이 과정에서 정보를 손실하고 정확도가 떨어진다고 한다. 따라서 이 논문에서는 이러한 downsample을 frequency domain의 정보를 이용하여 tirvial frequency component를 줄이는 방식으로 진행하여 정확도 손실을 최소화 할 수 있었다고 한다. Introduction 대부분의 CNN model들이 고정된 size의…
-
[논문 리뷰] Fourmer: An Efficient Global Modeling Paradigm for Image Restoration(2023 ICML oral)
Introduction 예전에 리뷰했던 Fast Fourier Convolution (2020 NIPS)와 비슷한 컨셉을 이미지 복원 분야에 적용한 논문이다. Fourier Transform을 통해 이미지를 주파수 영역으로 보내주게 되면 픽셀 값 하나하나 이미지의 global 정보를 갖게 되는데 이를 이용해 1×1 convolution만을 이용해 적은 연산량과 parameter 수로 효율적인 연산을 가능하게 하는 방법이다. 이 논문에선 Fourier Transofrm을 이미지 복원 분야에 적용하게 된 motivation에…