Image restoration 분야에서 text를 어떻게 이용할 수 있는지/이용하고 있는지 간단하게 정리하고 관련 논문을 간단히 정리한 자료입니다.
low-level vision에서 text를 이용하는 방법을 크게 아래와 같이 4가지로 나누었습니다.
- multi-task 상황에서 어떤 task를 수행할지 text입력으로 구분
- ill-posed 특성을 지니는 resotraiton task에서 어떤 output을 만들지 guide를 해주는 역할
- text의 simple한 respresentation을 활용하여 restoration task를 도와주는 역할
- text의 robust한 feature를 활용하는것
그리고 3번에 해당하는 논문으로 “Improving Image Restoration through Removing Degradations in Textual Representations”, 4번에 해당하는 논문으로 “Beyond Pixels: Text Enhances Generalization in Real-World Image Restoration”을 정리하였습니다.
첫번째 논문같은 경우에는 degraded image를 text로 mapping하고 그 text에서 degradation을 제거한뒤에 clean해진 text를 다시 이미지로 만들고, 이 이미지를 참고하여 최종 clean한 이미지를 만듭니다. 이미지에선 복잡하게 얽혀있는 degradation을 text domain으로 가져가 simple하게 제거하고 이를 활용해 다시 이미지에서 복원하는데 도움을 받는다는 개념입니다.
두번재 논문은 간단히 설명하면 diffusion기반 image super-resolution에서 text prompt를 사용하는데 이 text prompt에 따라 성능이 달라지고 generalization 성능도 결정되니 super-reoslution을 잘 할 수 있도록 text prompt를 잘 만들어주는 모델을 만드는 방법을 제안합니다.
답글 남기기
댓글을 달기 위해서는 로그인해야합니다.