논문 제목: Multiple object recognition with visual attention 주 저자: Jimmy Lei Ba (토론토 대학) 참여 연구 기관: 토론토 대학, 구글 딥마인드 본 연구는 아래 논문의 후속 연구로써, attention + RNN 구조를 문자열 인식에 적용한 기술이다. 아래 사전 연구 논문에 대한 간단한 리뷰는 여기를 클릭하면 볼 수 있다. 본 연구의 사전 연구 논문 Mnih, V., Heess, N., & Graves, A. (2014). Recurrent models of visual attention. In Advances in neural information processing systems (pp. 2204-2212). [ Network Architecture ] 사전 연구와 유사하게 본 연구는 이미지 내에서 문자 라인을 형성하는 주요 국지 영역들을 순차적으로 찾아내고, 주요 영역에만 국한되는 'local CNN' 을 적용하는 기술이다. 이렇게 함으로써 배경 영역에 대한 분석을 제거하여 불필요한 연산량을 과도하게 소모하지 않고, 주요 영역에 집중하여 분석을 수행할 수 있게 한다. 이러한 처리 과정은 인간이 이미지 내의 객체를 바라볼 때, 배경에 신경쓰지 않고 보고자 하는 객체 영역의 여러 국지적 모양을 훑어보는 것을 모방한 것이다. 본 연구에서 제안하는 기술 구조는 아래 그림과 같다. 아래 그림에서 'context', 'emission', 'glimpse', 'classification' 이 쓰여진 곳에는 각각의 목적에 맞는 neural network 이 위치하고 있다. 위 그림에서 나타나듯이 본 연구에서 제안하는 기술은 context, emission, glimpse, classification 및 recurrent network 으로 구성된다. 사전 연구에서 ...