Textboxes: A fast text detector with a single deep neural network (AAAI 2017)
- 논문제목: Textboxes: A fast text detector with a single deep neural network
- 주저자: Liao, M. (Huazhong University of Science and Technology)
본 연구의 주요 기여는 text detection 에 적합한 anchor box architecture 를 제시했다는 것에 있다. 일반적인 object detection 의 anchor box 는 정사각형 형태를 기준으로 가로, 세로 방향으로 각각 조금씩 더 긴 anchor box set 에 기반하여 이미지 내의 object 와 가장 가까운 anchor box 를 할당하는 구조이다. 그러나, text line 의 경우 가로-세로 비율이 사람, 개, 자동차 등과 같은 일반적인 객체와는 조금 다르다. 즉, text line 은 대체로 가로 방향으로 매우 긴 특징이 있다. 이를 위해서 본 연구에서는 anchor box 를 세로 방향으로는 매우 짧고, 가로 방향으로는 매우 긴 형태의 anchor box set 을 제안하고 있다. 이 경우, 정사각형의 중심 기준으로만 anchor box 를 설정하게 되면, 아래 위로 인접한 두 개의 정사각형 anchor box 접점 위치에서는 가로 방향으로 긴 anchor box 가 설정되지 못한다 (아래 figure 2 참조).
본 연구에서 적용한 CNN 구조에 대한 설명은 아래와 같다.
Loss function 은 location 정확도와 objectless score (confidence) 두 가지 loss 를 더한 것으로 설정하였다. Location loss 는 smoothed L1 loss 를 적용하였으며, confidence score loss 는 2 class softmax loss 를 적용하였다.
본 연구에서 적용한 CNN 구조에 대한 설명은 아래와 같다.
- VGG-16, SSD 구조를 이용한 word-based OCR approach
- Multiple feature map 을 활용하는 text-box layer 추가 (아래 그림 참조)
- Fully convolutional network (only convolutional and pooling layers)
- Text-box layer -> classification score와 box offset 동시 추정
- 학습 시 SSD 와 동일한 방식으로 ground truth BBOX 를 default box 에 매핑
- box overlap 기반 매핑
- Long default box 6종 채택 (1, 2, 3, 5, 7, 10 aspect ratios)
- word/text 특성 고려
- 세로로 듬성듬성 -> Vertical offset 을 default box 에 추가
- 1 x 5 CNN kernel 채택
- Multi-scale input images -> robust detection
- (width*height) 300*300, 700*700, 300*700, 500*700, and 1600*1600
- NMS 적용
- CRNN model (Shi, Bai, and Yao 2015) 을 이용한 text recognizer 통합
- Lexicon 이 주어지면, text recognizer 를 이용하여 text 가 아닌 것을 잘 걸러낼 수 있다
Loss function 은 location 정확도와 objectless score (confidence) 두 가지 loss 를 더한 것으로 설정하였다. Location loss 는 smoothed L1 loss 를 적용하였으며, confidence score loss 는 2 class softmax loss 를 적용하였다.
- Dataset
- SynthText (Gupta, Vedaldi, and Zisserman 2016)
- ICDAR 2011 (IC11)(Shahab, Shafait, and Dengel 2011)
- ICDAR 2013 (IC13)(Karatzas et al. 2013)
- Street View Text (SVT) (Wang and Belongie 2010)
- Implementation details
- 300*300 image input
- Stochastic gradient descent (SGD)
- Momentum 0.9
- Weight decay 5 x10**-4
- Initial learning rate 10**-3 (40k iteration 후 10**-4 으로 감소)
- SynthText DB + 50k iteration 으로 초기 모델 만들고, 나머지 DB 는 fine-tuning 해서 적용 (2k iteration)
- SVT 외 모든 나머지 DB: 2k iteration fine tuning
- SVT: SVT training dataset 으로 fine tuning
- Data augmentation: crop, flip(Liu et al. 2016)
- One Titan X GPU -> 25 시간 학습
- Pre-trained CRNN (Shi, Bai, and Yao 2015) model 로 텍스트 인식 (저자가 공개한 모델 적용)
실험결과는 아래와 같다고 보고되어 있다.