Textboxes: A fast text detector with a single deep neural network (AAAI 2017)

  • 논문제목: Textboxes: A fast text detector with a single deep neural network
  • 주저자: Liao, M. (Huazhong University of Science and Technology)
본 연구의 주요 기여는 text detection 에 적합한 anchor box architecture 를 제시했다는 것에 있다. 일반적인 object detection 의 anchor box 는 정사각형 형태를 기준으로 가로, 세로 방향으로 각각 조금씩 더 긴 anchor box set 에 기반하여 이미지 내의 object 와 가장 가까운 anchor box 를 할당하는 구조이다. 그러나, text line 의 경우 가로-세로 비율이 사람, 개, 자동차 등과 같은 일반적인 객체와는 조금 다르다. 즉, text line 은 대체로 가로 방향으로 매우 긴 특징이 있다. 이를 위해서 본 연구에서는 anchor box 를 세로 방향으로는 매우 짧고, 가로 방향으로는 매우 긴 형태의 anchor box set 을 제안하고 있다. 이 경우, 정사각형의 중심 기준으로만 anchor box 를 설정하게 되면, 아래 위로 인접한 두 개의 정사각형 anchor box 접점 위치에서는 가로 방향으로 긴 anchor box 가 설정되지 못한다 (아래 figure 2 참조).


본 연구에서 적용한 CNN 구조에 대한 설명은 아래와 같다.


  • VGG-16, SSD 구조를 이용한 word-based OCR approach
  • Multiple feature map 을 활용하는 text-box layer 추가 (아래 그림 참조)
  • Fully convolutional network (only convolutional and pooling layers)
  • Text-box layer -> classification score와 box offset 동시 추정
  • 학습 시 SSD 와 동일한 방식으로 ground truth BBOX 를 default box 에 매핑
    • box overlap 기반 매핑
    • Long default box 6종 채택 (1, 2, 3, 5, 7, 10 aspect ratios)
      • word/text 특성 고려
      • 세로로 듬성듬성 -> Vertical offset 을 default box 에 추가
    • 1 x 5 CNN kernel 채택
  • Multi-scale input images -> robust detection
    • (width*height) 300*300, 700*700, 300*700, 500*700, and 1600*1600
  • NMS 적용
  • CRNN model (Shi, Bai, and Yao 2015) 을 이용한 text recognizer 통합
    • Lexicon 이 주어지면, text recognizer 를 이용하여 text 가 아닌 것을 잘 걸러낼 수 있다


 

Loss function 은 location 정확도와 objectless score (confidence) 두 가지 loss 를 더한 것으로 설정하였다. Location loss 는 smoothed L1 loss 를 적용하였으며, confidence score loss 는 2 class softmax loss 를 적용하였다.




  • Dataset
    • SynthText (Gupta, Vedaldi, and Zisserman 2016)
    • ICDAR 2011 (IC11)(Shahab, Shafait, and Dengel 2011)
    • ICDAR 2013 (IC13)(Karatzas et al. 2013)
    • Street View Text (SVT) (Wang and Belongie 2010)
  • Implementation details
    • 300*300 image input
    • Stochastic gradient descent (SGD)
    • Momentum 0.9
    • Weight decay 5 x10**-4
    • Initial learning rate 10**-3 (40k iteration 후 10**-4 으로 감소)
    • SynthText DB + 50k iteration 으로 초기 모델 만들고, 나머지 DB 는 fine-tuning 해서 적용 (2k iteration)
    • SVT 외 모든 나머지 DB: 2k iteration fine tuning
    • SVT: SVT training dataset 으로 fine tuning
    • Data augmentation: crop, flip(Liu et al. 2016)
    • One Titan X GPU -> 25 시간 학습
    • Pre-trained CRNN (Shi, Bai, and Yao 2015) model 로 텍스트 인식 (저자가 공개한 모델 적용)
실험결과는 아래와 같다고 보고되어 있다.




Popular Posts

Show, attend and tell: Neural image caption generation with visual attention (ICML 2015)

Multiple object recognition with visual attention (arXiv 2014)

Towards Accurate Multi-person Pose Estimation in the Wild (CVPR 2017)

Recurrent models of visual attention (NIPS 2014)

DeepPose: Human pose estimation via deep neural networks (CVPR 2014)

Pose machines: Articulated pose estimation via inference machines (ECCV 2014)