6월, 2019의 게시물 표시

EAST: an efficient and accurate scene text detector (CVPR 2017)

이미지
논문 제목: EAST: An Efficient and Accurate Scene Text Detector 연구 기관: Megvii Word box detection 의 정확성을 높이는 기술에 촛점을 맞춘 연구 논문이다 (인식 기술 자체는 본 논문의 연구 대상이 아니다). 저자는 지금까지의 word box detection 은 많은 프로세스 단계를 거쳐야 하므로, error propagation 문제가 있음을 지적하고 있다 (아래 그림에서 다른 기술들과 본 기술의 프로세스 구조를 비교하고 있다). 본 연구에서는 3 단계 프로세스 만으로 가장 우수한 multi-oriented word box detection 성능을 확보하였다고 주장하고 있다 (아래 그림 (e) 가 저자가 제안하는 기술 구조이다). Multi-oriented word box detection 은 문자열이 가로 방향이 아닌, 임의 방향으로 존재하여도 문제없이 검출하는 것을 의미한다 (가로 방향만 검출하는 것은 horizontal box detection 이다). [ Data Annotation ] Word 를 둘러싸는 임의 형태 사각형의 꼭지점 (직사각형 아님, 아래 그림 (a), 노란색 점선은 word 크기에 딱 맞는 사각형이며, 녹색 실선은 margin 을 두어 크기를 줄인 사각형), 임의 형태 사각형의 안쪽 영역을 나타내는 text score map (일종의 heat map, 아래 그림 (b)), 임의 형태 사각형을 둘러싸는 가장 작은 크기의 직사각형 (아래 그림 (c) 의 분홍색 선), heat map 영역 내의 각 포인트에서 직사각형 4변 까지의 거리 (아래 그림 (d)), 직사각형이 기울어진 각도 (아래 그림 (e)) 를 ground truth annotation 정보로 만들고 이를 추정한다. 임의 형태 사각형 정보는 word 크기에 딱 맞는 사각형 (아래 그림 (a) 노란색 점선) 및 margin 을 두고 축소시킨 사각형 (아래 그림 (a) 초록색 실선) 정보

Wetext: Scene text detection under weak supervision (ECCV 2017)

이미지
논문 제목: Wetext: Scene text detection under weak supervision 연구 기관: Infocomm, Nanyang Technological Univ., National Univ. of Singapore 본 연구는 문자 인식 시, 학습 데이터가 부족할 경우 semi-supervised or weakly supervised learning 을 통해 인식 성능을 향상시킬 수 있음을 보여주는 기술에 관한 것이다 (어찌보면 굳이 테스트 해보지 않아도 당연히 성능이 올라갈 것으로 유추할 수 있어 보인다. 물론 성능 향상 폭이 어느 정도인지는 해 봐야 알 수 있겠지만...). 문자 인식은 크게 2 가지 방식의 기술이 존재한다. 첫째는, 본 연구에서 채용한 것과 같이 단위 문자 (character) 를 검출한 후, 이들의 조합으로 단어 (text line 또는 word) 를 생성하는 방식이다. 둘째는, 단어를 한번에 검출하고 인식하는 방식이다. 본 연구는 첫번째 방법의 인식 기술을 채택하여 실험하였다.  문자열 검출 기술 단위 문자 검출 (Character detection and recognition) 1 stage object detection 기술인 SSD (Single Shot multibox Detecto) 를 채용하여 단위 문자 검출 Backbone 은 VGG-16 구조를 채용하고, 마지막 fully connected layer 는 additional conv. layer 로 대체 Base feature + additional feature 적용 (-> multi-scale feature) 각 feature point 에서 6 개 값을 추정 (bounding box 4 offsets + 2 text/background scores)  Inferencing stage 에서 NMS (Non-Maximum Suppression) 적용 (1,000 개 후보 box 를 500개로 축소)

Realtime multi-person 2d pose estimation using part affinity fields (CVPR 2017)

이미지
논문 제목: Realtime multi-person 2d pose estimation using part affinity fields 연구 기관: Carnegie Mellon University 본 리뷰 글은 CMU 에서 발표한 pose estimation 논문 시리즈 중 마지막 리뷰 글이다 (물론 본 글 게재 이 후에도 CMU 는 새로운 pose estimation 논문을 계속 발표하겠지만...). 두 개의 선행 연구 논문은 아래와 같으며, 여기를 클릭하면 ( Pose Machine , Convolutional Pose Machine ) 리뷰 글을 볼 수 있다. 선행 연구 논문 Ramakrishna, V., Munoz, D., Hebert, M., Bagnell, J. A., & Sheikh, Y. (2014, September). Pose machines: Articulated pose estimation via inference machines. In European Conference on Computer Vision (pp. 33-47). Springer, Cham. Wei, S. E., Ramakrishna, V., Kanade, T., & Sheikh, Y. (2016). Convolutional pose machines. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4724-4732). 본 연구 역시 선행 연구들에서 채택하였던 cascaded stage architecture 를 그대로 유지하고 있다. 다만, feature extraction 및 belief map 을 생성하는 CNN 구조를 조금 바꾸고, 'part affinity field' 라는 새로운 개념을 도입하여, part 사이의 상관 관계를 보다 명시적으로 (explicitly) 네트워크에 반영하였다 (이전