Towards Accurate Multi-person Pose Estimation in the Wild (CVPR 2017)
논문 제목: Towards Accurate Multi-person Pose Estimation in the Wild 연구 기관: 구글 본 연구는 Faster R-CNN 으로 사람 영역의 rectangular bounding box 를 찾고, box 영역 내에서 pose estimation 을 처리하는 2단계 기술 구조를 제안한다 (아래 그림 참조). [ Network Architecture ] Person detection 을 위한 faster R-CNN 은 ResNet101 을 backbone 으로 사용하였다. Person detection 에 의해 검출된 영역은 가로 또는 세로 길이를 변환하여 가로/세로 비율이 일정 비율을 가지도록 하였다 (위 그림 (1) 의 person detection 결과인 붉은 색 box 가 (2) 에서는 세로 방향으로 축소된 모습을 볼 수 있다) . 학습 시의 데이터 증강을 위해 person detection 결과 box 영역을 1.0 ~ 1.5 사이의 scale factor 값을 무작위 선정하여 조금 더 넓은 person box 를 학습 데이터로 추가하였다. 추론 시에는 scale factor 값을 1.25로 고정시켰다. 이와 같은 image cropping 및 re-sizing 을 통해 최종적으로 353 x 257 크기의 이미지를 생성하여 pose estimation module 로 전달한다. 또한, activation feature point 의 이미지 분석 대상 영역을 넓히기 위해서 atrouse convolution 을 적용하였다. Atrouse convolution 은 convolution kernel 의 분석 포인트를 일정 간격을 두고 배치한 kernel 이다. 아래 그림에서 (a) 가 일반적인 convolution kernel 이고, (b) 와 (c) 그림이 각각 convolution point 를 일정 간격을 두고 convolution poi...















