DeepPose: Human pose estimation via deep neural networks (CVPR 2014)


  • 논문 제목: DeepPose: Human pose estimation via deep neural networks
  • 연구 기관: 구글


2012년 AlexNet 이 CNN (Convolutional Neural Network) 의 가능성을 확인시켜준 뒤, CNN 은 여려 컴퓨터 비전 분야로 확산 적용되었다. 본 연구는 CNN 을 포즈 추정 분야에 적용한 초기 연구이다.

CNN 을 이용하여 사람 영역의 사각형 박스 위치를 추정하고, 박스 내에서 각 관절의 위치를 CNN 기반의 regression 방식으로 추정한다. 첫번째 regressor 를 이용하여 관절 위치를 추정한 후, 추정 오차를 보정하는 두 번째 regression network 을 순차적으로 연결하였다 (아마도, single regressor 로는 관절 위치 검출 성능이 충분히 만족스럽지 않았을 것으로 추정된다. 실제 필자의 경우에도, OCR 을 위한 숫자 영역 검출에 single regressor 로 글자 영역 사각형의 point 검출을 시도한 적이 있었는데 성능이 그리 좋지 않았었다). 두 번째 regressor 는 첫 번째 regressor 가 추정한 관절 위치 주변에 대해서만 fine tuning 하도록 제한 하였다. 이런 방식으로 multi-regressor 를 순차적으로 연결시켜 나갈 수 있다. 아래 그림에 본 연구에서 채용한 cascaded regression 구조를 나타내었다.


추정 오차에 대해 독특한 data augmentation 방법을 채용하고 있다. 이전 스테이지 결과로 부터 수집된 오차 데이터를 정규 분포로 모델링한 후, 현재 스테이지에서 가상의 오차값을 정규 분포를 이용하여 무작위 생성하는 방식으로 data augmentation 을 하였다.

본 연구는 CMU (Carnegie Mellon University) 에서 연구한 pose machine 기술과 비슷한 구조를 보인다 (CMU는 직접적인 point regression 을 하지 않고, 각 stage 에서 heat map 을 설정하여 추정하는 구조를 채택하였다). Pose machine 연구 논문 리뷰는 차 후 게재 예정이다.

구글에서는 본 연구 이 후, 보다 진보된 single stage regression 방식을 발표하였다. 아래 연구 논문이 본 연구의 후속 연구이다 (후속이긴 하나, 기술 구조는 매우 상이하다). 본 블로그에 아래 후속 연구 논문의 자세한 리뷰를 게재하였으며, 여기를 클릭하면 볼 수 있다.


Popular Posts

Show, attend and tell: Neural image caption generation with visual attention (ICML 2015)

Towards Accurate Multi-person Pose Estimation in the Wild (CVPR 2017)

Multiple object recognition with visual attention (arXiv 2014)

Recurrent models of visual attention (NIPS 2014)

A generic deep-learning-based approach for automated surface inspection (IEEE ToC 2017)