Pose machines: Articulated pose estimation via inference machines (ECCV 2014)


  • 논문 제목: Pose machines: Articulated pose estimation via inference machines
  • 연구 기관: Carnegie Mellon University



본 연구는 multi-stage classifier 를 이용하여 human pose 를 추정하는 기술에 관한 것이다. 본 연구는 neural network 기반의 기술이 아니라 hand-crafted feature function 을 적용 하였다. 아래 본 연구의 후속 연구에서 유사한 전체 기술 구조에 기반하여 hand-crafted function 을 neural network 로 대체한 기술을 발표하였다. 따라서 본 연구는 기술의 key idea 에 대해 간단히 설명하고, 자세한 내용은 조만간 게재할 후속 연구 리뷰 글에서 기술하기로 한다.




본 연구에서 제안하는 전체적인 기술 구조는 아래 그림과 같으며, 연구자들은 'Pose Machine' 이라고 명명하였다. 


<Pose Machine Architecture>


이해를 돕기 위해, 용어 정의 부터 설명한다.

  • Part
    • 추정하고자 하는 사람의 관절
  • P (p: 1 ~ P)
    • 전체 part 개수
  • Confidence map
    • 이미지 내 각 픽셀이 part 위치일 확률 (입력 이미지 크기와 동일 크기의 map)
    • 각 part 마다 1장 씩 할당 (위 그림에서 파란색 그림에 해당)
  • Image patch
    • 전체 이미지 중 특정 location z 픽셀 주위의 일정 영역 (local image)
  • Level (l: 1 ~ L)
    • Image patch 크기를 나타내는 인덱스
  • xz
    • 픽셀 위치 z에서 Image patch 의 특성을 나타내는 hand-crafted feature (feature function 은 고정)
    • Histogram of Gradients (HOG) features, Lab color features, 및 gradient magnitude 등
  • gt
    • Confidence map 을 출력하는 multi-class classifier
    • Confidence map 을 context feature 로 변환하는 feature function


위 그림 (a) 는 level 1 에 해당하는 image patch 로 부터 feature xz 를 생성하고, multi-class classifier gt 를 통해 각 파트의 confidence map bt 를 출력하는 과정을 도식화 한 것이다.

위 그림 (b) 는 각 레벨 마다 서로 다른 multi-class classifier 를 배치하고, 이러한 stage 를 복수 개로 순차 연결한 최종 기술 구조를 도식화 한 것이다.
Multi-class classifier 출력인 confidence map 의 개수는 각 레벨 마다 다르게 설정된다. 레벨 이 낮으면 (image patch size 가 작으면) confidence map 개수가 많으며, 레벨 이 높으면 (image patch size 가 크면) confidence map 개수가 작다. 
예를 들어, 레벨 1 은 출력 confidence map 개수를 P 개 로 설정하고 (전체 파트 개수), 레벨 L 은 출력 confidence map 개수가 1 로 설정할 수 있다. 이 경우, 레벨 1 에서는 part 1개당 confidence map 1 개를 할당하여 'local context' 를 분석하고, 레벨 L 에서는 전체 part P 에 대해 confidence map 1 개를 할당하여 'global context' 를 분석하는 구조로 설계할 수 있다.
이렇게 분석한 local and global context 는 다음 stage 로 전달되어 stage 가 진행될 수록 보다 정교한 confidence map 을 추정하게 된다. 이 과정에서, 각 레벨은 다른 레벨로 부터의 정보를 함께 입력받음으로써, local and global context 를 모두 이용하여 현재 레벨의 confidence map 을 생성한다.



아래 그림은 stage 가 진행될 수록 보다 정교한 confidence map 이 출력되는 것을 보여준다.



Popular Posts

Show, attend and tell: Neural image caption generation with visual attention (ICML 2015)

Multiple object recognition with visual attention (arXiv 2014)

Towards Accurate Multi-person Pose Estimation in the Wild (CVPR 2017)

Recurrent models of visual attention (NIPS 2014)

DeepPose: Human pose estimation via deep neural networks (CVPR 2014)

Convolutional pose machines (CVPR 2016)