11월, 2021의 게시물 표시

Supervised contrastive learning. (arXiv 2020)

이미지
저자 : Khosla, P., Teterwak, P., Wang, C., Sarna, A., Tian, Y., Isola, P., ... & Krishnan, D. 연구기관 : Google, MIT SimCLR (A simple framework for contrastive learning of visual representations, PMLR 2020) 후속 논문이다. SimCLR의 단점을 보완하였다고 볼 수 있다.

A simple framework for contrastive learning of visual representations. (PMLR 2020)

이미지
  연구 기관: Google Brain, U. of Toronto 저자 :  Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020, November). Contrastive learning 의 기본 개념은 "intra-class feature distance"는 작게, "inter-class distance"는 크게 만드는 것이다. 본 논문은 encoder feature 를 그대로 쓰지 않고, encoder feature 를 조금 더 작은 차원의 projection feature 로 매핑 시킨 후, projection feature 를 대상으로 contrastive loss 를 정의하고 학습시켰다. 저자들은 본 기술을 SimCLR 로 명명하고 있다.

Active Learning Approach Methods

Active learning 은 새로운 데이터가 수집되었을 때 label data 없이 새로운 데이터를 모델에 반영하는 방법에 대한 연구이다. Continual learning, semi-supervised learning 등과 유사한 개념이라고 볼 수 있다. 새로운 데이터 중 학습에 반영할 만 한 것들을 선택적으로 학습에 반영한다. 2021년 현재 active learning 분야의 주요 논문들에서 언급되고 있는 기술적인 접근 방식은 대략 다음과 같다. Uncertainty sampling 방식 Confidence 가 가장 낮은 데이터 부터 Least confident : TOP 1 probability 가 가장 작은 데이터 부터 학습에 추가 Margin sampling : TOP 1 - TOP 2 값이 가장 작은 데이터 부터 학습에 추가 Entropy sampling : Entropy 가 가장 큰 데이터 부터    학습에 추가 Query by committee 서로 다른 복수개 모델의 disagreement 가 큰 데이터 부터 학습에 추가 Expected model change Model parameter 값을 가장 크게 변경시키는 데이터 부터 학습에 추가 즉, loss gradient 값이 가장 큰 데이터 부터 학습에 추가 Core-set 방식 Unlabeled data 전체를 cover할 수 있는 core-set 을 찾아서 학습에 추가 Ozan Sener and Silvio Savarese. Active learning for convolu tional neural networks: A core-set approach. In International Conference on Learning Representations, 2018. Samarth Sinha, Han Zhang, Anirudh Goyal, Yoshua Bengio, Hugo Larochelle, and Augustus Odena. Small-GAN: Speeding up GAN traini

Neural architecture search with reinforcement learning (Arxiv 2017)

이미지
Neural architecture search with reinforcement learning 주저자: Barret Zoph (Google Brain) the structure and connectivity of a  neural network can be typically specified by a variable-length string. It is therefore possible to use  a recurrent network  – the controller – to generate such string. a simple method of using a recurrent network to  generate convolutional architectures. the recurrent network can be trained with  a policy gradient method to maximize the expected accuracy of the sampled architectures GENERATE MODEL DESCRIPTIONS WITH A CONTROLLER RECURRENT NEURAL NETWORK we use a controller to generate architectural hyperparameters of neural networks. To be flexible, the controller is implemented as a recurrent neural network. Let’s suppose we would like to predict feedforward neural networks with only convolutional layers, we can use the controller to generate their hyperparameters as a sequence of tokens: In our experiments, the process of generating an