11월, 2021의 게시물 표시

Supervised contrastive learning. (arXiv 2020)

이미지
저자 : Khosla, P., Teterwak, P., Wang, C., Sarna, A., Tian, Y., Isola, P., ... & Krishnan, D. 연구기관 : Google, MIT SimCLR (A simple framework for contrastive learning of visual representations, PMLR 2020) 후속 논문이다. SimCLR의 단점을 보완하였다고 볼 수 있다.

A simple framework for contrastive learning of visual representations. (PMLR 2020)

이미지
  연구 기관: Google Brain, U. of Toronto 저자 :  Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020, November). Contrastive learning 의 기본 개념은 "intra-class feature distance"는 작게, "inter-class distance"는 크게 만드는 것이다. 본 논문은 encoder feature 를 그대로 쓰지 않고, encoder feature 를 조금 더 작은 차원의 projection feature 로 매핑 시킨 후, projection feature 를 대상으로 contrastive loss 를 정의하고 학습시켰다. 저자들은 본 기술을 SimCLR 로 명명하고 있다.

Active Learning Approach Methods

Active learning 은 새로운 데이터가 수집되었을 때 label data 없이 새로운 데이터를 모델에 반영하는 방법에 대한 연구이다. Continual learning, semi-supervised learning 등과 유사한 개념이라고 볼 수 있다. 새로운 데이터 중 학습에 반영할 만 한 것들을 선택적으로 학습에 반영한다. 2021년 현재 active learning 분야의 주요 논문들에서 언급되고 있는 기술적인 접근 방식은 대략 다음과 같다. Uncertainty sampling 방식 Confidence 가 가장 낮은 데이터 부터 Least confident : TOP 1 probability 가 가장 작은 데이터 부터 학습에 추가 Margin sampling : TOP 1 - TOP 2 값이 가장 작은 데이터 부터 학습에 추가 Entropy sampling : Entropy 가 가장 큰 데이터 부터    학습에 추가 Query by committee 서로 다른 복수개 모델의 disagreement 가 큰 데이터 부터 학습에 추가 Expected model change Model parameter 값을 가장 크게 변경시키는 데이터 부터 학습에 추가 즉, loss gradient 값이 가장 큰 데이터 부터 학습에 추가 Core-set 방식 Unlabeled data 전체를 cover할 수 있는 core-set 을 찾아서 학습에 추가 Ozan Sener and Silvio Savarese. Active learning for convolu tional neural networks: A core-set approach. In International Conference on Learning Representations, 2018. Samarth Sinha, Han Zhang, Anirudh Goyal, Yoshua Bengio, Hugo Larochelle, and Augustus Odena....

Neural architecture search with reinforcement learning (Arxiv 2017)

이미지
Neural architecture search with reinforcement learning 주저자: Barret Zoph (Google Brain) the structure and connectivity of a  neural network can be typically specified by a variable-length string. It is therefore possible to use  a recurrent network  – the controller – to generate such string. a simple method of using a recurrent network to  generate convolutional architectures. the recurrent network can be trained with  a policy gradient method to maximize the expected accuracy of the sampled architectures GENERATE MODEL DESCRIPTIONS WITH A CONTROLLER RECURRENT NEURAL NETWORK we use a controller to generate architectural hyperparameters of neural networks. To be flexible, the controller is implemented as a recurrent neural network. Let’s suppose we would like to predict feedforward neural networks with only convolutional layers, we can use the controller to generate their hyperparameters as a sequence of tokens: In our experiments, the ...