분류 전체보기 106

AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving

0.Abstract자율주행 차량이 도로에서 마주치는 객체들은 대부분 희귀하거나 보지 못한 카테고리를 포함하여 Long-tail distribution을 보이는 경향이 있다. 이는 인식 모델에게 꽤나 큰 도전이 되어왔고, 이 문제를 해결하기 위해 지속적으로 데이터를 선별, 주석을 달아야했다. 이는 상당한 비용을 소모시키는 작업이다.이에 해당 연구는 최근의 Vision-Language model 및 LLM 모델의 성과를 활용하여 자동 데이터 엔진(AIDE)를 설계하고자 한다. 이 시스템은 자동으로 문제를 식별하고, 데이터를 선별하여 자동 라벨링을 통해 모델을 개선하고, 다양한 시나리오를 생성하여 모델을 검증한다.(모델의 지속적인 자습)이를 통해, 우수한 품질의 데이터들을 생성하고, 비용을 절감하는 성과를 거..

논문 2024.07.16

Open-Set Image Tagging with Multi-Grained Text Supervision

0. Abstract이 논문은 다양한 개방형 카테고리를 위한 일반화 능력을 향상시키는 Recognize Anything Plus Model(RAM++)을 소개한다. 이전 접근법들(CLIP 등)은 주로 이미지와 함께 제공되는 global supervision을 활용했으나, 이는 여러개의 개별 의미 태그를 인식하는데 있어 최적의 성능을 발휘하지 못했다.반면, RAM++는 개별 태그 supervision과 global text supervision을 통합한 통합 정렬 프레임워크 내에서 원활히 통합될 수 있다. 이 통합은 사전 정의된 태그 카테고리의 효율적인 인식을 보장할 뿐만 아니라 다양한 open-set 카테고리에 대한 일반화 능력을 강화한다.또한 RAM++는 의미론적으로 제한된 태그 Supervision을..

논문 2024.07.11

Large Language Models for Networking:Applications, Enabling Techniques, and Challenges

이번 논문은 CV 쪽 논문을 읽으며 관심을 가지게 된 LLM 등의 모델을 네트워크에 어떻게 적용해볼 수 있을까를 다룬 내용이다.확실히 네트워크 쪽은 아직 AI 모델을 도입할 정도의 단계가 아니고, 도입을 하기 위해선 여러가지 챌린지가 존재한다.그러나 그만큼 아직 많은 가능성이 존재하고, 연구할 가치가 있을 것이라고 믿어 의심치 않는다.그러한 목표의 일환으로 본 논문을 찾아 읽게 되었다.0. Abstract네트워크 기술은 급속도로 발전하고, 그에 따른 다양한 복잡한 Task들이 있다.그에 따라 네트워크의 설계, 구성, 관리 방식에 패러다임의 변화가 필요할 시점에 네트워크는 도착했다고 할 수 있다.이러한 변화를 위해 LLM을 활용하는 새로운 프레임 워크인 ChatNet을 만들었다. ChatNet은 도메인에 ..

논문 2024.07.08

Segment Anything

0. Abstract본 논문에서는 "Segment Anything (SA)" 프로젝트는 이미지 세분화를 위한 새로운 task, model, dataset을 소개한다.Meta는 독자적인 efficient model을 data collection loop에서 사용하여 지금까지 가장 큰 segmentation dataset을 구축하였다. 이 데이터 셋은 1100만 장의 라이선스가 부여되고 privacy를 준수한 이미지에 대해 10억개 이상의 마스크를 포함하고 있다.이 모델은 프롬프트 가능하도록 설계 및 훈련되어 새로운 이미지 분포 및 작업에 대해 zero-shot으로 전환할 수 있다.다양한 task에서 모델의 능력을 평가한 결과, zero-shot 성능이 인상적이었다고 한다.(Segment Anything은 ..

논문 2024.07.04

Grounding DINO : Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

* Grounding은 CV와 NLP에서 이미지 내의 객체와 관련된 텍스트 설명 또는 정보를 정확하게 연결하는 과정을 의미한다.0. Abstract이 논문에서는 "Grounding DINO"라는 open-set object detector를 소개한다.더보기* 오픈셋시스템이 훈련 과정에서 보지 못한 새로운 범주의 데이터나 객체를 인식하고 처리할 수 있는 능력이다.https://kimjy99.github.io/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0/dino/ [논문리뷰] Emerging Properties in Self-Supervised Vision Transformers (DINO)DINO 논문 리뷰 (ICCV 2021)kimjy99.github.io(Dino 관련 글)요약DI..

논문 2024.07.01

Learning Transferable Visual Models From Natural Language Supervision - CLIP

1. Introduction and Motivating WorkAutoregressive나 masked language modeling과 같은 Task-agnostic objective들은 compute, model capacity 및 데이터에서 여러 단계로 확장되어왔다. 또한 표준화된 입출력 인터페이스로서 "Text to Text"와 같은 개발은 작업에 구애받지 않는 아키텍처가 다운스트림 데이터 세트로 Zeroshot 전송할 수 있게 되며 일일히 데이터 세트에 라벨링을 하거나 전문 출력 헤드를 추가하거나 하는 필요성이 없어졌다.그러나 Computer Vision 쪽에서는 ImageNet과 같이 Clowd-labeled dataset을 이용해 pre-train을 하는 것이 표준 관행이다. 만약 웹 텍스트..

논문 2024.06.27

CLIP : Connecting text and images. (기본 개념)

* https://openai.com/index/clip/ 를 읽고 작성한 글입니다. CLIP(Contrastive Language-Image Pre-training) 모델은 자연어를 통해 시각적 개념을 효율적으로 학습할 수 있게 설계된 신경망이다. 이 모델은 GPT-2, GPT-3의 "제로 샷"과 유사하게, 인식해야 할 시각적 카테고리의 이름마 제공하면 어떤 시각적 분류 벤치마크에도 이용할 수 있다. CLIP은 인터넷에서 발견되는 (이미지-텍스트) 쌍을 이용한다. 이 데이터를 이용하여 주어진 이미지에 대해 무작위로 샘플링된 32,768 개의 텍스트 스니펫 세트 중에서 실제로 데이터 세트에서 어떤 것과 쌍을 이루었는지 예측하는 proxy training task를 만든다.더보기Proxy Training ..

개인 공부 2024.06.25

LVM 조사 - 1

LVM - Large Vision Model자연어 처리의 대규모 언어 모델(LLM)과 유사한 고급 AI 기술로 CNN, transformer와 같은 NN 아키텍처를 활용하여 이미지 분류, 물체 감지, 이미지 생성 등의 작업을 한다. 주요 기법은 transfer learning과 fine tuning을 통해 적응력을 입증하며 동시에 애플리케이션과 하드웨어 전반에 걸쳐 확장되고 있다. LVM의 적용 기법LVM은 CNN 또는 Transformer와 같은 고급 Neural Network를 사용하여 크고 다양한 이미지 혹은 동영상 데이터 세트에 대해 훈련된다. 또한 LVM은 시각과 언어 양식을 결합하여 이미지 캡션, 시각적 질문에 대한 답변, 이미지 검색과 같은 작업을 수행할 수 있다. (Multimodal) L..

프로젝트 2024.06.24

Q-Learning

1. Model-Based AlgorithmModel-Based Algorithm에서의 Model은 일종의 Transition model로써, 상태의 전이를 모델링한 것을 의미한다.쉽게 접근해보면, 사진과 같이 파악된 Real World의 상태들에 대한 전이 확률을 모델링하는 것이다.이렇듯 Model-Based 에서 model은 World environment에 대한 것을 파악하고 있으며, 이에 따라 우리의 행동이 어떤 환경의 변화를 가져올지를 예측하는 알고리즘이 Model-based algorithm이다.그러나, Real World에서 가능한 모든 상태를 알고 있는 것이 가능할까? 안다고 하더라도, 그 정보가 얼마나 유지될까? 2. Model-Free Algorithm이에 대한 대안으로 고안된 것이 M..

개인 공부 2024.06.24

확률 및 통계 - 10. Generating functions

10.1. Generating functions for Discrete distributions평균과 분산만으로는 분포에 대한 모든 정보를 알 수 없다. * Momentsμk : k-th moment of Xμk = E(X^k)ex) μ = E(X) = μ1, σ^2 = E(X^2) - (E(X))^2 = μ2 - ( μ1)^2 => 정의된 X에 대한 모든 moment들을 알면 X에 대한 분포를 정의할 수 있다. * moment generating functions(m.g.f.)더보기Ex)더보기더보기* Moment ProblemX가 유한한 Sample Space의 discrete r.v.이고 moments µk = E(X^k) 이면, 다음의 정리가 모든 t에 대해 수렴한다.=> 어떤 분포 p로 정의되는 ..

개인 공부 2024.05.24