2024/07 5

AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving

0.Abstract자율주행 차량이 도로에서 마주치는 객체들은 대부분 희귀하거나 보지 못한 카테고리를 포함하여 Long-tail distribution을 보이는 경향이 있다. 이는 인식 모델에게 꽤나 큰 도전이 되어왔고, 이 문제를 해결하기 위해 지속적으로 데이터를 선별, 주석을 달아야했다. 이는 상당한 비용을 소모시키는 작업이다.이에 해당 연구는 최근의 Vision-Language model 및 LLM 모델의 성과를 활용하여 자동 데이터 엔진(AIDE)를 설계하고자 한다. 이 시스템은 자동으로 문제를 식별하고, 데이터를 선별하여 자동 라벨링을 통해 모델을 개선하고, 다양한 시나리오를 생성하여 모델을 검증한다.(모델의 지속적인 자습)이를 통해, 우수한 품질의 데이터들을 생성하고, 비용을 절감하는 성과를 거..

논문 2024.07.16

Open-Set Image Tagging with Multi-Grained Text Supervision

0. Abstract이 논문은 다양한 개방형 카테고리를 위한 일반화 능력을 향상시키는 Recognize Anything Plus Model(RAM++)을 소개한다. 이전 접근법들(CLIP 등)은 주로 이미지와 함께 제공되는 global supervision을 활용했으나, 이는 여러개의 개별 의미 태그를 인식하는데 있어 최적의 성능을 발휘하지 못했다.반면, RAM++는 개별 태그 supervision과 global text supervision을 통합한 통합 정렬 프레임워크 내에서 원활히 통합될 수 있다. 이 통합은 사전 정의된 태그 카테고리의 효율적인 인식을 보장할 뿐만 아니라 다양한 open-set 카테고리에 대한 일반화 능력을 강화한다.또한 RAM++는 의미론적으로 제한된 태그 Supervision을..

논문 2024.07.11

Large Language Models for Networking:Applications, Enabling Techniques, and Challenges

이번 논문은 CV 쪽 논문을 읽으며 관심을 가지게 된 LLM 등의 모델을 네트워크에 어떻게 적용해볼 수 있을까를 다룬 내용이다.확실히 네트워크 쪽은 아직 AI 모델을 도입할 정도의 단계가 아니고, 도입을 하기 위해선 여러가지 챌린지가 존재한다.그러나 그만큼 아직 많은 가능성이 존재하고, 연구할 가치가 있을 것이라고 믿어 의심치 않는다.그러한 목표의 일환으로 본 논문을 찾아 읽게 되었다.0. Abstract네트워크 기술은 급속도로 발전하고, 그에 따른 다양한 복잡한 Task들이 있다.그에 따라 네트워크의 설계, 구성, 관리 방식에 패러다임의 변화가 필요할 시점에 네트워크는 도착했다고 할 수 있다.이러한 변화를 위해 LLM을 활용하는 새로운 프레임 워크인 ChatNet을 만들었다. ChatNet은 도메인에 ..

논문 2024.07.08

Segment Anything

0. Abstract본 논문에서는 "Segment Anything (SA)" 프로젝트는 이미지 세분화를 위한 새로운 task, model, dataset을 소개한다.Meta는 독자적인 efficient model을 data collection loop에서 사용하여 지금까지 가장 큰 segmentation dataset을 구축하였다. 이 데이터 셋은 1100만 장의 라이선스가 부여되고 privacy를 준수한 이미지에 대해 10억개 이상의 마스크를 포함하고 있다.이 모델은 프롬프트 가능하도록 설계 및 훈련되어 새로운 이미지 분포 및 작업에 대해 zero-shot으로 전환할 수 있다.다양한 task에서 모델의 능력을 평가한 결과, zero-shot 성능이 인상적이었다고 한다.(Segment Anything은 ..

논문 2024.07.04

Grounding DINO : Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

* Grounding은 CV와 NLP에서 이미지 내의 객체와 관련된 텍스트 설명 또는 정보를 정확하게 연결하는 과정을 의미한다.0. Abstract이 논문에서는 "Grounding DINO"라는 open-set object detector를 소개한다.더보기* 오픈셋시스템이 훈련 과정에서 보지 못한 새로운 범주의 데이터나 객체를 인식하고 처리할 수 있는 능력이다.https://kimjy99.github.io/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0/dino/ [논문리뷰] Emerging Properties in Self-Supervised Vision Transformers (DINO)DINO 논문 리뷰 (ICCV 2021)kimjy99.github.io(Dino 관련 글)요약DI..

논문 2024.07.01