논문

AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving

Beige00 2024. 7. 16. 14:25

0.Abstract

자율주행 차량이 도로에서 마주치는 객체들은 대부분 희귀하거나 보지 못한 카테고리를 포함하여 Long-tail distribution을 보이는 경향이 있다. 이는 인식 모델에게 꽤나 큰 도전이 되어왔고, 이 문제를 해결하기 위해 지속적으로 데이터를 선별, 주석을 달아야했다. 이는 상당한 비용을 소모시키는 작업이다.

이에 해당 연구는 최근의 Vision-Language model 및 LLM 모델의 성과를 활용하여 자동 데이터 엔진(AIDE)를 설계하고자 한다. 이 시스템은 자동으로 문제를 식별하고, 데이터를 선별하여 자동 라벨링을 통해 모델을 개선하고, 다양한 시나리오를 생성하여 모델을 검증한다.(모델의 지속적인 자습)

이를 통해, 우수한 품질의 데이터들을 생성하고, 비용을 절감하는 성과를 거둘 수 있었다.


1. Introduction

자율주행차량(AV)이 달리는 도로는 Real World가 될 것이고, 이에 따라 많은 객체와 시나리오를 마주하게 된다.

이러한 개방형 세계에서 기인하는 Long tail distribution 특징이 안전이 가장 중요한 분야인 자율주행 시스템에게 있어 여러 문제를 야기하는 요소가 된다.

도로를 둘러싼 환경이 변화함에 따라(ex: 교통법의 변화, 국가와 지역의 특수성 등),  끊임 없이 모델을 개선할 필요성이 부각되며, 모델의 적응성이라는 것이 큰 분야로 뜨게 되었고 이를 실현하기 위해 방대한 데이터를 학습하는 방법이 제기되었다. 그러나 매분 도로에서 수집되는 방대한 데이터에도 불구하고 활용할 데이터를 식별하는 데에 있는 문제 때문에 효과적인 이용은 이루어지지 못하고 있다. 

따라서, 포괄적인 자동 데이터 엔진을 개발함으로써 자율주행 차량 산업의 진입 장벽을 낮추는 시도가 필요하다고 볼 수 있다.

 

 

상단은 자율 주행을 위한 DevOp system의 구성 요소, 하단은 성능 지표이다.(기존 방법과 유사한 성능 지표 달성)

자동화된 데이터 엔진을 설계하는 것은 어려우며 신뢰도 측면에서 여러 도전이 존재할 수 있다. 그러나 Vision-Language model과 LLM의 활용을 통한 접근은 새로운 해결 방안을 제시하였다.

전통적인 데이터 엔진은 문제 탐색 -> 데이터 큐레이션, 라벨링 -> 모델 훈련 -> 평가의 싸이클을 반복한다.

이 모든 과정은 LLM과 LVM을 활용하여 자동화 시킬 여지가 존재하며 본 연구에서는 이를 활용한 AIDE를 제안한다.

구체적으로, LVM을 활용하여 문제를 식별하고 관련 데이터를 쿼리하며 데이터를 자동 라벨링하고 검증 단계에서 LLM과 함께 검증한다. (그림 1 상단 참조)

전통적인 Data Engine은 광범위한 인간의 라벨링과 개입에 크게 의존하는 반면, AIDE는 사전 훈련된 LVM과 LLM을 활용하여 과정을 자동화하였다. Open-Vocabulary Object Detection(OVOD)은 인간의 주석을 요구하지 않지만, Supervised 방법에 비해 성능이 크게 떨어진다. 라벨링 방법을 줄이기 위한 또 다른 방법으로는 Semi-SL, Active Learning 방법이 있지만 이들은 여전히 방대한 데이터들을 소화해내지 못한다. (결론적으로 AIDE가 좋다는 소리이다.)

 

AIDE의 자세한 단계는 상단의 두번째 그림에 나타나있다.

Issue Finder에서는 dense captioning model을 활용하여 이미지를 자세히 설명한 다음, 설명된 객체들이 라벨 공간이나 예측에 포함되어 있는지 확인한다. 이는 Large image captioning model이 OVOD에 비해 더 강건한 zero-shot 시작점을 가져갈 수 있다는 가정에 기반을 둔 결정이다.

Data Feeder에서는 새로운 카테고리를 포함할 수 있는 관련 이미지를 찾는다. 이미지 유사성을 활용하여 이미지를 검색하는 것보다 LVM이 더 정확한 이미지 검색을 제공한다는 것을 확인한 뒤 선택한 결과이다.

 

Model Updater에서 기존 Label Space와 관련 이미지에서 제공된 새로운 카테고리를 사용하여 OWL-v2에 프롬프트를 주어 검색된 이미지에 대한 예측을 생성한다. (이는 사전 연구인 OVOD 의 방법을 채용하였다.) 이 예측을 필터링하기 위해, CLIP을 사용하여 가상 박스에 대한 Zero-shot 분류를 수행하고 새로운 카테고리에 대한 가상 라벨을 생성한다.

 

Verification에서는 LLM, 예를 들어 ChatGPT를 활용하여 새로운 객체가 주어진 다양한 장면 설명을 생성한다.

생성된 설명을 바탕으로 업데이트된 모델을 다시 평가하기 위해 LVM을 사용해 관련 이미지를 쿼리한다.

이후, LVM의 예측 결과를 인간이 검토하고 정확하지 않다면 인간에게 Ground truth label을 제공하도록 요청하며 이를 통해 모델을 더욱 개선할 수 있다.

더보기

OWL-v2는 Open World Learning을 기반으로 새로운 카테고리 객체도 감지하고 인식할 수 있게 한 Zero-shot object 식별, 탐지기이다.

AIDE의 효과를 측정하기 위해 본 연구에서는 새로운 벤치마크를 설정하는 것을 제안한다.

이 벤치마크는 기존의 AV 데이터셋을 사용하여 AIDE를 다른 기술이나 방법론과 비교하려고한다.

결론적으로 OWL-v2와 비교하여 새로운 카테고리에서 AP 2.3% 향상을 이루었고 알려진 카테고리에서도 8.9% AP 향상을 달성했다. 요약하자면 본 논문의 기여는 2가지다.

 

1. 자율 주행 모델을 위한 자동 데이터 엔진의 새로운 설계 패러다임을 제안한다. 이는 LVM을 사용한 자동 데이터 쿼리 및 라벨링과, 가상 라벨을 사용한 지속적 학습을 포함한다. 새로운 카테고리로 확장될 때, 이 접근법은 탐지 성능과 데이터 비용의 Trade off의 최적화를 내린다.

2. AV 인식을 위한 자동 데이터 엔진을 평가할 수 있는 새로운 벤치마크를 도입했다.


2. Related Works

- Data Engine for Autonomous Vehicles (AV) 

요약하자면 기존 연구는 모델 훈련에 초점을 맞추고 있으며, AV 데이터 엔진의 다른 기능에 대해서는 연구가 부족하고, 현재 솔루션들은 유지 관리, 비용 효율성, 확장성 측면에서 제한이 있다고 한다.

이를 LVM을 도입하여 데이터 엔진의 확장성을 향상, 비용 감축의 장점으로 극복 가능하다고 한다.

 

- Nobel Object Detection

요약하자면 전통적인 2D 객체 감지는 Closed label space를 활용하여 Unseen Category 감지가 불가능하였고, OVOD는 간단한 텍스트 프롬프트를 통해 무엇이든 감지할 수 있다고 하나 사전 훈련된 카테고리의 특수성과 Unseen Category의 일반화 사이 Trade off를 맞추어야하기 때문에 Closed Set Object Detection보다 성능이 떨어졌다. 이러한 단점을 극복하기 위해 엄청난 양의 데이터를 학습하는 방법이 도입되었지만 새로운 카테고리를 개선하는 동시에 알려진 카테고리의 망각을 완화하는 균형을 맞추는 것은 여전히 어려운 문제이다. 이러한 "망각"의 문제는 자율 주행과 같은 안전성이 강조되는 작업일 수록 더더욱 꺼려지는 요인이다.

본 연구는 차량 카메라에 의한 이미지 캡처 과정과 장면 선행으로 인한 객체 카테고리에서 나오는 도메인 문제에 초점을 맞췄다. AIDE는 Closed Set Detector의 Label Space를 반복적으로 확장하여 새로운 카테고리와 알려진 카테고리 모두에서 성능을 유지하며 감지가 가능했다.

 

- Semi-Supervised Learning(Semi-SL) and Active Learning(AL)

요약하자면 AV가 운행 중 계속 수집한 데이터에서 새로운 카테고리를 수동으로 식별하고 라벨을 붙인 후 Detector를 훈련시키는 것이 새로운 카테고리 감지를 가능하게 하는 기본적인 해결책이다.

AIDE의 이전 보완책 연구였던 Semi-SL과 AL은 훈련을 초기화하기 위해 소량의 라벨 데이터만 필요로 했다. 그러나 AV에 의해 수집된 방대한 양의 라벨 없는 데이터를 고려할 때, 새로운 카테고리에 대해 심지어 소량의 데이터를 라벨링하는 것도 도전적이고 비용이 많이 들 것이다. 또한 Semi-SL과 AL은 라벨이 붙은 데이터와 없는 데이터가 같은 분포에서 왔으며, 같은 Label Space를 사용한다고 가정한다. 이는 Real-World에서는 성립하지 않는 가정이며 새로운 카테고리에만 Detector를 단순 조정하는 것은 이전에 알려진 카테고리의 망각을 초래한다.


3. Method

AIDE는 Issue Finder, Data Feeder, Model Updater, Verification의 4단계에 걸쳐 데이터를 생성한다.

IF는 이미지가 주어졌을 때 감지 결과와 밀집 캡셔닝을 비교하여 기존 Label Space에서 누락된 카테고리를 자동으로 식별한다.

DF는 IF에서 받은 누락 카테고리 정보를 자율주행차에 의해 수집된 대규모 이미지 풀에서 관련 이미지에 대한 텍스트 가이드 검색을 수행하게 트리거 시킨다.

MU는 쿼리된 이미지에 라벨을 자동으로 붙이고 기존 Detector에서 가상 라벨을 활용하여 새로운 카테고리를 지속적으로 훈련한다. 업데이트된 Detector는 다양한 시나리오에서 평가하고, 필요한 경우 새로운 반복을 트리거하기 위해 Verification으로 전달된다.

 

- 3.1. Issue Finder

AV가 일상적인 운행 중에 수집하는 방대한 양의 라벨이 없는 데이터를 고려할 때, 기존 Label Space의 누락된 카테고리를 식별하는 것은 Detection Result와 Image Context를 광범위하게 비교하여 차이를 발견해야 하기 때문에 어렵다.

이 어려움을 완화하기 위해 Multi Modality Dense Captioning(MMDC)을 사용하여 과정을 자동화하는 것을 고려하였다.

Otter와 같은 MMDC 모델은 장면 맥락의 세밀하고 포괄적인 설명을 제공할 수 있다.(사진 참조)

따라서 이 모델을 사용하는 것이 새로운 카테고리의 라벨 동의어를 반환할 가능성이 높다고 판단하였다.

구체적으로, 차량에 탑재된 감지기에 의해 생성된 라벨이 없는 이미지는 MMDC 모델에 전달되며, 이를 통해 이미지의 자세한 캡션을 얻어낸다. 이렇게 탐지하지 못하는 카테고리가 감지되면(사진의 빨간색) 이에 해당하는 라벨을 넣어 Label Space를 확장하기 위해 관련 이미지를 검색하는 Data Feeder로 해당 데이터를 넘겨준다.

 

- 3.2. Data Feeder

Image similarity 점수가 떨어진다.

데이터 피더의 목적은 먼저 새로운 카테고리를 포함할 수 있는 의미 있는 이미지를 쿼리하는 것이다.

1. 데이터 피더는 모델 업데이터에서 의사 라벨링을 위한 검색 공간을 줄이고 의사 라벨링을 가속화 해야한다.

2. 데이터 피더는 훈련 중에 일반적이거나 관련 없는 이미지를 제거하여 훈련 시간을 줄이는 동시에 성능을 향상시켜야한다.

이는 매일 대량의 데이터를 수집할 수 있는 실제 상황에서 특히 중요하다.

새로운 카테고리가 임의적이고 개방적인 어휘일 수 있기 때문에 입력 이미지와 유사한 이미지를 찾는 간단한 해결책은 그냥 새로운 카테고리가 탐색된 이미지와 유사한 이미지를 Image similarity를 통해 DB에서 찾는것이다. 그러나 본 논문을 작성한 연구자들은 이미지 유사성이 AV dataset 특유의 다양성 때문에 관련 이미지를 충분히 식별하는데 신뢰할 수 없다는 것을 발견했다.

따라서 대신 데이터 피더는 LVM을 활용하여 기존 이미지 데이터베이스에서 텍스트 가이드 이미지 검색을 수행하여 새로운 카테고리와 관련된 이미지를 쿼리한다. LVM의 후보로는 BLIP-2를 고려했다. 정확히는 Detector에서 이미지, MMDC 모델에서 설명 텍스트를 받아 BLIP-2에서 이미지, 텍스트 임베딩 사이의 Cosine Similarity를 측정하고 추가 라벨링을 위해 상위 k개의 이미지만 검색한다. 텍스트 프롬프트의 경우, "An image containing {MMDC에서 제공된 unseen category description}"와 같은 템플릿을 사용한다.

 

- 3.3. Model Updater

 

모델 업데이터의 목적은 사람의 주석없이 Detector가 새로운 객체를 감지하도록 학습시키는 것이다. 따라서 데이터 피더가 쿼리한 이미지에 대해 pseudo-labeling을 수행한 다음, 이를 사용하여 감지기를 훈련한다.

더보기

* 의사 라벨링(Pseudo-Labeling)

1. 초기 모델 훈련 : 라벨이 있는 데이터를 사용하여 모델을 훈련시킨다.

2. 라벨 예측(의사 라벨 생성) : 1.에서 훈련된 모델을 사용하여 라벨이 없는 데이터에 대한 예측을 수행. 이 때 생성된 라벨을 '의사 라벨'(가상 라벨)이라고 한다.

3. 의사 라벨 활용 : 이 의사 라벨(가상 라벨)을 진짜인 것처럼 사용하여 모델을 다시 훈련시킨다. 이 과정을 통해 모델은 라벨이 있는 데이터 뿐만 아니라 라벨이 없는 데이터에서도 학습을 할 수 있게 된다.

4. 반복 과정 : 이러한 과정을 여러번 반복하면서 모델은 점점 더 많은 라벨이 없는 데이터에도 성능을 발휘할 수 있게 된다.

Two-Stage Pseudo-Labeling

=> 박스 생성, 라벨 생성 두 부분으로 구성된 의사 라벨링 절차를 설계하였다. 이러한 2단계 프레임워크는 의사 라벨 생성의 문제를 더 잘 분석하고 라벨 생성 품질을 향상시킬 수 있도록 도와준다.

박스 생성은 이미지 내에서 가능한 많은 객체 제안을 식별하는 것을 목표로하며(라벨 생성을 위한 충분한 후보를 확보하는 것.), 이를 위해 폐쇄된 라벨 공간으로 사전 훈련된 RPN(Region Proposal Network), 개방 어휘 탐치기(Open Vocabulary Detector)를 고려할 수 있으며 이러한 고려의 끝에 OWL-v2가 새로운 카테고리를 지역화하는데 더 높은 재현율을 보여준다는 것을 관찰하였다고 한다.(결론적으로 OVD 선택)

따라서 Zero-shot Detector로 OWL-v2를 선택하여 Box Proposal을 얻었다. 구체적으로는 Issue Finder에서 제공된 새로운 카테고리 이름을 기존 라벨 공간에 추가하고 텍스트 프롬프트를 생성한 다음, 이미지에 대한 추론을 위해 OWL-v2에 프롬프트를 보낸다. OWL-v2의 예측에서 Box Proposal만을 유지하고 라벨은 제거한다.(OWL-v2의 라벨은 AV 데이터 셋에 대해 믿을만하지 못하다.)

이를 개선하고자 CLIP을 사용하여 OWL-v2의 예측을 Cleaning하고, 의사 라벨을 생성하기 위한 또 다른 단계의 라벨 필터링을 제안한다. 구체적으로, OWL-v2의 예측 박스를 원래의 CLIP 모델에 Zero-shot Classification으로 전달한다. 

CLIP이 제로샷 분류를 수행하기 위한 라벨 공간과 관련해서 먼저 기본 라벨 공간을 생성한다. 이는 사전 훈련한 데이터 셋과 COCO에서 온 라벨 공간의 조합으로, 거리에서 일반적으로 존재할 수 있는 일상적인 객체를 대부분 포함하도록 한다.

기본 라벨 공간은 Issue Finder가 기본 라벨 공간에 없는 새로운 카테고리를 식별할 때 확장된다.

 

Continual Training with Pseudo-labels

기존 Detector를 새로운 카테고리의 의사 라벨로 직접 훈련하는 것은 어려운 일이다. 이러한 라벨들은 Detector가 과적합되고 알려진 카테고리를 잊어버리게 할 수 있기 때문이다. 이 문제는 라벨이 없는 데이터가 Detector가 이전에 학습한 새로운 카테고리와 알려진 카테고리 모두를 포함할 수 있기 때문에 발생한다. 알려진 카테고리에 대한 라벨이 없고 새로운 카테고리에 대한 라벨만 있는 경우, 모델은 알려진 카테고리에 대한 예측을 잘못 억제하고 오직 새로운 카테고리를 예측하는 데만 집중할 수 있다. 훈련이 진행됨에 따라 알려진 카테고리는 점차 기억에서 사라진다. 이 문제를 해결하기 위해, 본 연구는 훈련된 알려진 카테고리의 의사 라벨을 포함 시키는 것으로 해결했다.

따라서, Detector는 새로운 카테고리와 알려진 카테고리 모두의 의사 라벨로 업데이트 된다. 알려진 카테고리의 의사 라벨을 얻기 위해 먼저 OWL-v2를 데이터 적용 이전, 원형의 데이터를 Detector에 넣어 추론시킨다. (알려진 카테고리의 라벨 범위내의 추론을 하게 됨.) 알려진 카테고리의 의사 라벨을 포함시키는 것이 모델이 알려진 카테고리와 새로운 카테고리를 구분함에 있어 도움이 되고, 이를 통해 망각 문제를 완화했다. 알려진 카테고리 내 의사 라벨 추론이 경우 높은 예측 신뢰도를 가진 의사 라벨만을 사용한다. 새로운 카테고리의 경우 CLIP을 사용하여 의사 라벨을 필터링한다.

 

- 3.4. Verification

검증 단계는 Model Updater에 의해 업데이트된 Detector가 다양한 시나리오에서 새로운 카테고리를 감지할 수 있는지를 확인하는 것을 목표로 한다. 이를 통해 모델이 예상치 못하거나 보이지 않는 시나리오를 처리할 수 있는지 확인을 할 수 있다.

이를 위해, ChatGPT에 새로운 카테고리의 이름을 프롬프트하여 다양한 장면 설명을 생성한다. 이러한 설명은 객체의 다양한 모습, 주변 객체, 하루 중 시간, 날씨 조건 등 시나리오의 변화를 포함한다. 이렇게 ChatGPT에 의해 생성된 새로운 카테고리의 장면 설명을 BLIP-2에 쿼리하고 BLIP이 찾아낸 장면 설명 기반 이미지를 사용해 모델의 견고성을 테스트한다. 이 후, 정확성을 보장하기 위해, BLIP-2의 예측이 정확한지 검토하도록 사람들에게 요청하고 틀렸을 시 사람들에게 Ground Truth Label을 제공하도록 요청한다.

기존 솔루션은 사람들이 모델 예측을 하나씩 수동으로 검토하는 것이었다. 그러나 본 검증 방법은 LLM을 활용하여 다양한 장면 생성을 통해 잠재적인 실패 사례를 찾는 검색을 용이하게 하며, 검색 비용을 크게 절약할 수 있고, 감지 결과 수정의 비용을 낮출 수 있다.


4. Experiments

4.1. Experimental Setting

- Datasets and Novel Categories Selection

AV 시스템은 단일 데이터 소스로 훈련하기 어렵다.(다양성 및 특수성 때문이다.)

예를 들면 AV는 세계 여러 지역에서 데이터를 수집할 수 있다. 이러한 특성을 시뮬레이션하기 위해 기존 AV 데이터셋을 활용하여 Closed-Set Detector를 공동으로 훈련했다. 이 사전 훈련된 Detector들을 SuperVised Learning, Semi-SL, AIDE에 대한 초기값으로 사용한다. Label Space를 결합하면 총 46개의 카테고리가 Space 상에 존재한다. 여기서 5개는 "Motor Cyclist", "bicyclist", "Construction vehicle", "trailer", "traffic cone"으로 설정하고 나머지 41개는 알려진 카테고리를 조합한다.(5개의 새로운 카테고리 + 41개의 알려진 카테고리)

 

- Methods for Comparision

AV 시스템을 위한 새로운 객체 감지에 특화된 자동 데이터 엔진의 설계에 관한 연구는 많지 않다.

따라서 AIDE와 비교할 수 있는 대응물을 찾기는 쉽지 않았으며, 이를 위해 평가를 두 부분으로 나누었다고 한다.

 

1. 새로운 객체 감지 성능에 대한 대안적 탐지 방법 및 학습 패러다임의 비교.

2. 자동 데이터 엔진의 각 단계에 대한 Ablation 연구 및 분석

 

1.은 AIDE가 라벨이 없어도 Detector가 새로운 카테고리를 감지할 수 있게 해주는 것이므로 새로운 카테고리 성능에 대한 Zero-shot OVOD와 비교를 한다. 또한 AIDE가 라벨 비용을 줄이는 효율성과 효과성을 지님을 보임을 입증하기 위해, Detector를 다양한 비율의 Ground truth label로 훈련하는 Semi-SL 및 Fully-SL과도 비교한다.

(구체적으로는 OWL-v2, OWL-ViT와 같은 OVOD, Unbiased Teacher와 같은 Semi-SL)

 

- Experimental Protocols

선택된 5개의 class를(Motor Cyclist...) 새로운 class로 간주하고 각각의 실험을 별도로 수행하여 Issue Finder에 의해 한 번에 하나의 새로운 class가 식별된 시나리오를 가정한다. Semi-SL에 대해서는 훈련을 위해 다양한 수의 Ground truth image를 제공한다. 각 이미지는 새로운 카테고리 하나 또는 여러 개의 객체를 포함할 수 있다. 모든 비교 방법은 새로운 카테고리로 구성된 데이터셋에서 평가된다.

 

- Evaluation

AIDE가 AV 시스템을 위한 전체 데이터 큐레이션, 모델 훈련 및 검증 과정을 자동화함에 따라 엔진이 이미지 검색 및 라벨링 비용과 새로운 객체 감지 성능 사이의 Trade-off 관계를 엔진이 어떻게 조정할지에 초점을 두었다.

따라서 인간 라벨링 비용과 GPU 추론 비용을 측정한다.

즉, AIDE에서 LVM/LLM의 사용 비용과 AIDE를 위한 의사 라벨 모델 훈련 비용, '라벨링 + 훈련 비용'으로 metric을 정의한다는 것이다. 바운딩 박스 라벨링 비용은 $0.06이고 GPU 비용은 시간 당 $1.1이다. ChatGPT 비용은 무시할 수 있다.

더보기

전체 데이터 큐레이션(Total Data Curation)

1. 수집

2. 정리

3. 검증

4. 유지 관리

의 과정을 의미하며 이를 통해 데이터의 품질과 관련성을 확보할 수 있다.

- Experimental Details

자율 주행은 실시간 추론을 요구한다. 따라서 OWL-ViT와 같은 FPS가 3밖에 되지 않는 OVOD 방법 대신, Fast-RCNN을 Detector로 선택하였다고 한다. AIDE를 반복적으로 실행하여 새로운 객체 감지 능력을 확장하는 Fast-RCNN은 각 새로운 카테고리에 대해 Learning Rate가 5e^-4인 3000회 반복으로 훈련하였으며, 훈련이 필요한 모든 비교 방법에 대해 동일한 하이퍼파라미터를 사용했다.

 

4.2. Overall Performance

상단은 자율 주행을 위한 DevOp system의 구성 요소, 하단은 성능 지표이다.(기존 방법과 유사한 성능 지표 달성)

AIDE를 한번의 완전한 사이클로 실행한 후의 새로운 객체 감지 성능을 제공한다.

SOTA OVOD인 OWL-v2와 비교하여 새로운 카테고리에서 2.3AP, 알려진 카테고리에서 8.7AP로 더 높은 성능을 보여주며 이는 AIDE가 OVOD 방법으로 Open-Vocabulary knowledge를 추출하여 이득을 볼 수 있음을 보여준다.

또한 AIDE는 Semi-SL이 포함중인 지속적인 학습 설정을 포함하지 않기 때문에 망각 현상을 덜 겪는다.

Data Feeder의 유무에 따라 AIDE를 결합하면, Data Feeder가 관련 없는 이미지를 사전 필터링할 수 있으며, Model Updater는 소수의 관련 이미지에 의사 라벨을 할당하기만 하면 되므로 추론 시간 비용을 절감할 수 있다.

해당 방법의 비용 대비 성능의 효율성

4.3. Analysis on AIDE

- Issue Finder

3.1 절에서 언급했던 바와 같이 Issue Finder의 목표는 기존 Label Space에 존재하지 않는 카테고리를 자동으로 식별하는 것이다. 이를 위해, 새로운 카테고리를 자동으로 식별하는 성공률을 평가하였다.

Dense Captioning Model은 새로운 카테고리의 이름이 주어졌을 때 OVOD 방법에 비해 이미지에 새로운 카테고리가 포함이 되어있는지를 더 정확하게 판단할 수 있게 한다. Issue Finder에서는 누락된 카테고리를 식별하기만 하면 되므로 Issue Finder는 Dense Caption Model을 사용하고, 후속 단계에서 새로운 객체를 지역화하는데 OVOD를 활용하기로 하였다.

 

- Data Feeder

상위 k개의 쿼리된 이미지 정확도

Data Feeder의 목표는 대규모 이미지 풀에서 높은 정밀도로 관련 데이터를 큐레이션하는 것이다. 해당 모델의 후보군으로는 CLIP 특성에 의한 이미지 유사성 검색과 LVM. 즉 BLIP-2 및 CLIP을 이용한 텍스트 가이드 이미지 검색을 포함한 여러 선택지를 비교한다. 전체적으로 LVM 기반 검색이 이미지 유사성 기반 검색보다 성능이 떨어짐을 알 수 있다.

이는 새로운 카테고리가 큰 내부 클래스 변이를 가질 수 있기 때문이며, 따라서 단 하나의 대표 이미지가 관련 이미지를 충분히 찾는데 충분하지 않을 수 있다. 또한 같은 LVM에서도 CLIP보단 BLIP-2가 더 좋은 성능을 보이므로 Data Feeder는 BLIP으로 하였다.

 

- Model Updater

첫번째 단계인 박스 생성은 OWL-v2에서 제공하는 Box Proposal을 사용하는 선택을 하였다. 해당 방법을 COCO에서 사전 훈련된 MaskRCNN의 Region Proposal Network(RPN)을 이용하여 박스 제안을 생성하는 VL-PLM과 비교한다. 또한 Segment Anything Model에서 제안하는 것과 비교했다. 결론은 OWL-v2를 선택하게 되었다.(SAM,VL-PLM 보다 AP가 높음)

두번째 단계인 라벨 생성은 CLIP에 의한 필터링이 없이 바로 OWL-v2 예측을 하는 것과 성능을 비교하였다.즉 "w/o CLIP"으로 표현되며 CLIP으로 라벨을 필터링하는 것이 필요하다는 것을 보여준다.

마지막으로 알려진 카테고리의 의사 라벨 없이 감지기를 새로운 카테고리의 의사 라벨로만 학습시키는 "ex.known"과 비교해봤을 때도 알려진 카테고리의 의사 라벨 또한 Detector에서 추출해서 생성, 모델에 제공하는 것이 좋다는 결론을 지었다.

 

- Verification

검증의 목적은 Detector의 견고성을 평가하고 다양한 시나리오에서 성능을 확인하는 것이다. 사람들은 각 시나리오에서 예측이 정확히 됐는지만 확인하면 되므로 모니터링 비용이 절감되고 예측을 확인하는 시간이 주석을 다는 시간보다 적게 소요된다. 생성된 시나리오가 다양한지 테스트하기 위해, 생성된 설명으로 쿼리된 100개의 이미지 중 고유 이미지의 수를 측정하고 이를 10번 반복한다.표에서 볼 수 있듯이 해당 검증 결과 AIDE 방법은 실제로 다양한 시나리오를 찾았으며, 작은 훈련 데이터셋에서도 69.8%의 정확도를 보였다.

만약 예측이 정확하지 않은 경우, 주석자에게 이미지에 라벨을 붙이게 요청할 수 있으며, 이는 Detector를 개선하는데 사용된다. 이를 위해 BLIP-2 Cosine Similarity 기준 상위 1위 이미지가 잘못된 10개의 LLM에 의해 생성된 설명을 선택하고,  이 10개 이미지에 라벨을 붙여 모델 업데이터로 감지기를 업데이트 했다. 

사진에서 확인할 수 있듯이 몇 차례의 인간 감독 이후에 모델을 업데이트하면 성공적으로 객체를 예측하기 시작한다.

해당 방법을 추가로 사용하여 전체 성능에 대해, 새로운 카테고리에서 14.2% AP를 달성했으며 이는 모델의 Zero-shot 성능을 2.2% 상승 시켰다. 동시에 총 비용은 $1.59로 증가하며 여전히 Semi-SL보단 저렴하다. 


5. Conclusion

결론적으로 본 연구는 문제를 자동으로 식별(ISSUE FINDER), 데이터를 효율적으로 자동 큐레이션(DATA FEEDER), 2단계에 걸친 박스 생성, 자동 라벨링을 통해 모델 개선(MODEL UPDATER), 생성된 다양한 시나리오를 검증(VERIFICATION)을 거치는 AIDE를 제안했다. LLM과 LVM을 활용함으로써 파이프라인은 라벨링 및 훈련 비용을 줄이면서 새로운 객체 감지에 있어 더 나은 정확도를 달성하였다. 이 과정은 반복적으로 수행되며 이는 AV 시스템이 예상되는 이벤트를 처리하는데 필수적인 모델의 지속적인 개선을 가능하게 한다.

그러나 AIDE의 문제점은 데이터의 생성 및 검증을 LLM, LVM에 맡기기 때문에 이들이 Hallucination을 일으킬 수도 있다는 것이다. 따라서 AIDE의 효과에도 불구하고 안전 중요 시스템의 경우 어느 정도의 인간 감독이 항상 권장된다.(여전히 인간의 최종 검토가 필요하다.)