[연구] AIM LAB(지도교수 : 홍성은 교수) , CVPR 2026 논문 1편 게재 승인
- 인공지능융합학과(일반대학원)
- 조회수519
- 2026-03-23
AIM LAB(지도교수 : 홍성은 교수) , CVPR 2026 논문 1편 게재 승인
인공지능 및 미디어 연구실(AI & Media Lab, AIM Lab)의 논문이 컴퓨터 비전 및 패턴 인식 분야 top-tier 학술대회인 CVPR 2026 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026”)에 게재 승인되었습니다.
본 논문은 올해 6월 미국 덴버에서 발표될 예정입니다.
제목: ZOO-Prune: Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models
저자: 김영은*, Youjia Zhang*, Huiling Liu, 정애천, 이선우, 홍성은 (*공동 1저자)
본 논문은 Vision-Language Model(VLM)의 높은 계산 비용 문제를 해결하기 위해, 추가 학습 없이 토큰을 효율적으로 제거하는 training-free token pruning 문제를 다룹니다. 최근 VLM은 이미지와 텍스트를 동시에 처리하며 높은 성능을 보이지만, 입력 토큰 수가 많아질수록 연산량이 급격히 증가하는 한계가 있습니다. 기존 토큰 pruning 방식들은 attention score나 heuristic 기준에 의존하거나, 별도의 재학습이 필요하다는 문제가 있었습니다. ZOO-Prune은 이러한 한계를 극복하기 위해, zeroth-order gradient estimation 기반의 새로운 pruning 프레임워크를 제안합니다.
핵심 기여
- Zeroth-Order Token Importance Estimation: backpropagation 없이도 각 토큰이 모델 출력에 미치는 영향을 추정하기 위해, 입력 perturbation을 활용한 zeroth-order gradient estimation을 적용합니다.
- Training-Free Plug-and-Play Pruning: 추가 학습이나 파인튜닝 없이 기존 VLM에 그대로 적용 가능하며, 다양한 구조의 모델에 일반적으로 적용 가능한 높은 범용성을 제공합니다.
- Adaptive and Stable Token Selection: 단순 attention 기반 방법 대비 더 안정적으로 중요한 토큰을 선택하며, aggressive pruning 환경에서도 성능 저하를 최소화합니다.

그림. (a) Attention-based 방법은 attention score를 기반으로 토큰을 선택합니다. 이 과정에서 중요하지 않은 토큰이 포함되거나, 예측에 필요한 핵심 정보를 놓치는 문제가 발생할 수 있습니다. (b) Diversity-based 방법은 서로 다른 토큰을 선택하여 중복을 줄이고자 합니다. 그러나 선택된 토큰이 실제 모델 출력에 중요한 정보와 일치하지 않을 가능성이 있습니다. (c) 제안하는 ZOO-Prune은 zeroth-order gradient를 활용하여 각 토큰이 출력에 미치는 영향을 직접 추정합니다. 이를 바탕으로 정보성이 높고 중복이 적은 토큰을 선택하며, 노이즈에 강하고 안정적인 토큰 선택이 가능합니다.
발전기금


