[연구] AIM LAB(지도교수: 홍성은 교수) ACM MM 2025 논문 게재 승인
- 인공지능융합학과(일반대학원)
- 조회수931
- 2025-08-26

인공지능 및 미디어 연구실(AI & Media, AIM LAB)의 논문 1편이 멀티미디어 인공지능 분야 세계 최고 권위 학회인 ACM Multimedia (MM) 2025에 게재 승인되었습니다. 논문은 2025년 10월 아일랜드 더블린에서 발표됩니다.
RA-Touch: Retrieval-Augmented Touch Understanding with Enriched Visual Data
조유림*, 김홍엽*, 김세민, Youjia Zhang, 최윤석, 홍성은 (*공동 제1저자)

RA-Touch는 부족한 촉각 데이터 환경에서도 시각 및 언어 정보를 활용하여 높은 촉각 인지(Tactile Perception) 성능을 달성할 수 있는 검색-증강(Retrieval-Augmented) 기반 프레임워크입니다. 특히 촉각 중심의 검색기(Retriever)와 통합기(Integrator)를 새롭게 설계하여, 시각-언어 데이터를 통해 촉각 추론 능력을 크게 향상시켰습니다.
저자들은 ImageNet 기반의 GPT-4o mini를 활용한 촉각 중심 캡션으로 이루어진 시각-언어 데이터셋인 ImageNet-T를 구축하였습니다. 이를 바탕으로 촉각-지도 검색기(Tactile-Guided Retriever)와 촉각-인지 통합기(Texture-Aware Integrator)를 설계하였습니다:
1. 촉각-지도 검색기(Tactile-Guided Retriever): RGB 이미지 및 촉각 데이터를 결합하여 의미적으로 일치하는 외부 지식 샘플을 검색하는 쿼리를 형성합니다. 이 과정에서 촉각적 관련성을 시각적 유사성보다 우선시하여 모델이 시각적으로 다르더라도 유사한 촉감을 공유하는 외부 샘플을 추론 시 적극적으로 활용할 수 있습니다.
2. 촉각-인지 통합기(Texture-Aware Integrator): Attention 메커니즘을 적용하여 검색된 특징을 정제하는 모듈로, 이 과정에서 촉각 입력은 시각 및 텍스트(캡션) 임베딩 에서 텍스처의 단서를 추출하는 요소로 활용됩니다. 이를 통해 추출된 특징은 LLM에 통합되어 세밀한 텍스처 추론을 지원합니다.
이 모듈들은 촉각 데이터가 부족한 상황에서도 시각·언어 정보를 활용해 정밀한 촉각 인지를 가능하게 하며, 향후 멀티모달 인공지능 연구의 확장성을 보여줍니다.
발전기금


