-
- [연구] AIM LAB(지도교수: 홍성은 교수) ACM MM 2025 논문 게재 승인
- 인공지능 및 미디어 연구실(AI & Media, AIM LAB)의 논문 1편이 멀티미디어 인공지능 분야 세계 최고 권위 학회인 ACM Multimedia (MM) 2025에 게재 승인되었습니다. 논문은 2025년 10월 아일랜드 더블린에서 발표됩니다. RA-Touch: Retrieval-Augmented Touch Understanding with Enriched Visual Data 조유림*, 김홍엽*, 김세민, Youjia Zhang, 최윤석, 홍성은 (*공동 제1저자) RA-Touch는 부족한 촉각 데이터 환경에서도 시각 및 언어 정보를 활용하여 높은 촉각 인지(Tactile Perception) 성능을 달성할 수 있는 검색-증강(Retrieval-Augmented) 기반 프레임워크입니다. 특히 촉각 중심의 검색기(Retriever)와 통합기(Integrator)를 새롭게 설계하여, 시각-언어 데이터를 통해 촉각 추론 능력을 크게 향상시켰습니다. 저자들은 ImageNet 기반의 GPT-4o mini를 활용한 촉각 중심 캡션으로 이루어진 시각-언어 데이터셋인 ImageNet-T를 구축하였습니다. 이를 바탕으로 촉각-지도 검색기(Tactile-Guided Retriever)와 촉각-인지 통합기(Texture-Aware Integrator)를 설계하였습니다: 1. 촉각-지도 검색기(Tactile-Guided Retriever): RGB 이미지 및 촉각 데이터를 결합하여 의미적으로 일치하는 외부 지식 샘플을 검색하는 쿼리를 형성합니다. 이 과정에서 촉각적 관련성을 시각적 유사성보다 우선시하여 모델이 시각적으로 다르더라도 유사한 촉감을 공유하는 외부 샘플을 추론 시 적극적으로 활용할 수 있습니다. 2. 촉각-인지 통합기(Texture-Aware Integrator): Attention 메커니즘을 적용하여 검색된 특징을 정제하는 모듈로, 이 과정에서 촉각 입력은 시각 및 텍스트(캡션) 임베딩 에서 텍스처의 단서를 추출하는 요소로 활용됩니다. 이를 통해 추출된 특징은 LLM에 통합되어 세밀한 텍스처 추론을 지원합니다. 이 모듈들은 촉각 데이터가 부족한 상황에서도 시각·언어 정보를 활용해 정밀한 촉각 인지를 가능하게 하며, 향후 멀티모달 인공지능 연구의 확장성을 보여줍니다.
-
- 작성일 2025-08-26
- 조회수 1033
-
- [연구] DSSAL (지도교수: 김장현 교수) CIKM 2025 논문 1편 게재 승인
- Data Science and Social Analytics Lab(DSSAL) (지도교수: 김장현 교수)의 논문 1편이 국제학술대회 CIKM (Conference on Information and Knowledge Management) 2025에 게재 승인되었습니다. "Sarcasm Subtype-Specific Reasoning in Dialogue with Multimodal Cues Using Large Language Models" 논문에는 강충원 (인공지능융합학과 석사과정, 제1저자), 이원병 (인공지능융합학과 석사과정, 공동저자), 황승현 (데이터사이언스융합학과 석사과정, 공동저자), 태선호 (인공지능융합학과 석박통합과정, 공동저자), 선승종 (인공지능융합학과 박사과정, 교신저자1), 그리고 김장현 (교신저자2) 지도교수가 참여하였습니다. 좌측부터 강충원(제1저자), 이원병(공동저자), 황승현(공동저자), 태선호(공동저자), 선승종(교신저자1), 김장현 교수(교신저자2) 본 연구는 기존에 다루지 않았던 Large Language Models (LLMs)을 활용한 풍자 하위유형별 추론생성(Sarcasm Subtype-specific Reasoning Generation, SSRG)이라는 새로운 과제를 제안합니다. SSRG를 수행하기 위해 풍자 하위유형별 추론 데이터셋(Sarcasm Subtype-specific Reasoning Dataset, SSRD)을 구축하여 새로운 벤치마크를 제시했습니다. 또한, 멀티모달 단서(시각, 음성)를 텍스트 형태로 변형시키고 통합하여 LLMs 에게 제공할 시, Multimodal Large Language Model (MLLM)보다 뛰어난 추론 성능을 발휘할 수 있음을 입증했습니다.
-
- 작성일 2025-08-13
- 조회수 1742
-
- [연구] DXLab (지도교수: 박은일 교수), IJCAI 2025, CIKM 2025에 논문 3편 게재 승인
- DXLab (지도교수: 박은일) 논문이 인공지능 분야의 Top-tier 국제학술대회 IJCAI 2025(1편)와 CIKM 2025(2편)에 게재 승인되었습니다. 1) (IJCAI 2025) “Solving Copyright Infringement on Short Video Platforms: Novel Datasets and an Audio Restoration Deep Learning Pipeline” 논문은 오민우 연구원(석사과정), 박민수 연구원(석박통합과정)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 유튜브 쇼츠, 틱톡 등 숏폼 영상 플랫폼에서 발생하는 임의 배경음악(BGM) 삽입으로 인한 저작권 침해 문제를 해결하기 위한 새로운 오디오 복원 파이프라인을 제안합니다. 사용자는 영상의 원본 OST를 가리기 위해 임의의 BGM을 삽입하는데, 이는 기존 콘텐츠 검출 시스템의 정확도를 크게 저하시킵니다. 이를 해결하기 위해 본 연구는 음악 소스 분리(MSS)와 크로스모달 영상-음악 정합성 평가(CMVMR)를 결합한 4단계 파이프라인을 설계하였습니다. 특히, 본 연구는 파이프라인 학습과 평가를 위해 두 가지 도메인 특화 데이터셋을 새롭게 구축했습니다. 실험 결과, 제안한 파이프라인은 SDR, SI-SDR 등에서 임의 배경음악이 삽입된 오디오 대비 뛰어난 성능을 보여 실제 플랫폼 적용에 적합한 높은 성능과 실용성을 입증하였습니다. 2) (CIKM 2025) “BOVIS: Bias-Mitigated Object-Enhanced Visual Emotion Analysis” 논문은 이유빈 연구원(석박통합과정), 차준엽 연구원(석박통합과정)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 시각 자극에 대한 인간의 감정 반응을 예측하는 Visual Emotion Analysis (VEA)의 정밀도와 공정성을 향상시키기 위해 새로운 프레임워크 BOVIS를 제안합니다. 기존 연구들은 전체 이미지의 특징이나 객체의 의미 정보 중 하나에만 집중하여 감정 해석의 표현력이 부족하거나 편향된 결과를 초래하는 한계를 보였습니다. BOVIS는 이러한 문제를 해결하기 위해 두 가지 핵심 전략을 결합합니다. Object-Enhanced Feature Integration을 통해 이미지의 전체적 맥락, 객체 수준의 시각 정보, 그리고 텍스트 기반 의미 정보를 통합적으로 활용하여 감정의 미묘한 뉘앙스를 포착합니다. 그리고 Bias-Mitigation Loss 설계를 통해 Mikel’s Emotion Wheel 기반 감정 간 거리 정보를 반영한 Emotion Loss, 샘플별 불균형을 고려한 IPW-MAE, 극단 오차에 민감한 GMAE, 그리고 분류 정확도를 높이기 위한 Cross Entropy Loss를 조합한 가중합 손실 함수 구조를 적용하여 데이터 편향을 효과적으로 완화합니다. BOVIS는 유사한 감정 간의 세밀한 구분이 필요한 상황에서도 높은 예측 정확도를 보였으며, 소수 클래스에 대한 편향된 학습 문제를 효과적으로 완화하여 감정 예측의 공정성과 신뢰도를 크게 향상시켰습니다. 이러한 특성은 감성 인식 기반의 멀티에이전트 협력 환경 등 실제 응용 시나리오에서도 높은 활용 가능성을 보여줍니다. 3) (CIKM 2025) “Streamlining Feature Interactions via Selectively Crossing Vectors for Click-Through Rate prediction” 논문은 장병우 연구원(석사과정), 박진희 연구원(석사과정)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 계산 효율적인 클릭률 예측(Click-Through Rate, CTR) 모델을 제안합니다. 저자들은 여러 대표적인 CTR 모델을 대상으로 실험한 결과, 전체 상호작용(feature interaction)의 최대 90%를 제거해도 성능 저하가 거의 없으며, 많은 상호작용이 불필요하거나 오히려 노이즈로 작용할 수 있음을 확인했습니다. 이를 바탕으로 상호작용 학습을 ‘희소(sparse) 엣지 선택’ 문제로 재정의하는 새로운 접근을 제시합니다. 제안하는 Selectively Crossing Vectors(SCV)는 모든 입력 인스턴스에 대해 전역적으로 공유되는 핵심 상호작용 그래프(core interaction graph)를 학습하는 Pessimistic Feature Selection(PFS)를 이용해 희소성을 확보합니다. 이후 입력별로 적합한 상호작용을 선택하기 위해 여러 개의 core interaction graph를 구성하고, 이를 단계적인 Mixture of Experts(MoE) 구조인 Multi-Level Expert Learning(MEL)로 결합해 전역 구조의 일관성과 지역적 적응성을 동시에 달성합니다. 마지막으로, 학습 과정의 불안정성을 완화하기 위해 라벨 정보를 편향 신호로 활용하는 Label-Biased Objective(LBO)를 적용합니다. SCV는 희소성을 높임과 동시에 표현력과 학습 안정성을 향상하여, 4개의 벤치마크에서 기존 모델 대비 최대 66%의 FLOPs를 절감하면서도 대부분의 데이터셋에서 SOTA 성능을 달성합니다. | DXLab. | https://dsl.skku.edu
-
- 작성일 2025-08-13
- 조회수 1195
-
- [연구] main Lab(지도교수: 김재광 교수) CIKM 2025 논문 2편 게재 승인
- main Lab. 연구실(지도교수: 김재광 교수)의 논문 2편이 인공지능 분야의 Top-tier 국제학술대회 CIKM (Conference on Information and Knowledge Management) 2025에 게재 승인되었습니다. 두 편의 논문은 25년 11월 서울 코엑스에서 발표될 예정입니다. 1) "RadialFocus: Geometric Graph Transformers via Distance-Modulated Attention" 논문은 김산 (소프트웨어학과 박사과정), 이승준 (실감미디어공학과 석사과정), 오시찬 (전기전자컴퓨터공학과 석사과정) 이 저자로 참여하였고 김재광 교수가 교신저자로 참여하였습니다. 좌측부터 김산 소프트웨어학과 박사과정, 이승준 실감미디어공학과 석사과정, 오시찬 전기전자컴퓨터공학과 석사과정, 김재광 교수(교신저자) RadialFocus Graph Transformer는 그래프 내 거리 정보를 똑똑하게 활용하는 인공지능 모델입니다. 복잡한 위치 인코딩이나 가상 노드 없이, 각 주의(head)에 거리 기반 함수(RBF)를 넣어 가까운 노드에 더 집중하도록 학습합니다. 이 방식은 메모리 부담이 적고 정확도도 높습니다. 분자 예측, 결합력 예측, 이미지 그래프 분류 등 다양한 분야에서 기존보다 적은 파라미터로 뛰어난 성능을 보였으며, 거리 중심과 범위를 자동으로 학습해 중요한 거리 범위를 효과적으로 파악합니다. 2) "Spectral Edge Encoding - SEE: Does Structural Information Really Enhance Graph Transformer Performance?" 논문은 이승준 (실감미디어공학과 석사과정), 김산 (소프트웨어학과 박사과정), 김조현 (인공지능융합학과 학석박과정) 이 저자로 참여하였고 김재광 교수가 교신저자로 참여하였습니다. 좌측부터 이승준 실감미디어공학과 석사과정, 김산 소프트웨어학과 박사과정, 김조현 인공지능융합학과 학석과정, 김재광 교수(교신저자) Spectral Edge Encoding(SEE)는 그래프에서 각 연결(edge)이 전체 구조에 얼마나 중요한지를 스펙트럼(고유값) 변화를 통해 계산하는 방법입니다. 학습할 파라미터 없이 작동하며, 이 정보를 그래프 트랜스포머의 주의(attention) 과정에 반영해 구조 인식을 높입니다. Moiré Graph Transformer에 적용한 결과, 분자 데이터 분류 성능이 크게 향상되어 평균 ROC-AUC 85.3%를 기록했고, 기존 최고 모델보다 7.1%p 높았습니다. 또한 SEE는 분자의 구조 정보를 잘 보존하고, 해석 가능성도 제공해 실용적인 장점을 갖습니다.
-
- 작성일 2025-08-07
- 조회수 956
-
- [연구] AIM LAB(지도교수: 홍성은 교수) ICCV 2025 논문 2편 게재 승인
- 인공지능 및 미디어 연구실(AI & Media, AIM LAB)의 논문 2편이 컴퓨터 비전 분야 세계 최고 권위의 학술대회인 ICCV (IEEE/CVF International Conference on Computer Vision) 2025에 게재 승인되었습니다. 이번 ICCV는 2025년 10월, 미국 하와이에서 개최될 예정이며, 두 논문 모두 현지에서 발표됩니다. 논문1. Task Vector Quantization for Memory-Efficient Model Merging (이승환 석사과정, 정애천 박사과정 공동 제1저자) 이 논문에서는 특정 작업에 특화된 모델들을 하나의 범용 모델로 만드는 '모델 병합(Model Merging)' 기술을 다룹니다. 모델 병합을 위해서는 각 작업별로 파인튜닝된 다수의 모델 체크포인트를 저장해야 하는데, 이는 상당한 메모리를 차지하여 확장성을 저해하는 주요 원인이었습니다. 이를 해결하기 위해 논문은 두 가지 핵심적인 양자화(Quantization) 기법을 제안합니다. Task Vector Quantization (TVQ)는 파인튜닝된 모델 전체가 아닌, 사전 학습된 원본 모델과 파인튜닝된 모델의 가중치 차이만을 나타내는 '태스크 벡터'를 양자화하는 방식입니다. 태스크 벡터는 전체 모델의 가중치보다 분포 범위가 훨씬 좁아, 양자화 시 발생하는 오차가 더 작다는 특성을 활용합니다. Residual Task Vector Quantization (RTVQ)는 2비트와 같은 극단적인 저정밀도 환경에서 발생하는 성능 저하를 완화하기 위해 설계되었습니다. 이 방식은 태스크 벡터를 모든 태스크가 공유하는 하나의 'base vector'와 각 태스크의 고유한 차이를 나타내는 여러 개의 'offset vector'로 분해합니다. 중요 정보가 담긴 기반 벡터는 상대적으로 높은 정밀도(예: 4비트)로, 오프셋 벡터는 낮은 정밀도(예: 2비트)로 양자화하여 메모리 예산 내에서 오차를 최소화합니다. 결과적으로 제안된 방식들은 기존 모델 병합 성능을 유지하면서도, 전체 정밀도(FP32) 체크포인트 대비 약 8%의 저장 공간만을 사용합니다. 특히, 이 기법들은 기존 모델 병합 프레임워크를 수정할 필요 없이 저장된 체크포인트만 교체하면 되므로, 메모리가 제한된 실제 환경에서의 확장성과 실용성을 크게 높였습니다. 논문2. DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding 이 논문에서는 텍스트, 음성 등 다양한 신호로부터 인간의 움직임을 생성하는 문제를 다루며, 기존 방식들의 한계를 극복하기 위한 새로운 프레임워크인 DisCoRD를 제안합니다. 기존의 연속적(Continuous) 생성 방식은 움직임은 자연스럽지만 주어진 조건을 정확히 따르지 못하는 경향이 있었고, 반대로 이산적(Discrete) 생성 방식은 조건은 잘 따르지만 움직임의 표현력이 제한되고 부자연스러운 문제가 있었습니다. DisCoRD는 이러한 '불일치(discord)'를 해결하기 위해 제안된 프레임워크로, 두 가지 핵심 요소로 구성됩니다. Condition Projection: 이산적인 모션 토큰에서 프레임별 특징을 추출하여 토큰과 실제 모션 프레임 간의 시간적 대응 관계를 명확히 유지합니다. Rectified Flow Decoder: 추출된 특징을 이용해 가우시안 노이즈로부터 점진적으로 모션을 복원합니다. 연속 공간에서 이루어지는 이 반복적 디코딩은 미세한 노이즈와 어색함을 줄여 훨씬 부드럽고 역동적인 움직임을 생성합니다. DisCoRD는 이산 방식의 높은 '충실도(faithfulness)'와 연속 방식의 '자연스러움(naturalness)'을 성공적으로 결합했으며, 다양한 기존 이산 모델에 적용해 성능을 높이는 범용 솔루션의 가능성을 입증했습니다.
-
- 작성일 2025-07-04
- 조회수 1660
-
- [연구] Pixel Lab (지도교수: 이상민 교수), CVPR 2025 논문 5편 게재 승인
- 성균관대 Pixel Lab의 논문 5편이 인공지능 및 컴퓨터비전 분야 세계 최고 수준의 학술대회인 CVPR 2025 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025”)에 게재 승인되었습니다. 해당 연구들은 UIUC, Georgia Tech, UW-Madison, Meta, KHU 등 국제적으로 다양한 기관과의 협업을 통해 이루어졌으며, 6월 미국 내슈빌에서 발표될 예정입니다. 논문1. SocialGesture: Delving into Multi-person Gesture Understanding 저자: Xu Cao, Pranav Virupaksha, Wenqi Jia, Bolin Lai, Fiona Ryan, Sangmin Lee✝, James M. Rehg✝ (✝ Corresponding Author) 인간의 제스처 인식에 관한 기존의 연구는 대부분 다인 간 상호작용을 충분히 고려하지 않았습니다. 하지만 다인 간 상호작용은 자연스러운 제스처가 지닌 사회적 맥락을 이해하는 데 매우 중요한 요소입니다. 이러한 기존 데이터셋의 한계로 인해 인간의 제스처를 언어나 음성 등 다른 모달리티와 효과적으로 연계하는 데 어려움이 있었습니다. 이 문제를 해결하고자 본 연구에서는 다인 간 제스처 분석을 위해 특별히 설계된 최초의 대규모 데이터셋인 SocialGesture를 소개합니다. SocialGesture는 다양한 자연스러운 상황을 포함하고 있으며, 영상 기반의 제스처 인식과 시간적 위치를 비롯한 여러 제스처 분석 작업을 지원합니다. 따라서 복잡한 사회적 상호작용 상황에서 제스처 연구를 발전시키는 데 있어 중요한 자료를 제공합니다. 또한 본 논문은 사회적 제스처 이해를 위한 비주얼 질의응답(Visual Question Answering, VQA)이라는 새로운 태스크를 제안하여 비전-언어 모델(Vision-Language Models, VLM)의 성능 평가를 위한 벤치마크를 제공합니다. 실험 결과는 현재의 제스처 인식 모델이 가지는 여러 한계를 보여주며, 앞으로 이 분야에서 개선할 방향성에 대한 통찰력을 제시합니다. 논문2. Object-aware Sound Source Localization via Audio-Visual Scene Understanding 저자: Sung Jin Um, Dongjin Kim, Sangmin Lee✝, Jung Uk Kim✝ (✝ Corresponding Author) 음원 위치 추정(Sound Source Localization) 태스크는 시각적 장면 내에서 소리를 발생시키는 각 객체의 영역을 정확하게 찾아내는 것을 목표로 합니다. 기존의 방법들은 단순한 오디오-시각적 외관 대응 관계에만 의존하여, 시각적으로 유사한 무음 객체가 여럿 존재하는 등의 도전적인 환경에서는 실제 음원에 해당하는 개별 객체의 정확한 위치를 찾는 데 어려움을 겪었습니다. 이러한 문제를 해결하고자 본 논문에서는 세부적인 맥락 정보를 활용하여 정밀한 음원 위치 추정을 수행하는 새로운 프레임워크를 제안합니다. 구체적으로, 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용하여 시청각 특징을 바탕으로 세부적인 장면 설명 정보를 생성합니다. 또한 생성된 세부 정보를 효과적으로 활용하기 위해 객체 인식 대비 정렬 손실과 객체 영역 분리 손실이라는 두 가지 손실 함수를 새롭게 제안합니다. 본 방법은 이 두 가지 손실 함수를 통해 세밀한 시청각 대응관계를 바탕으로 정밀한 음원 위치 추정을 효과적으로 수행할 수 있습니다. MUSIC 및 VGGSound 데이터셋을 이용한 광범위한 실험 결과, 본 연구가 단일 음원과 다중 음원이 포함된 상황 모두에서 기존 방법 대비 성능을 크게 향상시킴을 입증했습니다. 논문3. Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation 저자: Bolin Lai, Felix Juefei-Xu, Miao Liu, Xiaoliang Dai, Nikhil Mehta, Chenguang Zhu, Zeyi Huang, James M. Rehg, Sangmin Lee, Ning Zhang, Tong Xiao 텍스트 기반 이미지 편집(Text-guided image manipulation)은 최근 수년간 눈부신 발전을 이루었습니다. 하지만 언어의 모호성을 줄이기 위해, 훈련 데이터에서 잘 나타나지 않거나 순수하게 언어로 설명하기 어려운 명령어에 대해 시각적 예시를 활용한 소수 샷 학습(few-shot learning)이 사용되기도 합니다. 그러나 시각적 프롬프트로부터 학습하는 것은 매우 뛰어난 추론 능력을 요구하기 때문에, 최근 널리 사용되는 확산 모델(diffusion models)들이 이 문제를 효과적으로 다루지 못하고 있습니다. 이러한 한계를 극복하기 위해 본 연구에서는 InstaManip이라는 새로운 멀티모달 자기회귀 모델을 제안합니다. InstaManip은 문장과 이미지로 구성된 가이던스를 통해, 인-컨텍스트 러닝 방식으로 이미지 편집 작업을 빠르게 습득하고, 이를 새로운 이미지에 즉시 적용할 수 있습니다. 구체적으로, 본 논문에서는 혁신적인 그룹 자기 어텐션 메커니즘을 통해 인-컨텍스트 학습을 학습(learning)과 적용(applying)이라는 두 개의 독립된 단계로 명확히 구분함으로써 복잡한 문제를 보다 단순한 두 개의 하위 태스크로 분할합니다. 또한, 예시 이미지 내에서 이미지 변환과 직접 관련되지 않은 콘텐츠를 분리하기 위한 관계 정규화 방법도 함께 제안합니다. 광범위한 실험을 통해 본 논문의 방법이 기존의 소수 샷 이미지 편집 모델들에 비해 인간 평가 기준으로 최소 19% 이상의 큰 성능 향상을 보임을 확인하였습니다. 나아가, 제안한 모델이 예시 이미지의 개수나 다양성을 높일수록 성능이 더욱 향상될 수 있음을 발견했습니다. 논문4. Question-Aware Gaussian Experts for Audio-Visual Question Answering 저자: Hongyeob Kim, Inyoung Jung, Dayoon Suh, Youjia Zhang, Sangmin Lee, Sungeun Hong 오디오-비주얼 질의응답(Audio-Visual Question Answering, AVQA)은 질문 기반의 멀티모달 추론은 물론이고, 미세한 동적 변화를 포착할 수 있도록 정확한 시간적 근거를 요구하는 태스크입니다. 그러나 기존 연구들은 주로 질문 정보를 암묵적으로만 활용하기 때문에, 질문과 관련된 세부적인 부분에 명확히 집중하지 못한다는 한계가 있었습니다. 또한 대부분의 방법이 일정 간격으로 균등하게 프레임을 샘플링하기 때문에, 질문과 관련된 핵심 프레임들을 놓칠 수 있습니다. 최근 이를 해결하기 위해 Top-K 프레임 선택 방식이 제안되었으나, 이 방법들 또한 이산적이어서 보다 세밀한 연속적 시간 정보는 제대로 반영하지 못하고 있습니다. 이러한 문제점을 해결하기 위해 본 논문에서는 질문 정보를 명시적으로 활용하며 연속적인 시간 역학을 모델링하는 새로운 프레임워크 QA-TIGER를 제안합니다. QA-TIGER는 가우시안 기반 모델링을 통해 질문 내용을 바탕으로 연속적 및 비연속적 프레임들에 적응적으로 집중하고, 질문 정보를 명시적으로 주입함과 동시에 점진적으로 세부 사항을 정교화하는 방식을 핵심 아이디어로 사용합니다. 구체적으로, 본 연구는 전문가 혼합 모델(Mixture of Experts, MoE) 방식을 활용해 다양한 가우시안 모델들을 유연하게 구현하고, 질문별로 특화된 시간 전문가를 활성화합니다. 여러 AVQA 벤치마크 데이터셋에서 수행한 폭넓은 실험을 통해 QA-TIGER가 기존 방법들에 비해 state-of-the-art 성능을 달성했음을 확인했습니다. 논문5. Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders 저자: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg 본 논문에서는 장면 내에서 사람이 어디를 바라보고 있는지를 예측하는 시선 대상 추정(gaze target estimation) 문제를 다룹니다. 사람의 시선 대상을 정확히 예측하기 위해서는 인물의 외형적 특성과 해당 장면의 콘텐츠에 대한 종합적인 추론이 필요합니다. 기존 연구들은 이 문제를 해결하기 위해 장면 인코더, 헤드 인코더, 깊이 및 포즈와 같은 보조 모델 등에서 얻은 특징들을 정교하게 결합하는, 점점 더 복잡한 hand-crafted 파이프라인을 개발해 왔습니다. 본 연구에서는 최근 다양한 시각적 작업에서 우수한 성능을 입증한 범용적(general-purpose) 특징 추출기의 성공에서 영감을 받아, 사전학습된 DINOv2 인코더로부터 추출한 특징을 활용해 시선 대상 추정을 단순화하는 새로운 트랜스포머 기반 프레임워크 Gaze-LLE를 제안합니다. 구체적으로, 장면에 대해 단일한 특징 표현을 추출한 후, 인물에 특화된 위치 프롬프트를 적용하여 간단한 디코딩 모듈로 시선 방향을 예측합니다. 여러 벤치마크 실험을 통해 본 논문의 방법이 기존 연구들을 뛰어넘는 state-of-the-art을 달성했으며, 본 연구에서 설계한 구성 요소들의 타당성을 입증하기 위한 폭넓은 분석도 함께 제시합니다.
-
- 작성일 2025-03-12
- 조회수 3290
-
- [연구] AIM LAB(지도교수 : 홍성은 교수) , CVPR 2025 논문 1편 게재 승인
- 인공지능 및 미디어 (AI & Media, AIM LAB) 연구실의 논문 1편이 컴퓨터 비전 및 패턴 인식 분야에서 세계 최고 수준의 학술대회인 CVPR 2025 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025”)에 게재 승인되었습니다. 논문은 6월 미국 내슈빌에서 발표될 예정입니다. 저자: 김홍엽*, 정인영*, 서다윤, Youjia Zhang, 이상민, 홍성은 (*공동 1저자) 논문에서는 Audio-Visual Question Answering(AVQA) 문제를 다루며, 기존 방식의 한계를 극복하기 위해 새로운 프레임워크인 QA-TIGER를 제안했습니다. 기존 연구들은 모든 프레임을 동일하게 취급하거나 Top-K 프레임 선택 방식을 사용했으나, 이는 연속적인 시간 정보를 충분히 반영하지 못하는 한계가 있었습니다. QA-TIGER는 두 가지 핵심 모듈로 구성되었습니다. 1. 질문 인식 융합(Question-Aware Fusion) 모듈은 질문 정보를 초기 단계부터 오디오 및 비주얼 피처에 명시적으로 주입하여 효과적인 정보 융합을 수행했습니다. 이를 위해 사전 학습된 인코더를 활용하고, 셀프 어텐션 및 크로스 어텐션을 적용하여 질문과 모달리티 간의 상호작용을 강화했습니다. 2. 가우시안 전문가 시간적 통합(Temporal Integration of Gaussian Experts) 모듈은 기존의 이산적인 프레임 선택 방식 대신 Mixture of Experts(MoE) 기법을 활용하여 연속적인 시간 정보를 정밀하게 반영했습니다. 각 가우시안 전문가는 특정 시간 구간에 초점을 맞춰 동적 가중치를 부여하며, 이를 통해 모델이 질문에 맞는 시간적 단서를 효과적으로 학습하도록 설계했습니다. 결과적으로 QA-TIGER는 질문 특화 정보와 정밀한 시간적 모델링을 결합하여 AVQA 분야에서 새로운 기준을 제시하는 모델임을 입증했습니다. 그림1. AVQA(Audio-Visual Question Answering)를 위한 샘플링 비교. (a) 입력 샘플. (b) 균일 샘플링(Uniform sampling)은 모든 프레임을 동일하게 처리하여 질문별 문맥을 무시합니다. (c) 상위-k 프레임 선택(Top-k frame selection)은 질문-비디오 유사성만을 기반으로 불연속적인 프레임을 샘플링하여 종종 중요한 문맥적 세부 정보를 놓칩니다. (d) 제안하는 방법(QA-TIGER)은 오디오 및 시각 양식 모두에 대한 명시적인 시간적 근거(explicit temporal grounding)를 제공하여, 정확한 다중 양식 정렬(multimodal alignment)을 통해 질문과 관련된 연속적인 세그먼트에 중점을 둡니다.
-
- 작성일 2025-03-04
- 조회수 2305
-
- [학생실적] LAMDA Lab 박혜진, 이지윤 학생(지도교수 : 오하영), PAKDD(Pacific-Asia Conference on Knowledge Discovery and Data Mining) 학회 논문 게재
- 오하영 교수 연구실 LAMDA Lab에서 박혜진, 이지윤 학생이 발표한 FinTab-LLaVA: Finance Domain-Specific Table Understanding with Multimodal LLM using FinTMD 논문이 PAKDD (Pacific-Asia Conference on Knowledge Discovery and Data Mining)의 Full Paper로 Accept되어 Oral Presentation을 진행하게 되었다. 논문의 내용은 금융 도메인 특화 멀티모달 LLM인 FinTab-LLaVA 개발에 관한 연구로, 금융 테이블 데이터셋 FinTMD를 구축하고, Curriculum Learning 방식을 적용해 금융 도메인 지식 학습 및 테이블 이해 능력을 단계적으로 강화하여 금융 테이블 기반 질의응답, 사실 검증, 설명 생성 태스크에서 우수한 성능을 보이는 모델을 소개한다. PAKDD (Pacific-Asia Conference on Knowledge Discovery and Data Mining)는 1997년 첫 개최되어 올해로 29회를 맞은 데이터 과학, 데이터 마이닝, 지식 발견 분야의 권위 있는 학회로, 오는 6월 10일부터 6월 13일까지 호주 시드니에서 개최된다.
-
- 작성일 2025-02-11
- 조회수 3332
-
- [교수동정] 박은일 교수, 조달청장 표창 수상
- 박은일 교수, 조달청장 표창 수상 인공지능융합학과 박은일 교수님께서 혁신지향 공공조달 활성화에 기여한 점을 인정받아 지난 12월 31일 조달청장 표창을 수상하셨습니다. 박은일 교수님은 혁신제품 공공조달 분야 내 <국민제안형 인큐베이팅>, <기관제안형 인큐베이팅>, <수요자유제안형 인큐베이팅>, <초중고 혁신수요 아이디어> 등 조달청과 유관 기관이 수행한 공공조달 8개 프로그램에 지난 2019년부터 2024년까지 혁신제품의 공공 분야 활로 개척을 위한 자문과 지원 활동을 수행하셨습니다. 이를 통해 공공 혁신 조달 플랫폼과 혁신 제품의 활용을 통한 생태계 구축에 기여한 바를 인정받았으셨습니다. 한편, 박은일 교수는 2020년부터 ICT혁신인재4.0 사업단, 2024년부터 딥페이크 연구센터를 연구책임자로 운영하여, 공공과 산업을 위한 인재 양성에 힘쓰고 계십니다.
-
- 작성일 2025-01-09
- 조회수 2204
-
- [교수동정] 한진영 교수님 총괄 신뢰가능한 AI 연구단, '신뢰가능한 AI 국제 워크숍' 개최…AI 기술안전성 논의
- 한진영 교수님 총괄 신뢰가능한 AI 연구단, '신뢰가능한 AI 국제 워크숍' 개최…AI 기술안전성 논의 - 네이버·정보통신기획평가원 등 산업계 및 정부 전문가 참여 - AI 기술의 사회적 책임과 발전 방향 논의 성균관대가 지난달 20일 학계 및 정부 전문가들과 함께 최근 AI 연구 동향을 파악하고 발전 방향을 모색하는 국제 워크숍을 개최했다. 성균관대학교는 본교 인문사회과학캠퍼스에서 최신 AI 기술의 사회적 책임과 관련한 연구 동향을 파악하고 발전 방향을 모색하는 '2024 International Workshop on Responsible AI' 워크숍을 개최했다고 8일 밝혔다. 워크숍에는 학계의 국내외 석학들과 산업계 및 정부 전문가들이 참여했다. 신뢰가능한 AI 연구단을 총괄하고 있는 성균관대 한진영 교수의 개회사로 시작해 정보통신기획평가원 정재훈 팀장의 축사가 이어졌다. 특히 AI 분야의 세계 석학으로 꼽히는 샴 순다르 펜실베이니아 주립대 교수와 이관민 싱가포르 난양공대 교수가 글로벌 AI 기술 연구의 최신 동향을 설명하고 한국정보통신기술협회 곽준호 팀장과 네이버 이화란 박사 등이 토의에 참여해 산업계와 정부의 관점을 공유했다. 이번 행사는 과학기술정보통신부(MSIT)와 정보통신기획평가원(IITP)의 후원으로 진행됐다. 성균관대는 해외 연구자들의 적극적인 참여로 글로벌 AI 기술의 최신 동향을 공유하고 이를 국내 연구와 연결하는 기회를 가지는 시간이었다고 의의를 전했다. 신뢰가능한 AI 연구단 한진영 교수는 "이번 행사에서 논의된 내용이 학문적·산업적·정책적 협력의 토대가 되길 기대한다"며 "연구단은 신뢰 가능하고 안전한 AI 기술의 발전을 위해 지속적으로 노력하겠다"고 밝혔다.
-
- 작성일 2025-01-09
- 조회수 942
발전기금


