[연구] DXLab (지도교수: 박은일 교수), IJCAI 2025, CIKM 2025에 논문 3편 게재 승인
- 인공지능융합학과(일반대학원)
- 조회수1279
- 2025-08-13
DXLab (지도교수: 박은일) 논문이 인공지능 분야의 Top-tier 국제학술대회 IJCAI 2025(1편)와 CIKM 2025(2편)에 게재 승인되었습니다.
1) (IJCAI 2025) “Solving Copyright Infringement on Short Video Platforms: Novel Datasets and an Audio Restoration Deep Learning Pipeline” 논문은 오민우 연구원(석사과정), 박민수 연구원(석박통합과정)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다.

이 논문은 유튜브 쇼츠, 틱톡 등 숏폼 영상 플랫폼에서 발생하는 임의 배경음악(BGM) 삽입으로 인한 저작권 침해 문제를 해결하기 위한 새로운 오디오 복원 파이프라인을 제안합니다. 사용자는 영상의 원본 OST를 가리기 위해 임의의 BGM을 삽입하는데, 이는 기존 콘텐츠 검출 시스템의 정확도를 크게 저하시킵니다. 이를 해결하기 위해 본 연구는 음악 소스 분리(MSS)와 크로스모달 영상-음악 정합성 평가(CMVMR)를 결합한 4단계 파이프라인을 설계하였습니다. 특히, 본 연구는 파이프라인 학습과 평가를 위해 두 가지 도메인 특화 데이터셋을 새롭게 구축했습니다. 실험 결과, 제안한 파이프라인은 SDR, SI-SDR 등에서 임의 배경음악이 삽입된 오디오 대비 뛰어난 성능을 보여 실제 플랫폼 적용에 적합한 높은 성능과 실용성을 입증하였습니다.
2) (CIKM 2025) “BOVIS: Bias-Mitigated Object-Enhanced Visual Emotion Analysis” 논문은 이유빈 연구원(석박통합과정), 차준엽 연구원(석박통합과정)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다.

이 논문은 시각 자극에 대한 인간의 감정 반응을 예측하는 Visual Emotion Analysis (VEA)의 정밀도와 공정성을 향상시키기 위해 새로운 프레임워크 BOVIS를 제안합니다. 기존 연구들은 전체 이미지의 특징이나 객체의 의미 정보 중 하나에만 집중하여 감정 해석의 표현력이 부족하거나 편향된 결과를 초래하는 한계를 보였습니다. BOVIS는 이러한 문제를 해결하기 위해 두 가지 핵심 전략을 결합합니다.
Object-Enhanced Feature Integration을 통해 이미지의 전체적 맥락, 객체 수준의 시각 정보, 그리고 텍스트 기반 의미 정보를 통합적으로 활용하여 감정의 미묘한 뉘앙스를 포착합니다. 그리고 Bias-Mitigation Loss 설계를 통해 Mikel’s Emotion Wheel 기반 감정 간 거리 정보를 반영한 Emotion Loss, 샘플별 불균형을 고려한 IPW-MAE, 극단 오차에 민감한 GMAE, 그리고 분류 정확도를 높이기 위한 Cross Entropy Loss를 조합한 가중합 손실 함수 구조를 적용하여 데이터 편향을 효과적으로 완화합니다.
BOVIS는 유사한 감정 간의 세밀한 구분이 필요한 상황에서도 높은 예측 정확도를 보였으며, 소수 클래스에 대한 편향된 학습 문제를 효과적으로 완화하여 감정 예측의 공정성과 신뢰도를 크게 향상시켰습니다. 이러한 특성은 감성 인식 기반의 멀티에이전트 협력 환경 등 실제 응용 시나리오에서도 높은 활용 가능성을 보여줍니다.
3) (CIKM 2025) “Streamlining Feature Interactions via Selectively Crossing Vectors for Click-Through Rate prediction” 논문은 장병우 연구원(석사과정), 박진희 연구원(석사과정)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다.

이 논문은 계산 효율적인 클릭률 예측(Click-Through Rate, CTR) 모델을 제안합니다. 저자들은 여러 대표적인 CTR 모델을 대상으로 실험한 결과, 전체 상호작용(feature interaction)의 최대 90%를 제거해도 성능 저하가 거의 없으며, 많은 상호작용이 불필요하거나 오히려 노이즈로 작용할 수 있음을 확인했습니다. 이를 바탕으로 상호작용 학습을 ‘희소(sparse) 엣지 선택’ 문제로 재정의하는 새로운 접근을 제시합니다.
제안하는 Selectively Crossing Vectors(SCV)는 모든 입력 인스턴스에 대해 전역적으로 공유되는 핵심 상호작용 그래프(core interaction graph)를 학습하는 Pessimistic Feature Selection(PFS)를 이용해 희소성을 확보합니다. 이후 입력별로 적합한 상호작용을 선택하기 위해 여러 개의 core interaction graph를 구성하고, 이를 단계적인 Mixture of Experts(MoE) 구조인 Multi-Level Expert Learning(MEL)로 결합해 전역 구조의 일관성과 지역적 적응성을 동시에 달성합니다. 마지막으로, 학습 과정의 불안정성을 완화하기 위해 라벨 정보를 편향 신호로 활용하는 Label-Biased Objective(LBO)를 적용합니다.
SCV는 희소성을 높임과 동시에 표현력과 학습 안정성을 향상하여, 4개의 벤치마크에서 기존 모델 대비 최대 66%의 FLOPs를 절감하면서도 대부분의 데이터셋에서 SOTA 성능을 달성합니다.
| DXLab. | https://dsl.skku.edu
발전기금


