-
- [학생실적] 인공지능융합학과/실감미디어공학과 학생 12명, AI 서울테크 대학원 장학생 선정 NEW
- 우리 학교 인공지능융합학과/실감미디어공학과 학생 12명이 AI 서울테크 대학원 장학생에 선정되었다. 선정된 장학생은 다음과 같다. 석사과정: 류보곤(지도교수 홍성은), 주세진, 양시현, 김지은, 박지안(지도교수 한진영), 최린, 전희정, 김기원, 박채원, 지현빈(지도교수 박은일) 박사과정: 최소윤(지도교수 홍성은), 김동재(지도교수 박은일) 서울장학재단은 위 학생들에게 각 500만원(석사과정)과 1천만원(박사과정)의 연구 장려금을 지원할 계획이다. 해당 장학금은 서울 소재의 AI 인재양성을 위해 서울특별시에서 신설한 사업으로 AI 기반의 전문 인재 양성을 위하여 조성되었다. *각 연구실 링크 홍성은 교수 - AIM LAB (https://aim.skku.edu/) 한진영 교수 - DSAIL (http://dsail.skku.edu/) 박은일 교수 - dxlab (https://dsl.skku.edu/)
-
- 작성일 2025-11-10
- 조회수 236
-
- [연구] 인공지능융합학과 박은일 교수 연구팀, ICCV 2025 - ABAW VA Estimation Challenge 우승
- ▲(왼쪽부터) 성균관대 이유빈 박사과정생, 이상은 졸업생(現 ETRI 연구원), 박채원 석사과정생, 차준엽 박사과정생, 박은일 교수 우리 대학 인공지능융합학과 박은일 교수 연구팀이 세계 최고 권위의 인공지능(컴퓨터 비전) 학술대회인 ICCV 2025 (International Conference on Computer Vision)에서 개최된 ABAW (Affective Behavior Analysis in the Wild) / Valence-Arousal Estimation Challenge에서 1위를 차지했다고 밝혔다. 이번 대회는 2025년 10월 미국 하와이에서 열렸으며, 전 세계 유수 대학과 연구기관이 참가해 영상과 음성 등 비정형 멀티모달 데이터를 활용한 감정 상태 예측 기술을 경쟁했다. ▲ ICCV 2025 - ABAW Valence-Arousal Estimation Challenge에서 1위를 차지하며 수상한 인증서 ▲ ICCV 2025에서 1위 수상 연구를 발표하는 이유빈 박사과정(2025년 10월 20일, 미국 하와이 호놀룰루 컨벤션센터) ABAW 챌린지는 실제 환경에서 수집된 복잡한 멀티모달 데이터를 바탕으로 인간의 감정을 Valence-Arousal(긍정-부정, 활성화-비활성화) 축에서 정밀하게 추정하는 기술력을 평가한다. 특히 올해 대회는 시간적 변화에 대한 이해와 멀티모달 융합의 정교함을 요구해, 실시간 감정 추정 및 인간-인공지능 상호작용 분야의 핵심 벤치마크로 자리잡았다. 박은일 교수 연구팀은 Time-aware Gated Fusion(TAGF) 기반의 정서 인식 프레임워크를 제안해 우수한 성과를 거두었다. 제안된 모델은 BiLSTM 게이팅 메커니즘을 활용하여 시간에 따른 감정 변화를 동적으로 반영하고, 불필요한 잡음을 억제하면서 핵심 정서 단서를 강조함으로써 기존 모델 대비 높은 예측 성능을 달성했다. 이 결과는 실제 환경에서도 안정적이고 해석 가능한 감정 인식이 가능함을 보여주며, 향후 인간-AI 상호작용, 감정 기반 콘텐츠 분석, 정서 지능형 에이전트 개발 등 다양한 응용 분야로 확장될 수 있을 것으로 기대된다. ▲ 시각 및 음성 정보를 융합한 Time-aware Gated Fusion(TAGF) 기반 정서 예측 프레임워크 개략도 이번 성과는 박은일 교수 연구팀이 꾸준히 축적해 온 사용자 이해 기반의 범용 인공지능 기술 연구 역량을 다시 한번 세계적으로 인정받은 사례로 평가된다. 연구팀은 향후 감정 이해를 넘어, 인간의 인지적 맥락과 의도를 정밀하게 해석하는 차세대 정서 지능형 인공지능 기술 개발에 주력할 계획이다. 또한 이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 인간지향적 차세대 도전형 AI 기술 개발과 딥페이크 연구센터 사업의 일환으로 수행되었으며, ICCV 2025에서 공식 발표되었다. ※ 논문명: Dynamic Temporal Gating Networks for Cross-Modal Valence-Arousal Estimation ※ 저자명: 이유빈(제1저자), 이상은, 박채원, 차준엽(공동저자), 박은일(교신저자) ※ 학술대회: ICCV 2025 (International Conference on Computer Vision)
-
- 작성일 2025-11-03
- 조회수 232
-
- [연구] LAMDA (지도교수: 오하영 교수) WSDM 2025 논문 1편 게재 승인
- LAMDA연구실(지도교수: 오하영)의 논문이 데이터 마이닝 분야의Top-tier 학술대회인 WSDM 2026 (The 19th ACM International Conference on Web Search and Data Mining) Main Conference에 게재 승인(Accept) 되었습니다. 왼쪽부터 LAMDA Lab 이진권, 김기성, 양혜지 ‘인공지능융합학과’ 학생(지도교수 : 오하영), ‘인터렉션사이언스학과’ 차동영 본 연구는 사회적으로 복잡하고 갈등을 유발하는 인터넷 밈을 정확히 해석하기 위해, 이미지·캡션·외부 문서를 통합하는 프레임워크 MerFT(Meme Exploration via Multimodal Retrieval-Augmented Fine-tuning)를 제안합니다. 함께 공개한 RoMQD데이터셋은KnowYourMeme 오라클 문서와 의미는 비슷하지만 맥락은 어긋나는‘디스트랙터’ 문서를 체계적으로 포함해, 현실적인 노이즈 환경에서의 해석 능력을 평가합니다. MerFT는 인용-인식Chain-of-Thought와 문서 정렬 기반 답변 손실을 결합하고, 오해를 부르는 외부 정보 의존을 명시적으로 패널티하여RAG의 취약점을 보완했습니다. 8개 사회갈등 영역, 6가지 인지 역량(문화 맥락, 풍자/아이러니, 이미지-텍스트 통합 등)에서 평가한 결과, Qwen2.5-VL 기준선 대비F1 +8.1을 달성했으며, 특히 풍자/아이러니와 이미지-텍스트 통합 과제에서 큰 개선을 보였습니다. 입력을 이미지+캡션+문서로 모두 활용할 때 가장 안정적이었고, 클러스터링 기반의 강한 디스트랙터 설계가 견고성을 한층 높였습니다. 또한 최신 재순위 기법과 결합한 하이브리드 접근이 계산 비용은 늘지만 최고 성능을 기록했습니다. 본 연구는 밈 기반 사회문화 갈등 분석을 위한 검색 강건성 다중모달 추론의 실현 가능성을 입증하고, 신뢰 가능한 콘텐츠 분석 시스템 구축에 실질적 지침을 제시합니다.
-
- 작성일 2025-10-24
- 조회수 895
-
- [일반] 삼성학술정보관 3차원 공간데이터 국제표준화기구 MPEG의 공식 평가 영상으로 채택 달성
- 삼성학술정보관 3차원 공간데이터 국제표준화기구 MPEG의 공식 평가 영상으로 채택 달성 2025년 10월 11일, 성균관대학교 소프트웨어융합대학 인공지능융합학과 류은석 교수 연구실(MCSLab) 연구팀이 개발한 대규모 3D 영상 데이터셋 “Library”가 국제표준화기구 ISO/IEC JTC 1/SC 29/WG 4 (MPEG Video Coding)의 Gaussian Splat Coding(GSC) 필수 실험 평가용 공식 영상으로 채택되었다. 이번 성과는 한국전자통신연구원(ETRI)과 공동으로 추진된 국제 기고 결과로, 구래건, 김영규, 안승혁, 양이삭 연구원이 저자로 참여하였다. Library Sequence는 본교 내 삼성학술정보관과 주변 공간을 드론을 활용하여 실감형 3D로 기록한 대규모 데이터셋이다. 연구팀은 캠퍼스 공간을 실제와 동일한 비율로 항공 촬영하고, 이를 3차원 형태로 정밀 복원함으로써 현실 세계를 가상 공간으로 확장한 새로운 형태의 3D 디지털 자산을 구축하였다. 해당 데이터는 가우시안 스플래팅(Gaussian Splatting) 기술을 활용해 재구성되었으며, 이는 최근 전 세계에서 주목받고 있는 차세대 3D 실감 영상 기술이다. 국제표준화기구 MPEG은 현재 3D Gaussian Splatting 기반 영상 압축 기술(GSC)의 표준화를 추진 중이며, Library Sequence는 이 과정에서 성능 평가 검증을 위한 공식 실험 데이터(Exploration Experiment, JEE 6.1)로 지정되었다. 이는 향후 전 세계의 연구기관과 기업이 제안하는 모든 GSC 알고리즘이 Library Sequence를 기준으로 비교 및 검증된다는 것을 의미한다. 즉, 성균관대학교에서 제작한 데이터가 국제표준의 품질을 결정하는 ‘공통 시험 영상’으로 활용되는 사례로 평가된다. 또한 이번 성과는 한국전자통신연구원(ETRI) 와의 공동 연구를 통해 이루어졌으며, 국내 학계와 연구기관이 협력하여 국제표준의 중심에서 기술을 선도하고 있음을 보여준다. 이번 채택으로 인해 캠퍼스의 대표 공간이 전 세계 연구자들과 함께 실험하고 인용하는 국제 데이터 레퍼런스로 자리를 잡을 수 있게 되었다. 실감미디어 기술을 통해 본교의 공간이 글로벌 연구 무대에서 디지털 문화 자산으로 재탄생한 상징적인 사례가 되었고, 이에 연구팀은 국제표준화기구와 협력을 지속하며, Library Sequence를 기반으로 한 다양한 3차원 공간 데이터 압축 및 전송 실험과 기술 검증을 이어 나갈 예정이다. ※ 지도교수: 류은석 (성균관대학교 소프트웨어융합대학 인공지능융합학과) ※ 구래건, 김영규, 안승혁, 양이삭, 류은석 (성균관대학교) / 이하현, 방건 (ETRI) ※ 문의: esryu@skku.edu | http://mcsl.skku.edu/
-
- 작성일 2025-10-14
- 조회수 279
-
- [연구] DSSAL (지도교수: 김장현 교수) EMNLP 2025 논문 1편 게재 승인
- DSSAL연구실 (지도교수: 김장현)의 논문이 자연어 처리 분야의 Top-tier 학술대회인 EMNLP 2025 (The 2025 Conference on Empirical Methods in Natural Language Processing) Main Conference에 게재 승인(Accept) 되었습니다. 논문에는 선승종(인공지능융합학과 박사과정, 공동 제1저자) 백서연(실감미디어공학과 석사과정, 공동 제1저자), 그리고 김장현(교신저자) 지도교수가 참여하였습니다. 본 연구는 대규모 언어모델(Large Language Models, LLMs)의 성격(Personality)을 조절하기 위한 새로운 방법을 제안합니다. 기존 접근법에 한계가 있던 연속적·다차원적 성격 표현을 모델 병합(Model Merging) 기반 성격 벡터(Personality Vector) 기법을 통해 구현하였습니다. 이를 통해 추가 학습 없이 성격을 부여할 수 있을 뿐 아니라, 성격 강도의 연속적·확장적(scalable) 조절과 다중 성격 특성의 조합을 가능하게 했습니다. 또한, 역할 수행형 에이전트(Role-Playing Character Models)·한국어 모델(Cross-Lingual Transfer to Korean)·비전-언어 모델(Cross-Modal Transfer to VLM) 등 다양한 영역으로의 전이 가능성까지 입증했습니다. 논문링크: https://arxiv.org/abs/2509.19727
-
- 작성일 2025-09-26
- 조회수 697
-
- [연구] AIM LAB(지도교수: 홍성은 교수) ACM MM 2025 논문 게재 승인
- 인공지능 및 미디어 연구실(AI & Media, AIM LAB)의 논문 1편이 멀티미디어 인공지능 분야 세계 최고 권위 학회인 ACM Multimedia (MM) 2025에 게재 승인되었습니다. 논문은 2025년 10월 아일랜드 더블린에서 발표됩니다. RA-Touch: Retrieval-Augmented Touch Understanding with Enriched Visual Data 조유림*, 김홍엽*, 김세민, Youjia Zhang, 최윤석, 홍성은 (*공동 제1저자) RA-Touch는 부족한 촉각 데이터 환경에서도 시각 및 언어 정보를 활용하여 높은 촉각 인지(Tactile Perception) 성능을 달성할 수 있는 검색-증강(Retrieval-Augmented) 기반 프레임워크입니다. 특히 촉각 중심의 검색기(Retriever)와 통합기(Integrator)를 새롭게 설계하여, 시각-언어 데이터를 통해 촉각 추론 능력을 크게 향상시켰습니다. 저자들은 ImageNet 기반의 GPT-4o mini를 활용한 촉각 중심 캡션으로 이루어진 시각-언어 데이터셋인 ImageNet-T를 구축하였습니다. 이를 바탕으로 촉각-지도 검색기(Tactile-Guided Retriever)와 촉각-인지 통합기(Texture-Aware Integrator)를 설계하였습니다: 1. 촉각-지도 검색기(Tactile-Guided Retriever): RGB 이미지 및 촉각 데이터를 결합하여 의미적으로 일치하는 외부 지식 샘플을 검색하는 쿼리를 형성합니다. 이 과정에서 촉각적 관련성을 시각적 유사성보다 우선시하여 모델이 시각적으로 다르더라도 유사한 촉감을 공유하는 외부 샘플을 추론 시 적극적으로 활용할 수 있습니다. 2. 촉각-인지 통합기(Texture-Aware Integrator): Attention 메커니즘을 적용하여 검색된 특징을 정제하는 모듈로, 이 과정에서 촉각 입력은 시각 및 텍스트(캡션) 임베딩 에서 텍스처의 단서를 추출하는 요소로 활용됩니다. 이를 통해 추출된 특징은 LLM에 통합되어 세밀한 텍스처 추론을 지원합니다. 이 모듈들은 촉각 데이터가 부족한 상황에서도 시각·언어 정보를 활용해 정밀한 촉각 인지를 가능하게 하며, 향후 멀티모달 인공지능 연구의 확장성을 보여줍니다.
-
- 작성일 2025-08-26
- 조회수 859
-
- [연구] DSSAL (지도교수: 김장현 교수) CIKM 2025 논문 1편 게재 승인
- Data Science and Social Analytics Lab(DSSAL) (지도교수: 김장현 교수)의 논문 1편이 국제학술대회 CIKM (Conference on Information and Knowledge Management) 2025에 게재 승인되었습니다. "Sarcasm Subtype-Specific Reasoning in Dialogue with Multimodal Cues Using Large Language Models" 논문에는 강충원 (인공지능융합학과 석사과정, 제1저자), 이원병 (인공지능융합학과 석사과정, 공동저자), 황승현 (데이터사이언스융합학과 석사과정, 공동저자), 태선호 (인공지능융합학과 석박통합과정, 공동저자), 선승종 (인공지능융합학과 박사과정, 교신저자1), 그리고 김장현 (교신저자2) 지도교수가 참여하였습니다. 좌측부터 강충원(제1저자), 이원병(공동저자), 황승현(공동저자), 태선호(공동저자), 선승종(교신저자1), 김장현 교수(교신저자2) 본 연구는 기존에 다루지 않았던 Large Language Models (LLMs)을 활용한 풍자 하위유형별 추론생성(Sarcasm Subtype-specific Reasoning Generation, SSRG)이라는 새로운 과제를 제안합니다. SSRG를 수행하기 위해 풍자 하위유형별 추론 데이터셋(Sarcasm Subtype-specific Reasoning Dataset, SSRD)을 구축하여 새로운 벤치마크를 제시했습니다. 또한, 멀티모달 단서(시각, 음성)를 텍스트 형태로 변형시키고 통합하여 LLMs 에게 제공할 시, Multimodal Large Language Model (MLLM)보다 뛰어난 추론 성능을 발휘할 수 있음을 입증했습니다.
-
- 작성일 2025-08-13
- 조회수 1454
-
- [연구] DXLab (지도교수: 박은일 교수), IJCAI 2025, CIKM 2025에 논문 3편 게재 승인
- DXLab (지도교수: 박은일) 논문이 인공지능 분야의 Top-tier 국제학술대회 IJCAI 2025(1편)와 CIKM 2025(2편)에 게재 승인되었습니다. 1) (IJCAI 2025) “Solving Copyright Infringement on Short Video Platforms: Novel Datasets and an Audio Restoration Deep Learning Pipeline” 논문은 오민우 연구원(석사과정), 박민수 연구원(석박통합과정)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 유튜브 쇼츠, 틱톡 등 숏폼 영상 플랫폼에서 발생하는 임의 배경음악(BGM) 삽입으로 인한 저작권 침해 문제를 해결하기 위한 새로운 오디오 복원 파이프라인을 제안합니다. 사용자는 영상의 원본 OST를 가리기 위해 임의의 BGM을 삽입하는데, 이는 기존 콘텐츠 검출 시스템의 정확도를 크게 저하시킵니다. 이를 해결하기 위해 본 연구는 음악 소스 분리(MSS)와 크로스모달 영상-음악 정합성 평가(CMVMR)를 결합한 4단계 파이프라인을 설계하였습니다. 특히, 본 연구는 파이프라인 학습과 평가를 위해 두 가지 도메인 특화 데이터셋을 새롭게 구축했습니다. 실험 결과, 제안한 파이프라인은 SDR, SI-SDR 등에서 임의 배경음악이 삽입된 오디오 대비 뛰어난 성능을 보여 실제 플랫폼 적용에 적합한 높은 성능과 실용성을 입증하였습니다. 2) (CIKM 2025) “BOVIS: Bias-Mitigated Object-Enhanced Visual Emotion Analysis” 논문은 이유빈 연구원(석박통합과정), 차준엽 연구원(석박통합과정)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 시각 자극에 대한 인간의 감정 반응을 예측하는 Visual Emotion Analysis (VEA)의 정밀도와 공정성을 향상시키기 위해 새로운 프레임워크 BOVIS를 제안합니다. 기존 연구들은 전체 이미지의 특징이나 객체의 의미 정보 중 하나에만 집중하여 감정 해석의 표현력이 부족하거나 편향된 결과를 초래하는 한계를 보였습니다. BOVIS는 이러한 문제를 해결하기 위해 두 가지 핵심 전략을 결합합니다. Object-Enhanced Feature Integration을 통해 이미지의 전체적 맥락, 객체 수준의 시각 정보, 그리고 텍스트 기반 의미 정보를 통합적으로 활용하여 감정의 미묘한 뉘앙스를 포착합니다. 그리고 Bias-Mitigation Loss 설계를 통해 Mikel’s Emotion Wheel 기반 감정 간 거리 정보를 반영한 Emotion Loss, 샘플별 불균형을 고려한 IPW-MAE, 극단 오차에 민감한 GMAE, 그리고 분류 정확도를 높이기 위한 Cross Entropy Loss를 조합한 가중합 손실 함수 구조를 적용하여 데이터 편향을 효과적으로 완화합니다. BOVIS는 유사한 감정 간의 세밀한 구분이 필요한 상황에서도 높은 예측 정확도를 보였으며, 소수 클래스에 대한 편향된 학습 문제를 효과적으로 완화하여 감정 예측의 공정성과 신뢰도를 크게 향상시켰습니다. 이러한 특성은 감성 인식 기반의 멀티에이전트 협력 환경 등 실제 응용 시나리오에서도 높은 활용 가능성을 보여줍니다. 3) (CIKM 2025) “Streamlining Feature Interactions via Selectively Crossing Vectors for Click-Through Rate prediction” 논문은 장병우 연구원(석사과정), 박진희 연구원(석사과정)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 계산 효율적인 클릭률 예측(Click-Through Rate, CTR) 모델을 제안합니다. 저자들은 여러 대표적인 CTR 모델을 대상으로 실험한 결과, 전체 상호작용(feature interaction)의 최대 90%를 제거해도 성능 저하가 거의 없으며, 많은 상호작용이 불필요하거나 오히려 노이즈로 작용할 수 있음을 확인했습니다. 이를 바탕으로 상호작용 학습을 ‘희소(sparse) 엣지 선택’ 문제로 재정의하는 새로운 접근을 제시합니다. 제안하는 Selectively Crossing Vectors(SCV)는 모든 입력 인스턴스에 대해 전역적으로 공유되는 핵심 상호작용 그래프(core interaction graph)를 학습하는 Pessimistic Feature Selection(PFS)를 이용해 희소성을 확보합니다. 이후 입력별로 적합한 상호작용을 선택하기 위해 여러 개의 core interaction graph를 구성하고, 이를 단계적인 Mixture of Experts(MoE) 구조인 Multi-Level Expert Learning(MEL)로 결합해 전역 구조의 일관성과 지역적 적응성을 동시에 달성합니다. 마지막으로, 학습 과정의 불안정성을 완화하기 위해 라벨 정보를 편향 신호로 활용하는 Label-Biased Objective(LBO)를 적용합니다. SCV는 희소성을 높임과 동시에 표현력과 학습 안정성을 향상하여, 4개의 벤치마크에서 기존 모델 대비 최대 66%의 FLOPs를 절감하면서도 대부분의 데이터셋에서 SOTA 성능을 달성합니다. | DXLab. | https://dsl.skku.edu
-
- 작성일 2025-08-13
- 조회수 917
-
- [연구] main Lab(지도교수: 김재광 교수) CIKM 2025 논문 2편 게재 승인
- main Lab. 연구실(지도교수: 김재광 교수)의 논문 2편이 인공지능 분야의 Top-tier 국제학술대회 CIKM (Conference on Information and Knowledge Management) 2025에 게재 승인되었습니다. 두 편의 논문은 25년 11월 서울 코엑스에서 발표될 예정입니다. 1) "RadialFocus: Geometric Graph Transformers via Distance-Modulated Attention" 논문은 김산 (소프트웨어학과 박사과정), 이승준 (실감미디어공학과 석사과정), 오시찬 (전기전자컴퓨터공학과 석사과정) 이 저자로 참여하였고 김재광 교수가 교신저자로 참여하였습니다. 좌측부터 김산 소프트웨어학과 박사과정, 이승준 실감미디어공학과 석사과정, 오시찬 전기전자컴퓨터공학과 석사과정, 김재광 교수(교신저자) RadialFocus Graph Transformer는 그래프 내 거리 정보를 똑똑하게 활용하는 인공지능 모델입니다. 복잡한 위치 인코딩이나 가상 노드 없이, 각 주의(head)에 거리 기반 함수(RBF)를 넣어 가까운 노드에 더 집중하도록 학습합니다. 이 방식은 메모리 부담이 적고 정확도도 높습니다. 분자 예측, 결합력 예측, 이미지 그래프 분류 등 다양한 분야에서 기존보다 적은 파라미터로 뛰어난 성능을 보였으며, 거리 중심과 범위를 자동으로 학습해 중요한 거리 범위를 효과적으로 파악합니다. 2) "Spectral Edge Encoding - SEE: Does Structural Information Really Enhance Graph Transformer Performance?" 논문은 이승준 (실감미디어공학과 석사과정), 김산 (소프트웨어학과 박사과정), 김조현 (인공지능융합학과 학석박과정) 이 저자로 참여하였고 김재광 교수가 교신저자로 참여하였습니다. 좌측부터 이승준 실감미디어공학과 석사과정, 김산 소프트웨어학과 박사과정, 김조현 인공지능융합학과 학석과정, 김재광 교수(교신저자) Spectral Edge Encoding(SEE)는 그래프에서 각 연결(edge)이 전체 구조에 얼마나 중요한지를 스펙트럼(고유값) 변화를 통해 계산하는 방법입니다. 학습할 파라미터 없이 작동하며, 이 정보를 그래프 트랜스포머의 주의(attention) 과정에 반영해 구조 인식을 높입니다. Moiré Graph Transformer에 적용한 결과, 분자 데이터 분류 성능이 크게 향상되어 평균 ROC-AUC 85.3%를 기록했고, 기존 최고 모델보다 7.1%p 높았습니다. 또한 SEE는 분자의 구조 정보를 잘 보존하고, 해석 가능성도 제공해 실용적인 장점을 갖습니다.
-
- 작성일 2025-08-07
- 조회수 791
-
- [연구] AIM LAB(지도교수: 홍성은 교수) ICCV 2025 논문 2편 게재 승인
- 인공지능 및 미디어 연구실(AI & Media, AIM LAB)의 논문 2편이 컴퓨터 비전 분야 세계 최고 권위의 학술대회인 ICCV (IEEE/CVF International Conference on Computer Vision) 2025에 게재 승인되었습니다. 이번 ICCV는 2025년 10월, 미국 하와이에서 개최될 예정이며, 두 논문 모두 현지에서 발표됩니다. 논문1. Task Vector Quantization for Memory-Efficient Model Merging (이승환 석사과정, 정애천 박사과정 공동 제1저자) 이 논문에서는 특정 작업에 특화된 모델들을 하나의 범용 모델로 만드는 '모델 병합(Model Merging)' 기술을 다룹니다. 모델 병합을 위해서는 각 작업별로 파인튜닝된 다수의 모델 체크포인트를 저장해야 하는데, 이는 상당한 메모리를 차지하여 확장성을 저해하는 주요 원인이었습니다. 이를 해결하기 위해 논문은 두 가지 핵심적인 양자화(Quantization) 기법을 제안합니다. Task Vector Quantization (TVQ)는 파인튜닝된 모델 전체가 아닌, 사전 학습된 원본 모델과 파인튜닝된 모델의 가중치 차이만을 나타내는 '태스크 벡터'를 양자화하는 방식입니다. 태스크 벡터는 전체 모델의 가중치보다 분포 범위가 훨씬 좁아, 양자화 시 발생하는 오차가 더 작다는 특성을 활용합니다. Residual Task Vector Quantization (RTVQ)는 2비트와 같은 극단적인 저정밀도 환경에서 발생하는 성능 저하를 완화하기 위해 설계되었습니다. 이 방식은 태스크 벡터를 모든 태스크가 공유하는 하나의 'base vector'와 각 태스크의 고유한 차이를 나타내는 여러 개의 'offset vector'로 분해합니다. 중요 정보가 담긴 기반 벡터는 상대적으로 높은 정밀도(예: 4비트)로, 오프셋 벡터는 낮은 정밀도(예: 2비트)로 양자화하여 메모리 예산 내에서 오차를 최소화합니다. 결과적으로 제안된 방식들은 기존 모델 병합 성능을 유지하면서도, 전체 정밀도(FP32) 체크포인트 대비 약 8%의 저장 공간만을 사용합니다. 특히, 이 기법들은 기존 모델 병합 프레임워크를 수정할 필요 없이 저장된 체크포인트만 교체하면 되므로, 메모리가 제한된 실제 환경에서의 확장성과 실용성을 크게 높였습니다. 논문2. DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding 이 논문에서는 텍스트, 음성 등 다양한 신호로부터 인간의 움직임을 생성하는 문제를 다루며, 기존 방식들의 한계를 극복하기 위한 새로운 프레임워크인 DisCoRD를 제안합니다. 기존의 연속적(Continuous) 생성 방식은 움직임은 자연스럽지만 주어진 조건을 정확히 따르지 못하는 경향이 있었고, 반대로 이산적(Discrete) 생성 방식은 조건은 잘 따르지만 움직임의 표현력이 제한되고 부자연스러운 문제가 있었습니다. DisCoRD는 이러한 '불일치(discord)'를 해결하기 위해 제안된 프레임워크로, 두 가지 핵심 요소로 구성됩니다. Condition Projection: 이산적인 모션 토큰에서 프레임별 특징을 추출하여 토큰과 실제 모션 프레임 간의 시간적 대응 관계를 명확히 유지합니다. Rectified Flow Decoder: 추출된 특징을 이용해 가우시안 노이즈로부터 점진적으로 모션을 복원합니다. 연속 공간에서 이루어지는 이 반복적 디코딩은 미세한 노이즈와 어색함을 줄여 훨씬 부드럽고 역동적인 움직임을 생성합니다. DisCoRD는 이산 방식의 높은 '충실도(faithfulness)'와 연속 방식의 '자연스러움(naturalness)'을 성공적으로 결합했으며, 다양한 기존 이산 모델에 적용해 성능을 높이는 범용 솔루션의 가능성을 입증했습니다.
-
- 작성일 2025-07-04
- 조회수 1308
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 다음 페이지로 이동하기
- 마지막 페이지로 이동하기
발전기금


