-
- [연구] main Lab(지도교수: 김재광) The 2026 ACM Web Conference (WWW) Research Track 게재 승인 NEW
- main Lab. 연구실 (지도교수: 김재광) 논문이 Top-tier 국제학술대회 The 2026 ACM Web Conference (WWW) Research Track에 게재 승인되었습니다. 논문은 26년 4월 두바이에서 발표될 예정입니다. "FCRLLM: Aligning LLM with Collaborative Filtering for Long-tailed Sequential Recommendation" 논문은 허병문 (인공지능융합학과 박사과정), 이남준 (인공지능융합학과 석사과정), 김선아 (소프트웨어학과 석사과정) 이 저자로 참여하였고 김재광 교수가 교신저자로 참여하였습니다. 이 연구는 상호작용 데이터가 부족한 Long-tailed 사용자 및 아이템에서의 추천 문제를 해결하기 위해, 거대언어모델(LLM)의 풍부한 의미론적(Semantic) 지식과 기존의 협업 필터링 신호를 결합한 FCRLLM 프레임워크를 제안합니다. 핵심 기술인 '플립드 클래스룸(Flipped Classroom)' 메커니즘은 협업 표현과 의미론적(Semantic) 표현이 서로 스승과 제자의 역할을 교차 수행하며 동적으로 정렬(aligned) 되도록 유도합니다. 이 과정에서 홉필드 네트워크 기반의 에너지 함수를 활용하여 두 양식 간의 어텐션 패턴 차이를 최소화하고 상호 보완적인 학습을 가능하게 합니다. 제안 방법은 세 개의 실제 데이터셋을 활용하여 실험하였고, 그 결과 제안 방법이 아이템의 인기나 사용자의 활동 수치와 관계없이 추천 성능을 일관되게 향상시키는 것으로 나타났습니다. 본 연구는 서로 다른 차원의 정보들을 양방향 교사-학생 구조로 통합함으로써 더욱 정교하고 다양한 추천 시스템을 구축할 수 있음을 보여줍니다.
-
- 작성일 2026-01-15
- 조회수 211
-
- [일반] SW융합대학 실감미디어공학과 Annual Research Review 성료
- SW융합대학 실감미디어공학과 Annual Research Review 성료 SW융합대학 실감미디어공학과(학과장: 류은석 교수)는 지난 11월 27일(목) 오후 4시 30분, 인문사회과학캠퍼스 국제관 5층 Global R&E Lounge에서 2025 Annual Research Review 행사를 성공적으로 개최했다. 이번 행사에는 실감미디어공학과, 인공지능융합학과, 인터랙션사이언스학과, 인공지능융합전공 등 4개 학과가 공동 참여하여 XR/VR & Immersive Experiences, 3D Gaussian Splatting & Graphics Systems, Multimodal Understanding & Generation, Human-AI Interaction & Social Computing, AI for Emotion & Mental Health, Data-Driven Modeling & Recommendation의 총 6개 분야에서 41팀의 연구 발표가 진행되었으며, 실감미디어 연구의 현재와 미래를 조망하는 의미 있는 자리로 꾸려졌다. 발표는 포스터 전시 및 데모 시연 형식으로 진행되었고, 연구의 실질적 적용 가능성과 기술적 확장성에 대한 활발한 논의가 이어졌다. 행사에 앞서 개최된 Industrial Advisory Board(IAB, 기업자문위원) 사전 미팅에는 LG전자, 삼성전자, 상화, 올림플래닛, SOS Lab, ETRI(한국전자통신연구원), LG U+, LG 헬로비전, 정보통신기획평가원(IITP) 등 주요 ICT 및 콘텐츠 분야 기업과 연구기관 관계자들이 참석했다. 참석 전문가들은 XR 디바이스, 로봇 기반 비전 기술, LiDAR 센서 및 volumetric 영상 기술, AI 기반 실감미디어 서비스, 미래 네트워크 및 Web3 기술 등 산업이 요구하는 핵심 기술 동향과 산학연 협력 방향에 대해 심도 있는 의견을 나누며, 산학 공동 연구 생태계 구축의 중요성을 강조했다. 연구 성과 관람 및 전문가 평가 이후 진행된 ‘Outstanding Research Award’ 시상식에서는 학부와 대학원 부문으로 나누어 수상자가 선정되었다.학부 부문에서는 인공지능융합전공 강민구 학우가 최우수 연구상을 수상했으며, 김수현 학우와 오경준 학우가 우수 연구상을 받았다. 대학원 부문에서는 인공지능융합학과 이유빈 연구원이 최우수 연구상을 수상했다. 우수 연구상은 △실감미디어공학과 김종한 연구원 △메타바이오헬스학과 오민우 연구원과 인공지능융합학과 박민수 연구원(팀) △실감미디어공학과 주민준 연구원 △실감미디어공학과 정의준 연구원에게 돌아갔다. 이번 시상은 창의적인 연구 역량과 실질적인 기술 발전 가능성을 보여준 연구자들의 노력을 인정하는 자리였다. 더불어 본 행사에는 특별히 류덕희 총동창회 고문(경동제약 명예회장)이 참석하여, 미래 기술을 선도할 연구자로 성장하는 학생들에게 실질적인 조언과 진심 어린 격려의 메시지를 전했다. 현장의 학생들과 연구진은 산업 현장에서 요구되는 실천적 역량과 연구 태도에 대한 인사이트를 얻으며 소중한 시간을 가졌다. 행사를 기획한 실감미디어공학과 류은석 학과장은 “Annual Research Review는 연구자들이 서로의 성과를 공유하고 새로운 협력 기회를 발굴하는 중요한 자리이며, 앞으로도 실감미디어 분야를 선도하는 글로벌 연구 허브로 성장해 나가겠다”고 밝혔다. 실감미디어공학과는 과학기술정보통신부 가상융합대학원 사업의 지원을 기반으로 우수 대학원생 선발과 해외 파견 연구 프로그램을 운영하며, 영상처리, 그래픽스, 인공지능 분야 미래 인재 양성을 위한 연구 환경과 국제 협력 체계를 지속적으로 확장하고 있다. 이번 Annual Research Review는 학부와 대학원 연구자들의 성과 공유뿐만 아니라 산업계와의 협력을 강화하고 미래 성장 기반을 마련한 뜻깊은 행사로 마무리되었다.
-
- 작성일 2025-12-02
- 조회수 748
-
- [연구] AIM Lab(지도교수: 홍성은 교수) NeurIPS 2025 논문 2편 발표
- 인공지능 및 미디어 연구실(AI & Media, AIM LAB)의 논문 2편이 미국 San Diego에서 개최되는 AI 분야 세계 최고 권위의 학술대회인 NeurIPS (Conference on Neural Information Processing Systems) 2025에서 발표 예정입니다. 논문1. Backpropagation-Free Test-Time Adaptation via Probabilistic Gaussian Alignment (Youjia Zhang, 김영은, 최영근, 김홍엽, Huiling Liu, 홍성은) 본 논문은 이미지 분류 모델이 배경·스타일·조명·노이즈 등 다양한 분포 변화 상황에서 성능이 떨어지는 문제를 해결하기 위해, 테스트 시점에서 모델을 빠르게 적응시키는 Test-Time Adaptation(TTA) 과제를 다룹니다. 기존 TTA는 반복 최적화나 backpropagation에 의존해 실시간 적용이 어려웠습니다. ADAPT는 이 문제를 해결하기 위해 가우시안 분포 정렬 기반의 완전 backprop-free 적응 방식을 제안하며, 효율성과 안정성을 동시에 확보했습니다. - Gaussian Distribution Modeling: 클래스별 특징 분포를 가우시안으로 단순·명확하게 모델링해, 반복 계산 없이 바로 적응할 수 있도록 합니다. - Lightweight Regularization with CLIP Priors: 신뢰도 높은 특징을 축적하는 knowledge bank와 CLIP 기반 priors를 활용해, 예측의 일관성과 안정성을 유지합니다. ADAPT는 단순하고 가벼운 구조를 기반으로 backpropagation 없이도 강력한 TTA 적응 성능을 보여주며, 다양한 분포 변화 환경에서 기존 최신 기법들을 능가하는 성능을 입증했습니다. 논문2. PRIMT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Synthesis from Foundation Models 본 논문은 로봇의 움직임·조작·보행 등 다양한 행동 궤적을 비교해 어떤 궤적이 더 선호되는지 학습하는 PbRL(Preference-based Reinforcement Learning) 문제를 다룹니다. 기존 방식들은 단일 모달리티에 의존해 선호 판단이 불안정하거나, 초기 학습 단계에서 쿼리가 모호해지는 문제가 있었습니다. PRIMT는 이러한 한계를 극복하기 위한 새로운 프레임워크로, LLM과 VLM을 결합한 멀티모달 선호 융합과 궤적 생성(foresight/hindsight) 방식을 통해 더 정확하고 안정적인 선호 학습을 가능하게 합니다. - Hierarchical Multimodal Preference Fusion: LLM과 VLM이 제공하는 상보적 정보를 결합해, 로봇 행동의 선호를 더 정확하고 안정적으로 판단합니다. - Bidirectional Trajectory Synthesis: LLM이 다양한 초기 궤적을 생성해 학습 초반의 모호한 비교 문제를 줄이고, 반사실(counterfactual) 궤적을 만들어 보상 신호가 어떤 행동에 의해 결정되는지 명확히 드러냅니다. PRIMT는 기존 PbRL의 약점을 보완하면서, 조건 충실도와 행동 자연스러움 모두를 개선하는 결과를 보여주었고 다양한 로봇 조작 및 이동 과제에서 성능 향상을 입증했습니다.
-
- 작성일 2025-12-01
- 조회수 647
-
- [연구] LAMDA Lab(지도교수: 오하영), The 41st ACM/SIGAPP Symposium on Applied Computing (SAC 2026) Main CoMain Conference 5편 게재 승인
- LAMDA연구실(지도교수: 오하영)의 논문이 인공지능·정신건강 융합 분야의 국제 학술대회인 The 41st ACM/SIGAPP Symposium on Applied Computing (SAC 2026) Main Conference에 5편 게재 승인(Accept) 되었습니다. 1) Can LLM Agents Really Simulate Clients in Counseling? 왼쪽부터 LAMDA Lab 인공지능융합학과 유선희, 김동명, 노유진, 권경민 학생(지도교수 : 오하영) 최근 연구들은 상담 장면에서 내담자를 재현하기 위해 대규모 언어모델(LLM)을 활용하는 시도를 활발히 진행해왔다. 그러나 LLM이 과도하게 긍정적인 반응을 생성하는 경향이 지속적으로 보고되어 왔으며, 이는 시뮬레이션 상호작용의 현실성을 저하시킨다는 한계로 지적되고 있다. 본 연구는 이러한 긍정 편향이 실제로 다양한 폐쇄형·오픈소스 모델 전반에서 나타나는지를 정량적으로 검증하고, 이를 완화하기 위한 전략의 효과를 분석하는 것을 목표로 한다. 이를 위해 임상 전문가 기준에 기반해 내담자 발화를 정서(sentiment)와 태도(stance) 두 차원에서 평가하는 데이터셋과 평가 모델을 구축하였다. 이후 다중 LLM 모델과 편향 완화 전략을 적용하여 인공 상담 대화를 생성하고, 실제 상담 데이터를 기준으로 편향의 존재 여부와 완화 효과를 비교 분석하였다. 실험 결과, 대부분의 LLM 내담자 모델은 실제 환자 대화와 통계적으로 유의한 차이를 보이며 긍정 편향을 나타냈다. 제안된 편향 완화 전략은 이러한 편향을 어느 정도 감소시키기는 했지만, 실제 환자 발화 수준과 완전히 정렬되는 데에는 아직 미치지 못했다. 본 연구 결과는 LLM 기반 상담 시뮬레이션과 실제 환자 반응 간의 정량화 가능한 격차가 존재함을 보여주며, 이를 해소하기 위해 표준화된 평가 프레임워크, 상담 맥락에 적응하는 편향 완화 기법, 그리고 페르소나 설계 전략의 발전이 필요함을 시사한다. 2) EEG-Informed Neuroadaptive Language Model for CBT 왼쪽부터 LAMDA Lab 인공지능융합학과 김효빈 졸업생, 이진권 학생(지도교수 : 오하영) 본 연구는 텍스트만 보는 기존 CBT 챗봇이 사용자의 비언어적 상태를 반영하지 못하는 한계를 극복하기 위해, 소비자용 EEG와 멀티에이전트 LLM을 결합한 NeuroCBT 프레임워크를 제안합니다. 시스템은 CBT의 인지 삼각형에 맞춰 생각(Thought)·감정(Feeling)·행동(Behavior) 에이전트를 구성하고, 머리띠형 EEG(예: Muse-S)에서 추출한 인지 부하·각성도·전전두 비대칭(FAA) 지표를 해석하는 EEG 분석 에이전트가 이들을 조정·게이팅하도록 설계되었습니다. 모든 EEG 전처리(대역통과 필터, 노치, ASR, 재참조, 윈도우/홉 크기 등)와 지표 산출식(θ/α/β 파워 비율, 회피 지수 등)을 논문에서 투명하게 공개해, 뉴로어댑티브 대화 시스템의 재현성을 확보했습니다. 아울러 약 6,000개의 EEG–텍스트 삼중항으로 학습한 단일 모델 변형인 NeuroCBT-LLM을 제시해, EEG를 토큰화된 컨텍스트로 직접 주입하는 경량 배포 옵션도 함께 제공합니다. 무작위 EEG를 섞은 대조 실험과 창(window)·채널 수·인코더 구조에 대한 소거 실험에서, 생리 신호를 정교하게 반영할수록 공감성, 안내 품질, 상호작용성이 유의미하게 향상되는 것이 확인되었습니다. 32명을 대상으로 한 사용자 연구에서는 텍스트 기반 CBT 챗봇 대비 공감도와 정서적 일치감 평가가 유의하게 상승해, NeuroCBT가 실시간·폐루프형 정신건강 개입의 실용적인 아키텍처임을 보여줍니다. 3) GoTCHA: Hierarchical Graph-of-Thoughts for Explainable Cognitive Distortion Classification 왼쪽부터 LAMDA Lab 인공지능융합학과 양하연, 홍지흔, 박진경, 권경민 학생(지도교수 : 오하영) 본 연구는 CBT 상담 대화 속에서 겹쳐 나타나는 인지 왜곡과 그 배경에 있는 신념 구조를 정밀하게 분석하기 위해, 계층적 Graph-of-Thoughts 프레임워크인 GoTCHA를 제안합니다. 시스템은 내담자의 발화를 ‘Objective Fact’’과 ‘Subjective Thoughts’으로 분리하는 갭 분석을 수행한 뒤, core belief – fine-grained belief – cognitive distortion의 3단계 위계 구조로 추론합니다. 각 단계에서 여러 후보 생각을 생성하고, 심리학적 타당성·구조적 일관성·입력 관련성 점수로 평가하여 최적의 생각만을 선택하는 것이 특징입니다. 점수가 일정 기준보다 낮을 경우 상위 단계로 거슬러 올라가 다시 추론하는 조건부 역추론·자동 정제 메커니즘을 도입해, 한 번의 오판이 아래 단계로 연쇄 전파되는 문제를 크게 줄였습니다. CBT-BENCH 데이터셋에서 GoTCHA는 인지 왜곡 F1 0.695, 핵심 신념 0.850, 세부 신념 0.803을 기록하며, 특히 세부 신념 과제에서 기존 최고 기법 대비 38% 상대 향상(0.582→0.803)을 달성했습니다. 정제 모듈을 제거하면 F1이 0.695에서 0.439까지 급락해, 제안한 오류 수정 메커니즘의 중요성도 입증했습니다. GoTCHA는 임상 현장에서 “이 사람이 어떤 왜곡된 생각을, 어떤 핵심 신념에서 비롯해 하고 있는지”를 구조적으로 보여주는 도구로, 설명 가능한 인지 왜곡 분석과 자동화된 CBT 지원의 기반을 제시합니다. 4) HERA: Hybrid Emotion Recognition Model for Alexithymia Assessment Using AI and Multimodal Data 왼쪽부터 LAMDA Lab 인공지능융합학과 성연준, 유상현, 김서영, 손동영 학생(지도교수 : 오하영) 본 연구는 자신의 감정을 인식·언어화하기 어려운 특성인 알렉시시미아(alexithymia)를, 설문지에만 의존하지 않고 행동·표정·시선·언어 데이터를 통합한 하이브리드 모델 HERA로 평가하는 프레임워크를 제안합니다. 80명의 참가자가 긍정·부정 감정을 유발하는 영상 클립을 시청하며 감정을 느낄 때 버튼을 누르고, 이후 자유 서술형으로 느낀 점을 작성하도록 설계했습니다. 시스템은 얼굴 표정 분석, 시선 추적, 버튼 반응 패턴, GPT-4 기반 텍스트 분석을 통해 감정 어휘 사용, 정서 극성, 맥락의 구체성 등을 추출합니다. 이렇게 얻은 멀티모달 지표를 Perth Alexithymia Questionnaire(PAQ)의 세 하위 척도(DIF, DDF, EOT)에 매핑하고, 우울 수준(PHQ-9)을 가중치로 활용해 예측 정확도를 높였습니다. 회귀 분석 결과, 통합 멀티모달 모델의 설명력은 R² = 0.30으로, 특히 얼굴 표정과 언어 지표가 성능 향상에 크게 기여했습니다. HERA는 ‘자기 보고’에 취약할 수밖에 없는 알렉시시미아를 행동 기반으로 정량화함으로써, 기존 설문을 보완·부분 대체할 수 있는 새로운 평가 경로를 제시합니다. 이는 감정 인식이 어려운 집단(청소년, 의료인 등)에 대한 조기 선별, 디지털 치료제·감정 인식 인터페이스 설계에 중요한 기초를 제공합니다. 5) Multi-Agent LLM Framework for PRECEDE–PROCEED Aligned Behavior Change Intervention Design LAMDA Lab 인공지능융합학과 이진권 학생(지도교수 : 오하영) 본 연구는 실제 보건 프로그램 기획에서 PRECEDE–PROCEED 모형을 제대로 쓰기 어려운 이유(시간 압박, 전문가 불균형, 근거 검색 난이도)를 해결하기 위해, 이 모형에 정렬된 멀티에이전트 LLM 설계 프레임워크를 제안합니다. 제안 시스템은 대상 집단 대표, 임상의/교육자, 지역사회 파트너, 행정 담당자 등 다양한 이해관계자를 역할 특화 에이전트로 모델링하고, 각 에이전트가 자신의 관점에 맞는 문헌·가이드라인을 검색하는 역할 정렬 RAG(Role-aligned Retrieval-Augmented Generation) 구조를 채택합니다. 에이전트들은 제안–비판–수정(propose–critique–revise) 루프를 여러 라운드 수행하며, 중재 내용의 충돌을 해소하고 합의안을 만들어 냅니다. 이 과정에서 모더레이터 에이전트가 TIDieR(12항목)와 BCTTv1(93개 행동변화 기법 분류) 체크리스트를 내장된 제약으로 활용해, 생성된 중재 매뉴얼의 누락·모순을 자동 검증합니다. 연구는 대학생·청년층을 대상으로 한 수면 위생, 신체활동(주 150분), 디지털 과다사용 관리(스크린타임/알림 조절) 세 시나리오를 중심으로, 단일 LLM·셀프컨시스턴시·일반 토론형 멀티에이전트와 비교 평가를 수행했습니다. 그 결과 제안 프레임워크는 보고서의 체크리스트 완전성, 이해관계자 정렬도, 모순 감소, 전문가 선호도에서 모두 우수한 성과를 보여, 이론에 정렬된 ‘체크리스트 완비형’ 중재 설계 자동화의 가능성을 입증했습니다.
-
- 작성일 2025-11-26
- 조회수 1643
-
- [연구] DXLab (박은일 교수 연구실), AAAI 2026 1편, WACV 2026 1편 게재 승인
- DXLab (지도교수: 박은일, https://dsl.skku.edu)의 논문이 인공지능 분야 우수학회인 AAAI 2026에 1편, WACV 2026에 1편 게재 승인(Accept)되었습니다. 해당 논문은 26년 1월(싱가포르)와 3월(애리조나)에서 발표될 예정입니다. 1) (AAAI 2026) “MASP: Multi-Aspect Guided Emotion Reasoning with Soft Prompt Tuning in Vision-Language Models” 논문은 이상은 졸업생(인공지능융합학과, 現 ETRI 연구원), 이유빈 박사과정생(인공지능융합학과)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 기존 Vision-Language Model (VLM) 기반 감정 인식이 이미지의 단일 표현이나 제한된 단서에 의존해 세밀한 감정 판단에 어려움을 겪는 문제를 해결하기 위해, 인간의 감정 판단 과정에서 활용되는 여러 시각 단서를 구조적으로 통합하는 MASP를 제안합니다. MASP는 얼굴 표정, 장면, 객체, 색채, 밝기, 행동의 여섯 가지 감정 단서를 독립적으로 인코딩하는 Multi-Aspect Module을 학습하고, 이를 전체 이미지 특징과 결합하여 보다 풍부한 시각 표현을 구성합니다. 기존 연구가 제한된 관점만 활용한 것과 달리, MASP는 여섯 가지 단서를 모두 분리×통합해 더 정교한 감정 해석을 지원합니다. 이후 Soft Prompt Tuning을 통해 언어 모델에 감정 인식에 특화된 추론 구조를 유도함으로써, 기존 대비 높은 정확도와 안정적인 성능을 달성합니다. Soft Prompt는 프롬프트 표현 변화에 대한 강건성을 높여 실제 환경에서도 안정적인 추론을 가능하게 합니다. MASP는 유사 감정 구분이나 소수 클래스 분류와 같은 까다로운 상황에서도 강인한 성능을 보이며, 멀티모달 감정 이해가 필요한 인간-에이전트 상호작용 등 실제 응용 분야에서 높은 활용 가능성을 보여줍니다. 2) (WACV 2026) “Alignment and Distillation: A Robust Framework for Multimodal Domain Generalizable Human Action Recognition” 논문은 지현빈 석사과정생(실감미디어공학과), 이주엽 박사과정생(인공지능융합학과)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 기존 Human Action Recognition(HAR) 모델이 단일 모달리티나 정적인 융합 방식에 머물러 실제 환경의 도메인 변화에 취약하다는 문제를 해결하기 위해, 멀티모달 단서를 시간적으로 정렬 및 통합하는 Multimodal Alignment and Distillation for Domain Generalization(MAD-DG) 프레임워크를 제안합니다. 이를 위해 MAD-DG는 두 가지 핵심 요소를 중심으로 보다 안정적인 행동 표현을 학습합니다. 먼저, Segment-Label Aligned Contrastive Learning(SLA-CL)은 RGB, Optical Flow, Audio 간의 비동기적 기록 문제를 Temporal Binding Window 기반으로 보정해 모달리티 간 의미적 대응을 정밀하게 맞춥니다. 이를 통해 센서 지연이나 녹화 불일치로 발생하는 잡음을 줄이고 행동의 핵심 패턴을 강조합니다. 이어서 Online Self-Distillation Temporal Module(OSDTM)은 행동이 시간적으로 여러 단계로 전개된다는 점에 착안해 다양한 길이의 segment tuple을 구성하고, soft attention으로 중요한 조합을 선택합니다. Teacher–student 방식의 self-distillation을 통해 도메인 변화에도 흔들리지 않는 시간적 표현을 형성합니다. MAD-DG는 이러한 모달리티 정렬과 다중 스케일 temporal reasoning을 결합해, 기존 모델이 어려워하던 멀티소스 도메인 일반화나 콘텍스트 제거 환경(Mimetics)에서도 높은 성능을 달성합니다. 특히 Optical Flow 정보를 적극적으로 활용해 실제 행동 중심의 표현을 구성하며, 복잡한 행동 이해나 인간–에이전트 협력 시스템 등 다양한 실사용 환경에서 높은 활용 가능성을 보여줍니다. 이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 인간지향적 차세대 도전형 AI 기술 개발, 디지털 분야 글로벌 연구지원, 학·석사연계 ICT핵심인재양성사업의 일환으로 수행되었습니다.
-
- 작성일 2025-11-17
- 조회수 891
-
- [학생실적] 인공지능융합학과/실감미디어공학과 학생 12명, AI 서울테크 대학원 장학생 선정
- 우리 학교 인공지능융합학과/실감미디어공학과 학생 12명이 AI 서울테크 대학원 장학생에 선정되었다. 선정된 장학생은 다음과 같다. 석사과정: 류보곤(지도교수 홍성은), 주세진, 양시현, 김지은, 박지안(지도교수 한진영), 최린, 전희정, 김기원, 박채원, 지현빈(지도교수 박은일) 박사과정: 최소윤(지도교수 홍성은), 김동재(지도교수 박은일) 서울장학재단은 위 학생들에게 각 500만원(석사과정)과 1천만원(박사과정)의 연구 장려금을 지원할 계획이다. 해당 장학금은 서울 소재의 AI 인재양성을 위해 서울특별시에서 신설한 사업으로 AI 기반의 전문 인재 양성을 위하여 조성되었다. *각 연구실 링크 홍성은 교수 - AIM LAB (https://aim.skku.edu/) 한진영 교수 - DSAIL (http://dsail.skku.edu/) 박은일 교수 - dxlab (https://dsl.skku.edu/)
-
- 작성일 2025-11-10
- 조회수 776
-
- [연구] 인공지능융합학과 박은일 교수 연구팀, ICCV 2025 - ABAW VA Estimation Challenge 우승
- ▲(왼쪽부터) 성균관대 이유빈 박사과정생, 이상은 졸업생(現 ETRI 연구원), 박채원 석사과정생, 차준엽 박사과정생, 박은일 교수 우리 대학 인공지능융합학과 박은일 교수 연구팀이 세계 최고 권위의 인공지능(컴퓨터 비전) 학술대회인 ICCV 2025 (International Conference on Computer Vision)에서 개최된 ABAW (Affective Behavior Analysis in the Wild) / Valence-Arousal Estimation Challenge에서 1위를 차지했다고 밝혔다. 이번 대회는 2025년 10월 미국 하와이에서 열렸으며, 전 세계 유수 대학과 연구기관이 참가해 영상과 음성 등 비정형 멀티모달 데이터를 활용한 감정 상태 예측 기술을 경쟁했다. ▲ ICCV 2025 - ABAW Valence-Arousal Estimation Challenge에서 1위를 차지하며 수상한 인증서 ▲ ICCV 2025에서 1위 수상 연구를 발표하는 이유빈 박사과정(2025년 10월 20일, 미국 하와이 호놀룰루 컨벤션센터) ABAW 챌린지는 실제 환경에서 수집된 복잡한 멀티모달 데이터를 바탕으로 인간의 감정을 Valence-Arousal(긍정-부정, 활성화-비활성화) 축에서 정밀하게 추정하는 기술력을 평가한다. 특히 올해 대회는 시간적 변화에 대한 이해와 멀티모달 융합의 정교함을 요구해, 실시간 감정 추정 및 인간-인공지능 상호작용 분야의 핵심 벤치마크로 자리잡았다. 박은일 교수 연구팀은 Time-aware Gated Fusion(TAGF) 기반의 정서 인식 프레임워크를 제안해 우수한 성과를 거두었다. 제안된 모델은 BiLSTM 게이팅 메커니즘을 활용하여 시간에 따른 감정 변화를 동적으로 반영하고, 불필요한 잡음을 억제하면서 핵심 정서 단서를 강조함으로써 기존 모델 대비 높은 예측 성능을 달성했다. 이 결과는 실제 환경에서도 안정적이고 해석 가능한 감정 인식이 가능함을 보여주며, 향후 인간-AI 상호작용, 감정 기반 콘텐츠 분석, 정서 지능형 에이전트 개발 등 다양한 응용 분야로 확장될 수 있을 것으로 기대된다. ▲ 시각 및 음성 정보를 융합한 Time-aware Gated Fusion(TAGF) 기반 정서 예측 프레임워크 개략도 이번 성과는 박은일 교수 연구팀이 꾸준히 축적해 온 사용자 이해 기반의 범용 인공지능 기술 연구 역량을 다시 한번 세계적으로 인정받은 사례로 평가된다. 연구팀은 향후 감정 이해를 넘어, 인간의 인지적 맥락과 의도를 정밀하게 해석하는 차세대 정서 지능형 인공지능 기술 개발에 주력할 계획이다. 또한 이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 인간지향적 차세대 도전형 AI 기술 개발과 딥페이크 연구센터 사업의 일환으로 수행되었으며, ICCV 2025에서 공식 발표되었다. ※ 논문명: Dynamic Temporal Gating Networks for Cross-Modal Valence-Arousal Estimation ※ 저자명: 이유빈(제1저자), 이상은, 박채원, 차준엽(공동저자), 박은일(교신저자) ※ 학술대회: ICCV 2025 (International Conference on Computer Vision)
-
- 작성일 2025-11-03
- 조회수 599
-
- [연구] LAMDA (지도교수: 오하영 교수) WSDM 2025 논문 1편 게재 승인
- LAMDA연구실(지도교수: 오하영)의 논문이 데이터 마이닝 분야의Top-tier 학술대회인 WSDM 2026 (The 19th ACM International Conference on Web Search and Data Mining) Main Conference에 게재 승인(Accept) 되었습니다. 왼쪽부터 LAMDA Lab 이진권, 김기성, 양혜지 ‘인공지능융합학과’ 학생(지도교수 : 오하영), ‘인터렉션사이언스학과’ 차동영 본 연구는 사회적으로 복잡하고 갈등을 유발하는 인터넷 밈을 정확히 해석하기 위해, 이미지·캡션·외부 문서를 통합하는 프레임워크 MerFT(Meme Exploration via Multimodal Retrieval-Augmented Fine-tuning)를 제안합니다. 함께 공개한 RoMQD데이터셋은KnowYourMeme 오라클 문서와 의미는 비슷하지만 맥락은 어긋나는‘디스트랙터’ 문서를 체계적으로 포함해, 현실적인 노이즈 환경에서의 해석 능력을 평가합니다. MerFT는 인용-인식Chain-of-Thought와 문서 정렬 기반 답변 손실을 결합하고, 오해를 부르는 외부 정보 의존을 명시적으로 패널티하여RAG의 취약점을 보완했습니다. 8개 사회갈등 영역, 6가지 인지 역량(문화 맥락, 풍자/아이러니, 이미지-텍스트 통합 등)에서 평가한 결과, Qwen2.5-VL 기준선 대비F1 +8.1을 달성했으며, 특히 풍자/아이러니와 이미지-텍스트 통합 과제에서 큰 개선을 보였습니다. 입력을 이미지+캡션+문서로 모두 활용할 때 가장 안정적이었고, 클러스터링 기반의 강한 디스트랙터 설계가 견고성을 한층 높였습니다. 또한 최신 재순위 기법과 결합한 하이브리드 접근이 계산 비용은 늘지만 최고 성능을 기록했습니다. 본 연구는 밈 기반 사회문화 갈등 분석을 위한 검색 강건성 다중모달 추론의 실현 가능성을 입증하고, 신뢰 가능한 콘텐츠 분석 시스템 구축에 실질적 지침을 제시합니다.
-
- 작성일 2025-10-24
- 조회수 1581
-
- [일반] 삼성학술정보관 3차원 공간데이터 국제표준화기구 MPEG의 공식 평가 영상으로 채택 달성
- 삼성학술정보관 3차원 공간데이터 국제표준화기구 MPEG의 공식 평가 영상으로 채택 달성 2025년 10월 11일, 성균관대학교 소프트웨어융합대학 인공지능융합학과 류은석 교수 연구실(MCSLab) 연구팀이 개발한 대규모 3D 영상 데이터셋 “Library”가 국제표준화기구 ISO/IEC JTC 1/SC 29/WG 4 (MPEG Video Coding)의 Gaussian Splat Coding(GSC) 필수 실험 평가용 공식 영상으로 채택되었다. 이번 성과는 한국전자통신연구원(ETRI)과 공동으로 추진된 국제 기고 결과로, 구래건, 김영규, 안승혁, 양이삭 연구원이 저자로 참여하였다. Library Sequence는 본교 내 삼성학술정보관과 주변 공간을 드론을 활용하여 실감형 3D로 기록한 대규모 데이터셋이다. 연구팀은 캠퍼스 공간을 실제와 동일한 비율로 항공 촬영하고, 이를 3차원 형태로 정밀 복원함으로써 현실 세계를 가상 공간으로 확장한 새로운 형태의 3D 디지털 자산을 구축하였다. 해당 데이터는 가우시안 스플래팅(Gaussian Splatting) 기술을 활용해 재구성되었으며, 이는 최근 전 세계에서 주목받고 있는 차세대 3D 실감 영상 기술이다. 국제표준화기구 MPEG은 현재 3D Gaussian Splatting 기반 영상 압축 기술(GSC)의 표준화를 추진 중이며, Library Sequence는 이 과정에서 성능 평가 검증을 위한 공식 실험 데이터(Exploration Experiment, JEE 6.1)로 지정되었다. 이는 향후 전 세계의 연구기관과 기업이 제안하는 모든 GSC 알고리즘이 Library Sequence를 기준으로 비교 및 검증된다는 것을 의미한다. 즉, 성균관대학교에서 제작한 데이터가 국제표준의 품질을 결정하는 ‘공통 시험 영상’으로 활용되는 사례로 평가된다. 또한 이번 성과는 한국전자통신연구원(ETRI) 와의 공동 연구를 통해 이루어졌으며, 국내 학계와 연구기관이 협력하여 국제표준의 중심에서 기술을 선도하고 있음을 보여준다. 이번 채택으로 인해 캠퍼스의 대표 공간이 전 세계 연구자들과 함께 실험하고 인용하는 국제 데이터 레퍼런스로 자리를 잡을 수 있게 되었다. 실감미디어 기술을 통해 본교의 공간이 글로벌 연구 무대에서 디지털 문화 자산으로 재탄생한 상징적인 사례가 되었고, 이에 연구팀은 국제표준화기구와 협력을 지속하며, Library Sequence를 기반으로 한 다양한 3차원 공간 데이터 압축 및 전송 실험과 기술 검증을 이어 나갈 예정이다. ※ 지도교수: 류은석 (성균관대학교 소프트웨어융합대학 인공지능융합학과) ※ 구래건, 김영규, 안승혁, 양이삭, 류은석 (성균관대학교) / 이하현, 방건 (ETRI) ※ 문의: esryu@skku.edu | http://mcsl.skku.edu/
-
- 작성일 2025-10-14
- 조회수 450
-
- [연구] DSSAL (지도교수: 김장현 교수) EMNLP 2025 논문 1편 게재 승인
- DSSAL연구실 (지도교수: 김장현)의 논문이 자연어 처리 분야의 Top-tier 학술대회인 EMNLP 2025 (The 2025 Conference on Empirical Methods in Natural Language Processing) Main Conference에 게재 승인(Accept) 되었습니다. 논문에는 선승종(인공지능융합학과 박사과정, 공동 제1저자) 백서연(실감미디어공학과 석사과정, 공동 제1저자), 그리고 김장현(교신저자) 지도교수가 참여하였습니다. 본 연구는 대규모 언어모델(Large Language Models, LLMs)의 성격(Personality)을 조절하기 위한 새로운 방법을 제안합니다. 기존 접근법에 한계가 있던 연속적·다차원적 성격 표현을 모델 병합(Model Merging) 기반 성격 벡터(Personality Vector) 기법을 통해 구현하였습니다. 이를 통해 추가 학습 없이 성격을 부여할 수 있을 뿐 아니라, 성격 강도의 연속적·확장적(scalable) 조절과 다중 성격 특성의 조합을 가능하게 했습니다. 또한, 역할 수행형 에이전트(Role-Playing Character Models)·한국어 모델(Cross-Lingual Transfer to Korean)·비전-언어 모델(Cross-Modal Transfer to VLM) 등 다양한 영역으로의 전이 가능성까지 입증했습니다. 논문링크: https://arxiv.org/abs/2509.19727
-
- 작성일 2025-09-26
- 조회수 931
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 다음 페이지로 이동하기
- 마지막 페이지로 이동하기
발전기금


