-
- [연구] AIM LAB(지도교수 : 홍성은 교수) , ICML 2026 논문 게재 승인 NEW
- AIM LAB(지도교수 : 홍성은 교수) , ICML 2026 논문 게재 승인 인공지능 및 미디어 연구실(AI & Media Lab, AIM Lab, 지도교수: 홍성은 교수)의 논문이 머신러닝 분야 top-tier 국제학술대회인 ICML 2026 (International Conference on Machine Learning)에 게재 승인되었습니다. 제목: SyMerge: From Non-Interference to Synergistic Merging via Single-Layer Adaptation 저자: 정애천, 이승환, 한동윤, 홍성은 학술대회: International Conference on Machine Learning (ICML 2026), July 2026 키워드: Model Merging, Multi-task Learning, Test Time Adaptation Model merging은 각 태스크별로 독립적으로 학습된 모델을 파라미터 수준에서 결합함으로써, 대규모 multi-task learning에 필요한 높은 학습 비용을 줄일 수 있는 효율적인 접근법입니다. 기존 방법들은 model merging 적용 시 태스크 간 성능 저하를 막는 non-interference에 초점을 맞추어 왔지만, 본 논문은 태스크 간 간섭을 줄이는 것에서 나아가, 서로 다른 태스크 간의 시너지 효과를 유도하는 방향으로 model merging을 수행합니다. 핵심 기여 ■ Synergistic model merging 관점 제시 태스크 간 간섭을 줄이는 것을 넘어, 서로 다른 태스크가 상호 보완적으로 성능을 향상시킬 수 있는 model merging 방향을 제안 ■ Single-layer adaptation 기반 경량화 방법 제안 전체 모델을 재학습하지 않고, 단 하나의 task-specific layer와 merging coefficient만을 적응시켜 효율적으로 merged model의 성능을 향상시킴 ■ 다양한 태스크에서의 효과 검증 Vision, dense prediction, NLP benchmark에서 제안 방법의 효과를 검증하고, 적응된 layer가 다른 merging 방법에도 활용될 수 있음을 확인 그림 (a) 여러 task-specific 모델을 하나의 merged encoder로 결합한 뒤, classifier를 재학습하여 태스크 간 representation 정렬을 강화합니다. 이후 cross-task encoder 평가를 통해 서로 다른 태스크 간 호환성을 측정합니다. 그림 (b) 단 하나의 layer와 merging coefficient를 함께 적응시키는 방식이 가장 높은 성능을 보여, SyMerge의 경량성과 효과성을 확인할 수 있습니다.
-
- 작성일 2026-05-11
- 조회수 156
-
- [교수동정] 소프트웨어융합대학 한진영 교수, 인공지능 안전성·책임성 연구로 국무총리표창 수상
- 소프트웨어융합대학 한진영 교수, 인공지능 안전성·책임성 연구로 국무총리표창 수상 소프트웨어융합대학 한진영 교수가 4월 21일 개최된 ‘2026년 과학·정보통신의 날’ 기념식에서 국무총리표창을 수상했다. 과학기술정보통신부와 방송통신위원회가 공동 주최하는 ‘과학·정보통신의 날 정부포상’은 정보통신기술(ICT) 발전과 국가 혁신에 기여한 개인 및 단체를 대상으로 수여되는 정부 최고 수준의 권위 있는 포상으로, 연구 성과뿐 아니라 산업·정책적 파급효과와 국가 기여도를 종합적으로 평가한다는 점에서 의미가 크다. 한 교수는 인공지능 안전성과 책임성(Responsible AI) 분야를 선도하는 연구자로, 의료 등 고위험 환경에서 신뢰 가능한 인공지능 기술 구현을 위한 연구를 지속해왔다. 특히 멀티모달 데이터 기반의 인공지능 모델링과 인간 중심 설계를 결합하여, 실제 임상 및 사회 환경에서 발생할 수 있는 오류와 편향 문제를 체계적으로 분석하고 이를 완화하기 위한 방법론을 제시해왔다. 또한 국제 공동연구를 통해 인공지능의 사회적 영향과 윤리적 문제를 심층적으로 탐구하며, 기술 개발을 넘어 안전하고 책임 있는 인공지능 활용을 위한 학문적 기반을 확장해왔다. 이러한 연구는 의료, 정신건강, 사회적 의사결정 등 고위험 영역에서 인공지능의 신뢰성을 확보하기 위한 핵심 기술로 평가받고 있다. 한 교수는 연구 성과를 실제 사회적 활용으로 연결하는 데에도 주력해왔다. 공공 및 산업 분야와의 협력을 통해 인공지능 기술의 적용 가능성을 검증하고, 고위험 환경에서의 안전한 활용을 위한 방향성을 제시하는 등 학문적 성과를 국가 경쟁력 강화와 정보통신 생태계 발전으로 확장해왔다. 이번 국무총리표창은 인공지능 안전성 및 책임성 분야에서의 선도적 연구와 국제 협력, 그리고 고위험 영역에서 신뢰 가능한 인공지능 기술의 개발과 확산을 통해 국가 및 사회에 기여한 공로를 종합적으로 인정받은 결과이다. 한 교수는 “이번 수상은 함께 연구해온 동료 연구자들과 학생들, 그리고 학교의 지원 덕분이라 생각한다”며 “앞으로도 인공지능의 신뢰성과 사회적 책임을 고려한 연구를 통해 안전한 기술 발전에 기여하겠다”고 밝혔다.
-
- 작성일 2026-04-24
- 조회수 245
-
- [연구] DSSAL (지도교수: 김장현 교수) ACL 2026 main conference 논문 1편 게재 승인
- DSSAL (지도교수: 김장현 교수) ACL 2026 main conference 논문 1편 게재 승인 제목: Jailbreaking Multimodal Large Language Models using Multi-Clip Video 저자: 강충원*, 선승종*, 전현민, 김장현 (*공동 제1저자) (좌측부터 강충원. 선승종. 전형민. 김장현 교수) 내용: 본 연구는 MLLM의 영상 입력 기반 jailbreak 취약성을 분석하기 위해 다양한 맥락의 다중 클립으로 구성된 MCV SafetyBench를 구축했습니다. 실험 결과, 클립 수와 맥락 다양성이 증가할수록 공격 성공률이 높아지는 현상이 나타났습니다. 또한, 영상 데이터는 이미지 데이터보다 더 취약한 경향을 보였으며, 이를 바탕으로 이미지 모달리티의 상대적 강건성을 활용한 방어 전략을 제안합니다.
-
- 작성일 2026-04-13
- 조회수 499
-
- [연구] AIM LAB(지도교수 : 홍성은 교수) , CVPR 2026 논문 1편 게재 승인
- AIM LAB(지도교수 : 홍성은 교수) , CVPR 2026 논문 1편 게재 승인 인공지능 및 미디어 연구실(AI & Media Lab, AIM Lab)의 논문이 컴퓨터 비전 및 패턴 인식 분야 top-tier 학술대회인 CVPR 2026 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026”)에 게재 승인되었습니다. 본 논문은 올해 6월 미국 덴버에서 발표될 예정입니다. 제목: ZOO-Prune: Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models 저자: 김영은*, Youjia Zhang*, Huiling Liu, 정애천, 이선우, 홍성은 (*공동 1저자) 본 논문은 Vision-Language Model(VLM)의 높은 계산 비용 문제를 해결하기 위해, 추가 학습 없이 토큰을 효율적으로 제거하는 training-free token pruning 문제를 다룹니다. 최근 VLM은 이미지와 텍스트를 동시에 처리하며 높은 성능을 보이지만, 입력 토큰 수가 많아질수록 연산량이 급격히 증가하는 한계가 있습니다. 기존 토큰 pruning 방식들은 attention score나 heuristic 기준에 의존하거나, 별도의 재학습이 필요하다는 문제가 있었습니다. ZOO-Prune은 이러한 한계를 극복하기 위해, zeroth-order gradient estimation 기반의 새로운 pruning 프레임워크를 제안합니다. 핵심 기여 - Zeroth-Order Token Importance Estimation: backpropagation 없이도 각 토큰이 모델 출력에 미치는 영향을 추정하기 위해, 입력 perturbation을 활용한 zeroth-order gradient estimation을 적용합니다. - Training-Free Plug-and-Play Pruning: 추가 학습이나 파인튜닝 없이 기존 VLM에 그대로 적용 가능하며, 다양한 구조의 모델에 일반적으로 적용 가능한 높은 범용성을 제공합니다. - Adaptive and Stable Token Selection: 단순 attention 기반 방법 대비 더 안정적으로 중요한 토큰을 선택하며, aggressive pruning 환경에서도 성능 저하를 최소화합니다. 그림. (a) Attention-based 방법은 attention score를 기반으로 토큰을 선택합니다. 이 과정에서 중요하지 않은 토큰이 포함되거나, 예측에 필요한 핵심 정보를 놓치는 문제가 발생할 수 있습니다. (b) Diversity-based 방법은 서로 다른 토큰을 선택하여 중복을 줄이고자 합니다. 그러나 선택된 토큰이 실제 모델 출력에 중요한 정보와 일치하지 않을 가능성이 있습니다. (c) 제안하는 ZOO-Prune은 zeroth-order gradient를 활용하여 각 토큰이 출력에 미치는 영향을 직접 추정합니다. 이를 바탕으로 정보성이 높고 중복이 적은 토큰을 선택하며, 노이즈에 강하고 안정적인 토큰 선택이 가능합니다.
-
- 작성일 2026-03-23
- 조회수 651
-
- [연구] dxlab (박은일 교수 연구실), CHI `26 (1), MMsys `26 (1), WWW `26 (2)에 총 4편 게재 승인
- dxlab (박은일 교수 연구실), CHI `26 (1), MMsys `26 (1), WWW `26 (2)에 총 4편 게재 승인 dxlab (지도교수: 박은일, https://dsl.skku.edu)의 논문이 HCI 분야 최우수 학술대회인 CHI 2026에 1편, 인공지능/멀티미디어 분야 최우수 학술대회인 MMsys 2026에 1편, WWW 2026에 2편 게재 승인되었습니다. 해당 논문은 26년 4월에서 6월에 걸쳐, 바르셀로나와 홍콩, 두바이에서 발표될 예정입니다. 1) (CHI 2026) “Thriving, Not Just Growing: Structural Sustainability as the Key to Quality in Online Wellness Communities” 논문은 박신유 석사과정(인공지능융합학과), 차준엽 박사과정(인공지능융합학과), S. Shyam Sundar 교수가 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 온라인 웰니스 커뮤니티의 성공을 사용자 수나 활동량과 같은 양적 성장 지표로만 평가해 온 기존 접근의 한계를 지적합니다. 이를 보완하기 위해 연구팀은 커뮤니티의 장기적 품질을 결정하는 메커니즘으로 '구조적 지속가능성(Structural Sustainability)' 프레임워크를 제안했습니다. 해당 프레임워크는 지속적으로 참여하는 안정적인 핵심 사용자 구조(Stable User Structure), 단순한 정보 전달을 넘어선 질적으로 유의미한 상호작용(Meaningful Interaction), 조율된 커뮤니티 정체성(Coordinated Community Identity)이라는 세 축으로 구성됩니다. 연구팀은 2023-2024년 동안 56개의 Reddit 웰니스 커뮤니티에서 수집한 1,700만 건 이상의 게시글 데이터를 분석해 사용자(User), 콘텐츠(Content), 정체성(Identity) 차원에서 커뮤니티 품질을 정량적으로 측정했습니다. 분석 결과, 우수한 커뮤니티는 단순한 대화의 양이 아니라 충성도 높은 핵심 사용자와 상호 보완적인 깊은 대화에 의해 유지된다는 사실을 확인했습니다. 특히, 뚜렷한 커뮤니티 정체성은 내부 결속과 대화의 질을 높이는 핵심 요인으로 작용하는 동시에, 사용자 유입을 제한할 수 있는 성장-정체성 간 상충 관계 (Trade-off)를 형성하는 것으로 나타났습니다. 본 연구는 '성장=성공'이라는 기존 패러다임을 재고하고, 커뮤니티가 단순한 외형적 확장을 넘어 사용자들의 장기적인 웰빙과 신뢰를 구축하는 구조적 관점을 제시합니다. 이는 플랫폼 설계자와 운영자들이 단기적 활성 지표에 의존하기보다, 유의미한 상호작용과 안정적인 구조 유지에 초점을 맞춰야 함을 시사하며, 실질적인 커뮤니티 운영 가이드라인을 제공한다는 점에서 중요한 가치를 지닙니다. 2) (MMsys 2026) “MARs: Multi-Scale Convolution-Attention Residual Fusion for Video Summarization” 논문은 송준석 석박사통합과정(실감미디어공학과)이 제1저자로 참여하였으며, 이주엽 박사과정(인공지능융합학과)과 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 비디오 요약에서 영상의 전체 흐름을 이해하는 능력과 프레임 간 세밀한 변화 포착을 동시에 수행하기 어렵다는 기존 모델의 한계를 해결하기 위해 MARs (Multi-scale Convolution-Attention Residual Fusion) 구조를 제안합니다. Multi-Head Self-Attention을 통해 영상 전체 프레임 간의 장기적인 관계와 스토리 흐름을 학습하고, Multi-Scale Convolution Module을 통해 인접 프레임 사이의 세밀한 변화와 동작 패턴을 함께 포착합니다. 실험 결과, 제안 방법은 SumMe와 TVSum 데이터셋에서 기존 방법보다 높은 성능을 기록하며, 추가적인 오디오나 텍스트 없이 영상 정보만으로도 우수한 요약 성능을 달성했습니다.이 연구는 전역 맥락과 지역적 변화 정보를 동시에 학습하는 구조를 통해 실제 영상 서비스 환경에서 활용 가능한 효율적인 비디오 요약 방법을 제시합니다. 3) (WWW 2026) “AIMER: Affective Intention-guided Multimodal Emotion Reasoner for Visual Emotion Analysis in Social Media” 논문은 이유빈 박사과정 (인공지능융합학과), 박신유 석사과정 (인공지능융합학과), 차준엽 박사과정 (인공지능융합학과), 박지원 석사과정 (실감미디어공학과)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 기존 Vision-Language Model(VLM) 기반 감정 인식이 이미지의 표면적인 시각 단서에 주로 의존하여 감정의 근본적인 의미나 의도를 충분히 반영하지 못하는 문제를 해결하기 위해 AIMER (Affective Intention-guided Multimodal Emotion Reasoner)를 제안합니다. 감정은 단순한 시각 표현이 아니라 인간의 동기와 의도에 의해 형성되는 인지적 과정이라는 관점에서, AIMER는 감정의 외적 표현과 내적 의도를 함께 고려하는 감정 이해 구조를 설계합니다. AIMER는 GPT-5.0을 활용하여 감정의 카테고리, 의도, 추론 정보를 포함한 Intention-aware Emotion Instruction을 생성하고, 이를 이미지에서 추출된 시각 특징과 결합하여 감정을 해석합니다. 생성된 감정 지시문과 시각 임베딩은 Q-Former를 통해 정렬되며, 이를 통해 모델이 단순한 감정 표현 인식을 넘어 감정의 의미와 맥락을 함께 이해하도록 합니다. 또한 Visual Projection과 LLM 사이에 Lightweight Emotion MLP를 추가하여 파라미터 효율적인 방식으로 감정 표현을 보정하고 추론 성능을 향상시킵니다. 이를 통해 AIMER는 다양한 감정 데이터셋에서 기존 vision 기반 및 multimodal 모델보다 우수한 성능을 보이며, 감정의 의도와 맥락을 함께 고려하는 감정 이해 모델로 활용될 수 있음을 보여줍니다. 4) (WWW 2026) “ReMi-ReMath: A Reverse-Mutual Reasoning Framework for Enhancing Mathematical Thinking in Small Language Models” 논문은 김대규 박사과정(인공지능융합학과), 문상규 박사과정(인공지능융합학과)이 참여하였으며, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 소형 언어 모델이 복잡한 수학적 추론 과정에서 논리적 일관성을 유지하지 못하고, 단순히 정답만 맞히는 현상을 해결하기 위해 ReMi-ReMath 프레임워크를 제안합니다. 기존의 상호 추론 방식이 정답의 일치 여부에만 집중했던 것과 달리, ReMi-ReMath는 추론 과정이 문제의 전제 조건을 충족하는지 검증하는 '논리적 타당성'에 초점을 맞추었습니다. 해당 모델은 Forward Generation - Reverse Reconstruction - Mutual Verification으로 구성되어, 먼저 모델이 문제에 대한 여러 추론 경로를 생성하면, 상호 추론 판별기가 해당 추론 과정과 도출된 정답을 바탕으로 역순으로 문제를 재구성합니다. 그 후, 재구성된 문제와 원래의 문제를 비교하여 수치적 일관성과 의미적 일관성을 측정하는 삼중 일관성을 계산하였습니다. 이를 통해 별도의 미세 조정없이 논리적으로 결함이 있는 추론 경로를 효과적으로 필터링합니다.실험 결과, ReMi-ReMath는 3.8B 규모의 소형 모델에서 기존 rStar 대비 3~5%p의 성능 향상을 기록하며 GSM8K, MATH 등 주요 벤치마크에서 우수한 정확도를 보였습니다. 특히 복잡한 논리가 필요한 고난도 문제에서 두드러진 성과를 거두어, SLM이 단순히 답을 맞히는 수준을 넘어 논리를 이해하고 검증하는 모델로 진화할 수 있는 가능성을 제시하였습니다.
-
- 작성일 2026-03-16
- 조회수 795
-
- [연구] LAMDA연구실(지도교수: 오하영) PAKDD 2026(3편), WWW 2026(1편), WOWMOM 2026(1편), ICASSP 2026(1편) 총 논문 6편 채택
- LAMDA Lab(오하영 교수)에서 탑티어 학회 4곳에서 총 논문 6편이 채택되었습니다. PAKDD 2026(3편), WWW 2026(1편), WOWMOM 2026(1편), ICASSP 2026(1편) - PAKDD(Pacific-Asia Conference on Knowledge Discovery and Data Mining) - WWW(The Web Conference) - WOWMOM(IEEE International Symposium on a World of Wireless, Mobile and Multimedia Networks) - ICASSP(IEEE International Conference on Acoustics, Speech and Signal Processing) 1) Explainable Cognitive Task Classification in Pediatric EEG Using CPCC-Based Functional Connectivity Images / PAKDD(Full paper) 왼쪽부터 LAMDA Lab 인공지능융합학과 이진권, 홍서현 학생(지도교수 : 오하영) 본 연구는 소아 및 청소년의 뇌파(EEG) 데이터를 활용하여 다양한 인지 과제를 자동으로 분류하고 그 근거를 해석할 수 있는 설명 가능한 딥러닝 기반 분석 프레임워크를 제안한다. 기존 EEG 기반 인지 상태 분류 연구는 개별 채널의 시계열 특징이나 블랙박스 형태의 딥러닝 모델에 의존하는 경우가 많아 뇌 영역 간 상호작용을 충분히 반영하지 못하고 결과 해석이 어렵다는 한계가 있었다. 이를 해결하기 위해 본 연구에서는 채널 간 기능적 연결성을 정량화하는 Complex Pearson Correlation Coefficient(CPCC)를 이용해 EEG 신호로부터 연결성 행렬을 계산하고 이를 이미지 형태로 변환하여 CNN 모델에 입력하는 방식을 제안하였다. 또한 absCPCC와 imCPCC 두 가지 연결성 지표를 결합하여 뇌 영역 간 동기화 패턴을 보다 효과적으로 반영하도록 설계하고, ImageNet 사전학습 ResNet-18 모델을 활용해 인지 과제를 분류하였다. Healthy Brain Network(HBN) 데이터셋의 598명 참가자와 3,200개의 EEG 세션을 이용한 실험 결과, 제안된 방법은 기존 raw EEG 기반 모델 대비 크게 향상된 67.8%의 정확도와 59.5%의 macro F1 성능을 달성하였다. 또한 Grad-CAM 기반 설명 기법을 통해 후두-두정 알파 네트워크, 전두-측두 세타 연결성, 전두-두정 베타 연결성 등 과제별로 중요한 뇌 연결 패턴을 시각적으로 해석할 수 있음을 확인하였다. 이러한 결과는 기능적 연결성 기반 EEG 표현과 설명 가능한 딥러닝을 결합한 접근이 소아 인지 상태 분석과 디지털 치료제 및 뇌-컴퓨터 인터페이스 분야에서 유용하게 활용될 수 있음을 보여준다. 2) Table-Aware Group Relative Policy Optimization: Reward Design for Large Vision–Language / PAKDD(Full paper) 왼쪽부터 LAMDA Lab 인공지능융합학과 이지윤, 실감미디어공학과 박황선 학생(지도교수 : 오하영) 본 연구는 표 기반 시각 질의응답(Table VQA) 문제에서 대형 비전-언어 모델(LVLM)의 구조적 추론 능력을 향상시키기 위한 강화학습 프레임워크인 Table-Aware Group Relative Policy Optimization(TAG)을 제안한다. 기존 방법들은 최종 정답 정확도 중심의 보상이나 Chain-of-Thought(CoT) 지도에 의존하여 표의 행, 열 구조와 셀 간 관계를 충분히 반영하지 못하는 한계가 있었다. 이를 해결하기 위해 본 연구에서는 기존 GRPO 강화학습 방식에 Table Recognition Reward를 추가하여 모델이 행 헤더, 열 헤더, 셀 값 등 표 구조 정보를 명시적으로 활용하도록 유도하였다. 보상 함수는 정답 정확도(Accuracy), 출력 형식(Format), 표 구조 인식(Table Recognition)의 세 가지 요소로 구성되며, 이를 통해 모델의 중간 추론 과정에서 구조적 정보를 활용하도록 설계하였다. 실험은 TableVQA, TableBench, MMSci, TABMWP, ComTQA, Wild-Table, ChartQA Pro 등 7개의 벤치마크 데이터셋에서 수행되었으며, Qwen3-VL-4B 기반 모델에 TAG를 적용한 결과 기존 GRPO 및 여러 공개 모델 대비 성능 향상을 보였다. 특히 4B 규모 모델임에도 일부 32B 모델 및 GPT-4.1과 유사하거나 더 높은 성능을 달성하여 구조 인식 기반 보상 설계의 효과를 입증하였다. 또한 Table Recognition Reward를 제거한 경우 성능이 감소하는 것으로 나타나, 표 구조 키워드를 활용한 보상이 모델의 구조적 추론 능력을 향상시키는 핵심 요소임을 확인하였다. 이러한 결과는 표 및 차트 기반 멀티모달 추론에서 구조 인식 보상 설계가 모델 성능을 크게 개선할 수 있음을 보여준다. 3) BatterySurAD : A Dataset for Anomaly Detection on Cylindrical Battery Surfaces with Spatial Zone Annotations / PAKDD(Full paper) LAMDA Lab 인공지능융합학과 박지원 학생 (지도교수 : 오하영) 본 연구는 리튬 이온 배터리 제조 공정에서 발생하는 미세 결함을 정밀하게 탐지하기 위해, 반사 특성을 가진 파우치형 배터리 표면에 특화된 대규모 데이터셋인 BatterySurAD를 제안한다. [Fig. Dataset 구축 과정] [Fig. 결함 및 뷰별, 모델별 통계 분석 결과] 이 시스템은 배터리 표면을 15개의 공간 구역(3×5 그리드)으로 세분화하여 위치별 결함 분포를 분석하며, 전문가의 검수를 거친 4가지 주요 결함(Folding, Scratching, Denting, Contamination)에 대한 이중 뷰(전면/후면) 데이터를 제공한다. 총 8,559장의 원본 이미지를 기반으로 회전, 밝기, 노이즈 등 실제 제조 현장의 물리적 환경을 반영한 10배 증강(Augmentation) 기법을 적용하여 총 129,405장의 고해상도 이미지를 구축하였으며 이는 차후 공개될 예정이다. 720회 이상의 독립적인 통계 테스트를 통해 분석한 결과, 기존 범용 데이터셋과는 58.1%의 유의미한 분포 차이를 보여 배터리 표면 탐지의 높은 난이도를 입증하였으며 특히 반사 표면에서 발생하는 재구성 실패(Reconstruction Failure)와 경계 구역에서의 검출 성능 저하(Peripheral Zone Collapse) 등 기존 AI 모델들의 체계적 결함을 규명하였으며, 이를 보완하기 위해 DINO 및 CLIP 기반의 경량화된 적응형 베이스라인을 함께 제시하였다. 이번 연구는 안전이 직결된 배터리 산업에서 위치 기반의 정밀한 이상 탐지를 가능하게 하는 핵심 자원을 제공하며, 향후 공간 인지형 AD(Anomaly Detection) 아키텍처와 반사 표면 강건성 연구의 새로운 이정표가 될 것으로 기대한다. 4) MACA: A Multi-Agent Cognitive Adaptation Framework for Human–Agent Collaborative Decision Making / WWW(Short paper) LAMDA Lab 인공지능융합학과 성연준 학생(지도교수 : 오하영) 이 연구는 사용자의 실시간 인지 상태에 적응하는 웹 기반 의사결정 지원 프레임워크(MACA)를 제안한다. 시스템은 웹캠을 통해 얼굴 표정 분석(ResEmoteNet)과 시선 안정성 추적(MediaPipe)을 수행하여 사용자의 감정 상태와 주의 집중 정도를 추정하고, 이를 결합하여 인지 부하(cognitive load) 지표를 계산한다. 이 지표는 Planner–Critic–Executor 구조의 멀티 에이전트와 계층적 Monte Carlo Tree Search(MCTS) 기반 추론 과정에 반영되어, 에이전트 간 협업 방식, 탐색 깊이, 그리고 사용자에게 제공되는 피드백의 강도와 속도를 동적으로 조절하는 데 사용된다. 시스템은 Sense–Plan–Critique–Execute 루프를 통해 사용자 상태를 지속적으로 반영하며 의사결정 과정을 지원한다. 연구에서는 복잡한 제약 조건 하에서 최적의 선택을 수행해야 하는 의사결정 과제 대상(task)을 사용하여 30명의 참가자가 참여한 2×2 within-subject 실험을 수행하였다. 실험 결과, 사용자 상태에 적응하는 Multi-Adaptive 조건이 다른 조건 대비 의사결정 품질을 약 10.7% 향상시키는 동시에 정신적 노력은 약 14.1% 감소시키는 것으로 나타났으며, 이는 멀티모달 사용자 상태 인식과 적응형 멀티에이전트 추론이 사용자 인지 부담을 증가시키지 않으면서 의사결정 효율을 향상시킬 수 있음을 보여준다. 5) Fine-Tuned LLMs for Flow-Based Intrusion Detection in Smart Agriculture via Semantic Augmentation / WOWMOM(Full paper) 왼쪽부터 LAMDA Lab 인공지능융합학과 이진권, 성연준 학생(지도교수 : 오하영) 이 논문은 스마트 농업 IoT 네트워크에서 발생하는 침입을 탐지하기 위해 flow 기반 네트워크 데이터를 LLM으로 분석하는 intrusion detection 시스템을 제안한다. 기존 IDS는 심한 클래스 불균형과 중복된 트래픽 데이터 때문에 희귀 공격 탐지 성능이 낮다는 문제가 있는데, 이를 해결하기 위해 연구진은 네트워크 flow의 수치형 특징을 텍스트 프롬프트로 변환하여 LLM(Qwen2.5-1.5B)을 LoRA로 파인튜닝하고, 데이터 다양성을 높이기 위해 reasoning paraphrasing(설명 문장 다양화)과 feature transformation(수치 feature 변형)을 결합한 semantic augmentation 기법을 적용했다. 그 결과 기존 Random Forest 기반 IDS의 76.4% 정확도를 95.1%까지 향상시켰으며 특히 ARP spoofing 같은 희귀 공격 탐지 성능이 크게 개선되었고, 모델은 단순 분류뿐 아니라 탐지 이유를 자연어로 설명하는 explainable IDS를 제공한다. 6) EEG-to-Text as Restoration: A Discrete Diffusion Framework for Robust BCI / ICASSP(Full paper) LAMDA Lab 김효빈 학생(지도교수 : 오하영) 본 연구는 뇌파(EEG) 신호의 불안정성과 기존 자기회귀(Autoregressive, AR) 모델의 오류 누적 문제를 해결하기 위해, 직접 번역에서 '복원(restoration)' 패러다임으로 전환한 새로운 EEG-to-Text 프레임워크인 DELTA를 제안한다. 기존 AR 모델은 노이즈가 심한 EEG 환경에서 초기 오류가 연쇄적으로 증폭되어 전체 출력 품질을 심각하게 저하시키는 치명적인 한계가 있었다. 이를 극복하기 위해 DELTA는 먼저 RVQ(Residual Vector Quantization) 기반 토크나이저를 활용해 연속적이고 불안정한 EEG 파형을 안정적인 이산형 표현(discrete representation)으로 변환하여 노이즈를 필터링한다. 이후 LLaDA 기반의 비자기회귀(non-autoregressive) 확산 모델(Diffusion Model)을 도입하여, 텍스트를 순차적으로 생성하는 대신 전체 문장 구조를 점진적으로 디노이징(denoising)함으로써 연쇄적인 오류 전파를 근본적으로 차단한다. ZuCo 데이터셋(1.0 및 2.0)을 활용한 실험 결과, 제안된 모델은 단어 수준 특징에서 기존 최고 성능 모델(SOTA)들을 5점 이상 크게 능가하며 BLEU-1 21.9, ROUGE-1 F1 17.2라는 압도적인 성능을 달성했다. 또한, 절제 연구(Ablation study)를 통해 RVQ 토크나이저의 필수적인 역할과 확산 단계(최적 T=30)가 디코딩 성능에 미치는 결정적 영향을 입증하였다. 이러한 결과는 뇌파를 이산화하고 확산 모델을 통해 텍스트를 병렬적으로 복원하는 접근법이 뇌 신호 해독에 있어 훨씬 더 강력하고 신뢰할 수 있음을 입증하며, 향후 전체 파라미터 미세조정 및 더 크고 다양한 데이터셋으로의 확장 연구 방향을 제시한다.
-
- 작성일 2026-03-11
- 조회수 1026
-
- [연구] LAMDA연구실(지도교수: 오하영) 2026 IEEE Conference on Virtual Reality and 3D User Interfaces (IEEE VR 2026) 1편 게재 승인(Accept)
- LAMDA연구실(지도교수: 오하영)의 논문이 가상현실·시각화 분야의 국제 학술대회인 2026 IEEE Conference on Virtual Reality and 3D User Interfaces (IEEE VR 2026)에 1편 게재 승인(Accept) 되었습니다. When Effort Becomes Visible: Facet-Level Shifts in Evaluation and Workload during VR Teamwork LAMDA Lab 실감미디어공학과 이현민 학생(지도교수: 오하영) 동료의 작업량과 속도를 드러내는 것은 VR 협업의 양상을 바꿀 수 있지만, 기존 연구는 종종 이러한 사회적 단서를 환경적 작업 부하와 혼동해 왔다. 우리는 TRACE-VR을 통해 사회적 채널만을 분리하여 살펴보았다. TRACE-VR은 공간 구조, 물리 법칙, 규칙, 타이밍을 모두 동일하게 유지한 상태에서, 노력의 식별 가능성(traceable vs. anonymous)과 동료의 노력 수준(속도; high vs. low)만을 독립적으로 조작한다. 2x2 반복측정 실험(n-32)에서 각 참가자는 3분 동안 아홉 명의 스크립트된 공동 작업자와 함께 고정된 집하 지점과 하차 지점 사이를 자신이 선택한 경로로 16개의 상자를 운반했으며, 공동 작업자들은 사전에 작성된 고정 경로를 따랐다. 우리는 내재적 동기, 사회적·평가적 부담, NASA-TLX, 그리고 행동 및 과정 관련 결과를 측정했다. 그 결과, 식별 가능성과 더 높은 동료 노력 수준(속도)은 각각 완료율을 소폭 증가시키는 것으로 나타났으며, 그 효과의 비대칭성은 책임성 단서와 규범적 속도가 부분적으로 서로를 대체할 수 있음을 시사한다. 또한, 감시받는다는 인식과 시간적 요구는 두 요인의 조합에 따라 달라졌다. 식별 가능성은 낮은 속도 조건에서는 감시 인식을 높였고, 높은 속도 조건에서는 시간 압박을 더욱 증폭시켰다. 반면, 종합 TLX 점수와 완료한 참가자들의 수행 시간은 조건 간에 대체로 유사했다. 즉, 이러한 단서들은 주로 누가 과제를 끝마치는지를 결정할 뿐, 완료한 사람이 얼마나 빠르게 움직이는지에는 큰 영향을 주지 않았다. 또한 높은 속도가 항상 동기를 높이는 것은 아니었다. 우리는 식별 가능성과 속도를 협업 VR에서 사회적·평가적 경험과 세부 동기 요소를 조절하는 부분적으로 대체 가능한 두 가지 수단으로 해석하며, 템포 인식형 및 책임성 인식형 가이던스를 위한 설계 방향을 제안한다.
-
- 작성일 2026-03-10
- 조회수 671
-
- [연구] main Lab(지도교수: 김재광) The 2026 ACM Web Conference (WWW) Research Track 게재 승인
- main Lab. 연구실 (지도교수: 김재광) 논문이 Top-tier 국제학술대회 The 2026 ACM Web Conference (WWW) Research Track에 게재 승인되었습니다. 논문은 26년 4월 두바이에서 발표될 예정입니다. "FCRLLM: Aligning LLM with Collaborative Filtering for Long-tailed Sequential Recommendation" 논문은 허병문 (인공지능융합학과 박사과정), 이남준 (인공지능융합학과 석사과정), 김선아 (소프트웨어학과 석사과정) 이 저자로 참여하였고 김재광 교수가 교신저자로 참여하였습니다. 이 연구는 상호작용 데이터가 부족한 Long-tailed 사용자 및 아이템에서의 추천 문제를 해결하기 위해, 거대언어모델(LLM)의 풍부한 의미론적(Semantic) 지식과 기존의 협업 필터링 신호를 결합한 FCRLLM 프레임워크를 제안합니다. 핵심 기술인 '플립드 클래스룸(Flipped Classroom)' 메커니즘은 협업 표현과 의미론적(Semantic) 표현이 서로 스승과 제자의 역할을 교차 수행하며 동적으로 정렬(aligned) 되도록 유도합니다. 이 과정에서 홉필드 네트워크 기반의 에너지 함수를 활용하여 두 양식 간의 어텐션 패턴 차이를 최소화하고 상호 보완적인 학습을 가능하게 합니다. 제안 방법은 세 개의 실제 데이터셋을 활용하여 실험하였고, 그 결과 제안 방법이 아이템의 인기나 사용자의 활동 수치와 관계없이 추천 성능을 일관되게 향상시키는 것으로 나타났습니다. 본 연구는 서로 다른 차원의 정보들을 양방향 교사-학생 구조로 통합함으로써 더욱 정교하고 다양한 추천 시스템을 구축할 수 있음을 보여줍니다.
-
- 작성일 2026-01-15
- 조회수 1378
-
- [일반] SW융합대학 실감미디어공학과 Annual Research Review 성료
- SW융합대학 실감미디어공학과 Annual Research Review 성료 SW융합대학 실감미디어공학과(학과장: 류은석 교수)는 지난 11월 27일(목) 오후 4시 30분, 인문사회과학캠퍼스 국제관 5층 Global R&E Lounge에서 2025 Annual Research Review 행사를 성공적으로 개최했다. 이번 행사에는 실감미디어공학과, 인공지능융합학과, 인터랙션사이언스학과, 인공지능융합전공 등 4개 학과가 공동 참여하여 XR/VR & Immersive Experiences, 3D Gaussian Splatting & Graphics Systems, Multimodal Understanding & Generation, Human-AI Interaction & Social Computing, AI for Emotion & Mental Health, Data-Driven Modeling & Recommendation의 총 6개 분야에서 41팀의 연구 발표가 진행되었으며, 실감미디어 연구의 현재와 미래를 조망하는 의미 있는 자리로 꾸려졌다. 발표는 포스터 전시 및 데모 시연 형식으로 진행되었고, 연구의 실질적 적용 가능성과 기술적 확장성에 대한 활발한 논의가 이어졌다. 행사에 앞서 개최된 Industrial Advisory Board(IAB, 기업자문위원) 사전 미팅에는 LG전자, 삼성전자, 상화, 올림플래닛, SOS Lab, ETRI(한국전자통신연구원), LG U+, LG 헬로비전, 정보통신기획평가원(IITP) 등 주요 ICT 및 콘텐츠 분야 기업과 연구기관 관계자들이 참석했다. 참석 전문가들은 XR 디바이스, 로봇 기반 비전 기술, LiDAR 센서 및 volumetric 영상 기술, AI 기반 실감미디어 서비스, 미래 네트워크 및 Web3 기술 등 산업이 요구하는 핵심 기술 동향과 산학연 협력 방향에 대해 심도 있는 의견을 나누며, 산학 공동 연구 생태계 구축의 중요성을 강조했다. 연구 성과 관람 및 전문가 평가 이후 진행된 ‘Outstanding Research Award’ 시상식에서는 학부와 대학원 부문으로 나누어 수상자가 선정되었다.학부 부문에서는 인공지능융합전공 강민구 학우가 최우수 연구상을 수상했으며, 김수현 학우와 오경준 학우가 우수 연구상을 받았다. 대학원 부문에서는 인공지능융합학과 이유빈 연구원이 최우수 연구상을 수상했다. 우수 연구상은 △실감미디어공학과 김종한 연구원 △메타바이오헬스학과 오민우 연구원과 인공지능융합학과 박민수 연구원(팀) △실감미디어공학과 주민준 연구원 △실감미디어공학과 정의준 연구원에게 돌아갔다. 이번 시상은 창의적인 연구 역량과 실질적인 기술 발전 가능성을 보여준 연구자들의 노력을 인정하는 자리였다. 더불어 본 행사에는 특별히 류덕희 총동창회 고문(경동제약 명예회장)이 참석하여, 미래 기술을 선도할 연구자로 성장하는 학생들에게 실질적인 조언과 진심 어린 격려의 메시지를 전했다. 현장의 학생들과 연구진은 산업 현장에서 요구되는 실천적 역량과 연구 태도에 대한 인사이트를 얻으며 소중한 시간을 가졌다. 행사를 기획한 실감미디어공학과 류은석 학과장은 “Annual Research Review는 연구자들이 서로의 성과를 공유하고 새로운 협력 기회를 발굴하는 중요한 자리이며, 앞으로도 실감미디어 분야를 선도하는 글로벌 연구 허브로 성장해 나가겠다”고 밝혔다. 실감미디어공학과는 과학기술정보통신부 가상융합대학원 사업의 지원을 기반으로 우수 대학원생 선발과 해외 파견 연구 프로그램을 운영하며, 영상처리, 그래픽스, 인공지능 분야 미래 인재 양성을 위한 연구 환경과 국제 협력 체계를 지속적으로 확장하고 있다. 이번 Annual Research Review는 학부와 대학원 연구자들의 성과 공유뿐만 아니라 산업계와의 협력을 강화하고 미래 성장 기반을 마련한 뜻깊은 행사로 마무리되었다.
-
- 작성일 2025-12-02
- 조회수 1513
-
- [연구] AIM Lab(지도교수: 홍성은 교수) NeurIPS 2025 논문 2편 발표
- 인공지능 및 미디어 연구실(AI & Media, AIM LAB)의 논문 2편이 미국 San Diego에서 개최되는 AI 분야 세계 최고 권위의 학술대회인 NeurIPS (Conference on Neural Information Processing Systems) 2025에서 발표 예정입니다. 논문1. Backpropagation-Free Test-Time Adaptation via Probabilistic Gaussian Alignment (Youjia Zhang, 김영은, 최영근, 김홍엽, Huiling Liu, 홍성은) 본 논문은 이미지 분류 모델이 배경·스타일·조명·노이즈 등 다양한 분포 변화 상황에서 성능이 떨어지는 문제를 해결하기 위해, 테스트 시점에서 모델을 빠르게 적응시키는 Test-Time Adaptation(TTA) 과제를 다룹니다. 기존 TTA는 반복 최적화나 backpropagation에 의존해 실시간 적용이 어려웠습니다. ADAPT는 이 문제를 해결하기 위해 가우시안 분포 정렬 기반의 완전 backprop-free 적응 방식을 제안하며, 효율성과 안정성을 동시에 확보했습니다. - Gaussian Distribution Modeling: 클래스별 특징 분포를 가우시안으로 단순·명확하게 모델링해, 반복 계산 없이 바로 적응할 수 있도록 합니다. - Lightweight Regularization with CLIP Priors: 신뢰도 높은 특징을 축적하는 knowledge bank와 CLIP 기반 priors를 활용해, 예측의 일관성과 안정성을 유지합니다. ADAPT는 단순하고 가벼운 구조를 기반으로 backpropagation 없이도 강력한 TTA 적응 성능을 보여주며, 다양한 분포 변화 환경에서 기존 최신 기법들을 능가하는 성능을 입증했습니다. 논문2. PRIMT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Synthesis from Foundation Models 본 논문은 로봇의 움직임·조작·보행 등 다양한 행동 궤적을 비교해 어떤 궤적이 더 선호되는지 학습하는 PbRL(Preference-based Reinforcement Learning) 문제를 다룹니다. 기존 방식들은 단일 모달리티에 의존해 선호 판단이 불안정하거나, 초기 학습 단계에서 쿼리가 모호해지는 문제가 있었습니다. PRIMT는 이러한 한계를 극복하기 위한 새로운 프레임워크로, LLM과 VLM을 결합한 멀티모달 선호 융합과 궤적 생성(foresight/hindsight) 방식을 통해 더 정확하고 안정적인 선호 학습을 가능하게 합니다. - Hierarchical Multimodal Preference Fusion: LLM과 VLM이 제공하는 상보적 정보를 결합해, 로봇 행동의 선호를 더 정확하고 안정적으로 판단합니다. - Bidirectional Trajectory Synthesis: LLM이 다양한 초기 궤적을 생성해 학습 초반의 모호한 비교 문제를 줄이고, 반사실(counterfactual) 궤적을 만들어 보상 신호가 어떤 행동에 의해 결정되는지 명확히 드러냅니다. PRIMT는 기존 PbRL의 약점을 보완하면서, 조건 충실도와 행동 자연스러움 모두를 개선하는 결과를 보여주었고 다양한 로봇 조작 및 이동 과제에서 성능 향상을 입증했습니다.
-
- 작성일 2025-12-01
- 조회수 1431
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 다음 페이지로 이동하기
- 마지막 페이지로 이동하기
발전기금


