-
- [연구] Pixel Lab (지도교수: 이상민 교수), CVPR 2025 논문 5편 게재 승인
- 성균관대 Pixel Lab의 논문 5편이 인공지능 및 컴퓨터비전 분야 세계 최고 수준의 학술대회인 CVPR 2025 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025”)에 게재 승인되었습니다. 해당 연구들은 UIUC, Georgia Tech, UW-Madison, Meta, KHU 등 국제적으로 다양한 기관과의 협업을 통해 이루어졌으며, 6월 미국 내슈빌에서 발표될 예정입니다. 논문1. SocialGesture: Delving into Multi-person Gesture Understanding 저자: Xu Cao, Pranav Virupaksha, Wenqi Jia, Bolin Lai, Fiona Ryan, Sangmin Lee✝, James M. Rehg✝ (✝ Corresponding Author) 인간의 제스처 인식에 관한 기존의 연구는 대부분 다인 간 상호작용을 충분히 고려하지 않았습니다. 하지만 다인 간 상호작용은 자연스러운 제스처가 지닌 사회적 맥락을 이해하는 데 매우 중요한 요소입니다. 이러한 기존 데이터셋의 한계로 인해 인간의 제스처를 언어나 음성 등 다른 모달리티와 효과적으로 연계하는 데 어려움이 있었습니다. 이 문제를 해결하고자 본 연구에서는 다인 간 제스처 분석을 위해 특별히 설계된 최초의 대규모 데이터셋인 SocialGesture를 소개합니다. SocialGesture는 다양한 자연스러운 상황을 포함하고 있으며, 영상 기반의 제스처 인식과 시간적 위치를 비롯한 여러 제스처 분석 작업을 지원합니다. 따라서 복잡한 사회적 상호작용 상황에서 제스처 연구를 발전시키는 데 있어 중요한 자료를 제공합니다. 또한 본 논문은 사회적 제스처 이해를 위한 비주얼 질의응답(Visual Question Answering, VQA)이라는 새로운 태스크를 제안하여 비전-언어 모델(Vision-Language Models, VLM)의 성능 평가를 위한 벤치마크를 제공합니다. 실험 결과는 현재의 제스처 인식 모델이 가지는 여러 한계를 보여주며, 앞으로 이 분야에서 개선할 방향성에 대한 통찰력을 제시합니다. 논문2. Object-aware Sound Source Localization via Audio-Visual Scene Understanding 저자: Sung Jin Um, Dongjin Kim, Sangmin Lee✝, Jung Uk Kim✝ (✝ Corresponding Author) 음원 위치 추정(Sound Source Localization) 태스크는 시각적 장면 내에서 소리를 발생시키는 각 객체의 영역을 정확하게 찾아내는 것을 목표로 합니다. 기존의 방법들은 단순한 오디오-시각적 외관 대응 관계에만 의존하여, 시각적으로 유사한 무음 객체가 여럿 존재하는 등의 도전적인 환경에서는 실제 음원에 해당하는 개별 객체의 정확한 위치를 찾는 데 어려움을 겪었습니다. 이러한 문제를 해결하고자 본 논문에서는 세부적인 맥락 정보를 활용하여 정밀한 음원 위치 추정을 수행하는 새로운 프레임워크를 제안합니다. 구체적으로, 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용하여 시청각 특징을 바탕으로 세부적인 장면 설명 정보를 생성합니다. 또한 생성된 세부 정보를 효과적으로 활용하기 위해 객체 인식 대비 정렬 손실과 객체 영역 분리 손실이라는 두 가지 손실 함수를 새롭게 제안합니다. 본 방법은 이 두 가지 손실 함수를 통해 세밀한 시청각 대응관계를 바탕으로 정밀한 음원 위치 추정을 효과적으로 수행할 수 있습니다. MUSIC 및 VGGSound 데이터셋을 이용한 광범위한 실험 결과, 본 연구가 단일 음원과 다중 음원이 포함된 상황 모두에서 기존 방법 대비 성능을 크게 향상시킴을 입증했습니다. 논문3. Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation 저자: Bolin Lai, Felix Juefei-Xu, Miao Liu, Xiaoliang Dai, Nikhil Mehta, Chenguang Zhu, Zeyi Huang, James M. Rehg, Sangmin Lee, Ning Zhang, Tong Xiao 텍스트 기반 이미지 편집(Text-guided image manipulation)은 최근 수년간 눈부신 발전을 이루었습니다. 하지만 언어의 모호성을 줄이기 위해, 훈련 데이터에서 잘 나타나지 않거나 순수하게 언어로 설명하기 어려운 명령어에 대해 시각적 예시를 활용한 소수 샷 학습(few-shot learning)이 사용되기도 합니다. 그러나 시각적 프롬프트로부터 학습하는 것은 매우 뛰어난 추론 능력을 요구하기 때문에, 최근 널리 사용되는 확산 모델(diffusion models)들이 이 문제를 효과적으로 다루지 못하고 있습니다. 이러한 한계를 극복하기 위해 본 연구에서는 InstaManip이라는 새로운 멀티모달 자기회귀 모델을 제안합니다. InstaManip은 문장과 이미지로 구성된 가이던스를 통해, 인-컨텍스트 러닝 방식으로 이미지 편집 작업을 빠르게 습득하고, 이를 새로운 이미지에 즉시 적용할 수 있습니다. 구체적으로, 본 논문에서는 혁신적인 그룹 자기 어텐션 메커니즘을 통해 인-컨텍스트 학습을 학습(learning)과 적용(applying)이라는 두 개의 독립된 단계로 명확히 구분함으로써 복잡한 문제를 보다 단순한 두 개의 하위 태스크로 분할합니다. 또한, 예시 이미지 내에서 이미지 변환과 직접 관련되지 않은 콘텐츠를 분리하기 위한 관계 정규화 방법도 함께 제안합니다. 광범위한 실험을 통해 본 논문의 방법이 기존의 소수 샷 이미지 편집 모델들에 비해 인간 평가 기준으로 최소 19% 이상의 큰 성능 향상을 보임을 확인하였습니다. 나아가, 제안한 모델이 예시 이미지의 개수나 다양성을 높일수록 성능이 더욱 향상될 수 있음을 발견했습니다. 논문4. Question-Aware Gaussian Experts for Audio-Visual Question Answering 저자: Hongyeob Kim, Inyoung Jung, Dayoon Suh, Youjia Zhang, Sangmin Lee, Sungeun Hong 오디오-비주얼 질의응답(Audio-Visual Question Answering, AVQA)은 질문 기반의 멀티모달 추론은 물론이고, 미세한 동적 변화를 포착할 수 있도록 정확한 시간적 근거를 요구하는 태스크입니다. 그러나 기존 연구들은 주로 질문 정보를 암묵적으로만 활용하기 때문에, 질문과 관련된 세부적인 부분에 명확히 집중하지 못한다는 한계가 있었습니다. 또한 대부분의 방법이 일정 간격으로 균등하게 프레임을 샘플링하기 때문에, 질문과 관련된 핵심 프레임들을 놓칠 수 있습니다. 최근 이를 해결하기 위해 Top-K 프레임 선택 방식이 제안되었으나, 이 방법들 또한 이산적이어서 보다 세밀한 연속적 시간 정보는 제대로 반영하지 못하고 있습니다. 이러한 문제점을 해결하기 위해 본 논문에서는 질문 정보를 명시적으로 활용하며 연속적인 시간 역학을 모델링하는 새로운 프레임워크 QA-TIGER를 제안합니다. QA-TIGER는 가우시안 기반 모델링을 통해 질문 내용을 바탕으로 연속적 및 비연속적 프레임들에 적응적으로 집중하고, 질문 정보를 명시적으로 주입함과 동시에 점진적으로 세부 사항을 정교화하는 방식을 핵심 아이디어로 사용합니다. 구체적으로, 본 연구는 전문가 혼합 모델(Mixture of Experts, MoE) 방식을 활용해 다양한 가우시안 모델들을 유연하게 구현하고, 질문별로 특화된 시간 전문가를 활성화합니다. 여러 AVQA 벤치마크 데이터셋에서 수행한 폭넓은 실험을 통해 QA-TIGER가 기존 방법들에 비해 state-of-the-art 성능을 달성했음을 확인했습니다. 논문5. Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders 저자: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg 본 논문에서는 장면 내에서 사람이 어디를 바라보고 있는지를 예측하는 시선 대상 추정(gaze target estimation) 문제를 다룹니다. 사람의 시선 대상을 정확히 예측하기 위해서는 인물의 외형적 특성과 해당 장면의 콘텐츠에 대한 종합적인 추론이 필요합니다. 기존 연구들은 이 문제를 해결하기 위해 장면 인코더, 헤드 인코더, 깊이 및 포즈와 같은 보조 모델 등에서 얻은 특징들을 정교하게 결합하는, 점점 더 복잡한 hand-crafted 파이프라인을 개발해 왔습니다. 본 연구에서는 최근 다양한 시각적 작업에서 우수한 성능을 입증한 범용적(general-purpose) 특징 추출기의 성공에서 영감을 받아, 사전학습된 DINOv2 인코더로부터 추출한 특징을 활용해 시선 대상 추정을 단순화하는 새로운 트랜스포머 기반 프레임워크 Gaze-LLE를 제안합니다. 구체적으로, 장면에 대해 단일한 특징 표현을 추출한 후, 인물에 특화된 위치 프롬프트를 적용하여 간단한 디코딩 모듈로 시선 방향을 예측합니다. 여러 벤치마크 실험을 통해 본 논문의 방법이 기존 연구들을 뛰어넘는 state-of-the-art을 달성했으며, 본 연구에서 설계한 구성 요소들의 타당성을 입증하기 위한 폭넓은 분석도 함께 제시합니다.
-
- 작성일 2025-03-12
- 조회수 403
-
- [연구] AIM LAB(지도교수 : 홍성은 교수) , CVPR 2025 논문 1편 게재 승인
- 인공지능 및 미디어 (AI & Media, AIM LAB) 연구실의 논문 1편이 컴퓨터 비전 및 패턴 인식 분야에서 세계 최고 수준의 학술대회인 CVPR 2025 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025”)에 게재 승인되었습니다. 논문은 6월 미국 내슈빌에서 발표될 예정입니다. 저자: 김홍엽*, 정인영*, 서다윤, Youjia Zhang, 이상민, 홍성은 (*공동 1저자) 논문에서는 Audio-Visual Question Answering(AVQA) 문제를 다루며, 기존 방식의 한계를 극복하기 위해 새로운 프레임워크인 QA-TIGER를 제안했습니다. 기존 연구들은 모든 프레임을 동일하게 취급하거나 Top-K 프레임 선택 방식을 사용했으나, 이는 연속적인 시간 정보를 충분히 반영하지 못하는 한계가 있었습니다. QA-TIGER는 두 가지 핵심 모듈로 구성되었습니다. 1. 질문 인식 융합(Question-Aware Fusion) 모듈은 질문 정보를 초기 단계부터 오디오 및 비주얼 피처에 명시적으로 주입하여 효과적인 정보 융합을 수행했습니다. 이를 위해 사전 학습된 인코더를 활용하고, 셀프 어텐션 및 크로스 어텐션을 적용하여 질문과 모달리티 간의 상호작용을 강화했습니다. 2. 가우시안 전문가 시간적 통합(Temporal Integration of Gaussian Experts) 모듈은 기존의 이산적인 프레임 선택 방식 대신 Mixture of Experts(MoE) 기법을 활용하여 연속적인 시간 정보를 정밀하게 반영했습니다. 각 가우시안 전문가는 특정 시간 구간에 초점을 맞춰 동적 가중치를 부여하며, 이를 통해 모델이 질문에 맞는 시간적 단서를 효과적으로 학습하도록 설계했습니다. 결과적으로 QA-TIGER는 질문 특화 정보와 정밀한 시간적 모델링을 결합하여 AVQA 분야에서 새로운 기준을 제시하는 모델임을 입증했습니다.
-
- 작성일 2025-03-04
- 조회수 363
-
- [학생실적] LAMDA Lab 박혜진, 이지윤 학생(지도교수 : 오하영), PAKDD(Pacific-Asia Conference on Knowledge Discovery and Data Mining) 학회 논문 게재
- 오하영 교수 연구실 LAMDA Lab에서 박혜진, 이지윤 학생이 발표한 FinTab-LLaVA: Finance Domain-Specific Table Understanding with Multimodal LLM using FinTMD 논문이 PAKDD (Pacific-Asia Conference on Knowledge Discovery and Data Mining)의 Full Paper로 Accept되어 Oral Presentation을 진행하게 되었다. 논문의 내용은 금융 도메인 특화 멀티모달 LLM인 FinTab-LLaVA 개발에 관한 연구로, 금융 테이블 데이터셋 FinTMD를 구축하고, Curriculum Learning 방식을 적용해 금융 도메인 지식 학습 및 테이블 이해 능력을 단계적으로 강화하여 금융 테이블 기반 질의응답, 사실 검증, 설명 생성 태스크에서 우수한 성능을 보이는 모델을 소개한다. PAKDD (Pacific-Asia Conference on Knowledge Discovery and Data Mining)는 1997년 첫 개최되어 올해로 29회를 맞은 데이터 과학, 데이터 마이닝, 지식 발견 분야의 권위 있는 학회로, 오는 6월 10일부터 6월 13일까지 호주 시드니에서 개최된다.
-
- 작성일 2025-02-11
- 조회수 1180
-
- [교수동정] 박은일 교수, 조달청장 표창 수상
- 박은일 교수, 조달청장 표창 수상 인공지능융합학과 박은일 교수님께서 혁신지향 공공조달 활성화에 기여한 점을 인정받아 지난 12월 31일 조달청장 표창을 수상하셨습니다. 박은일 교수님은 혁신제품 공공조달 분야 내 <국민제안형 인큐베이팅>, <기관제안형 인큐베이팅>, <수요자유제안형 인큐베이팅>, <초중고 혁신수요 아이디어> 등 조달청과 유관 기관이 수행한 공공조달 8개 프로그램에 지난 2019년부터 2024년까지 혁신제품의 공공 분야 활로 개척을 위한 자문과 지원 활동을 수행하셨습니다. 이를 통해 공공 혁신 조달 플랫폼과 혁신 제품의 활용을 통한 생태계 구축에 기여한 바를 인정받았으셨습니다. 한편, 박은일 교수는 2020년부터 ICT혁신인재4.0 사업단, 2024년부터 딥페이크 연구센터를 연구책임자로 운영하여, 공공과 산업을 위한 인재 양성에 힘쓰고 계십니다.
-
- 작성일 2025-01-09
- 조회수 647
-
- [교수동정] 한진영 교수님 총괄 신뢰가능한 AI 연구단, '신뢰가능한 AI 국제 워크숍' 개최…AI 기술안전성 논의
- 한진영 교수님 총괄 신뢰가능한 AI 연구단, '신뢰가능한 AI 국제 워크숍' 개최…AI 기술안전성 논의 - 네이버·정보통신기획평가원 등 산업계 및 정부 전문가 참여 - AI 기술의 사회적 책임과 발전 방향 논의 성균관대가 지난달 20일 학계 및 정부 전문가들과 함께 최근 AI 연구 동향을 파악하고 발전 방향을 모색하는 국제 워크숍을 개최했다. 성균관대학교는 본교 인문사회과학캠퍼스에서 최신 AI 기술의 사회적 책임과 관련한 연구 동향을 파악하고 발전 방향을 모색하는 '2024 International Workshop on Responsible AI' 워크숍을 개최했다고 8일 밝혔다. 워크숍에는 학계의 국내외 석학들과 산업계 및 정부 전문가들이 참여했다. 신뢰가능한 AI 연구단을 총괄하고 있는 성균관대 한진영 교수의 개회사로 시작해 정보통신기획평가원 정재훈 팀장의 축사가 이어졌다. 특히 AI 분야의 세계 석학으로 꼽히는 샴 순다르 펜실베이니아 주립대 교수와 이관민 싱가포르 난양공대 교수가 글로벌 AI 기술 연구의 최신 동향을 설명하고 한국정보통신기술협회 곽준호 팀장과 네이버 이화란 박사 등이 토의에 참여해 산업계와 정부의 관점을 공유했다. 이번 행사는 과학기술정보통신부(MSIT)와 정보통신기획평가원(IITP)의 후원으로 진행됐다. 성균관대는 해외 연구자들의 적극적인 참여로 글로벌 AI 기술의 최신 동향을 공유하고 이를 국내 연구와 연결하는 기회를 가지는 시간이었다고 의의를 전했다. 신뢰가능한 AI 연구단 한진영 교수는 "이번 행사에서 논의된 내용이 학문적·산업적·정책적 협력의 토대가 되길 기대한다"며 "연구단은 신뢰 가능하고 안전한 AI 기술의 발전을 위해 지속적으로 노력하겠다"고 밝혔다.
-
- 작성일 2025-01-09
- 조회수 192
-
- [교수동정] 류은석 교수, 과학기술정보통신부 장관상 수상
- 류은석 교수, 과학기술정보통신부 장관상 수상 인공지능융합학과 전임교수 겸 실감미디어공학과 학과장을 담당하고 계신 류은석 교수님께서 메타버스 분야 핵심 인재 양성과 국제협력·표준화로 차세대 기술 발전에 기여한 점을 인정받아 지난 12월 11일(수) 과학기술정보통신부 장관 표창을 수상하셨습니다. 류은석 교수님 께서는 2023학년도 2학기 실감미디어공학과 개원 이래 영상처리, 컴퓨터그래픽스, 인공지능 등의 핵심기술을 바탕으로 실감미디어 콘텐츠 기술을 연구/개발하는 것을 목표로 끊임없이 노력하고 있으며, 실감미디어공학과는 과학기술정보통신부의 메타버스융합대학원 사업의 지원으로 우수한 전일제 대학원생을 선발해오고 계십니다. 한편, 실감미디어공학과는 ICT기술과 콘텐츠를 융합한 교육과정을 운영하며, 소속 대학 학생 전원 인턴십 및 25%에 해당하는 인원에 대한 해외 연구기관 파견 지원 정책 등을 운영하여 미래를 선도하는 글로벌 리더 양성에 힘쓰고 있습니다.
-
- 작성일 2025-01-02
- 조회수 504
-
- [학생실적] [HAI LAB(지도교수 송하연)] 김지은 석사 졸업생, CHI 학회에서 Honorable mention을 수상하다
- 안녕하세요 인공지능융합학과 행정실입니다. HAI Lab 소속(지도교수 송하연) 김지은 석사 졸업생(현재 코넬대 박사과정 진행중)의 논문이 CHI 학회에서 Honorable mention을 수상했습니다. ▲ 김지은 석사 졸업생 해당 논문의 Abstract 및 주소는 아래와 같습니다. [Abstract] Sticking to daily plans is essential for achieving life goals but challenging in reality. This study presents a self-voice alarm as a novel daily goal reminder. Based on the strong literature on the psychological effects of self-voice, we developed a voice alarm system that reminds users of daily tasks to support their consistent task completion. Over the course of 14 days, participants (N = 63) were asked to complete daily vocabulary tasks when reminded by an alarm (i.e., self-voice vs. other-voice vs. beep sound alarm). The self-voice alarm elicited higher alertness and uncomfortable feelings while fostering more days of task completion and repetition compared to the beep sound alarm. Both self-voice and other-voice alarms increased users’ perceived usefulness of the alarm system. Leveraging both quantitative and qualitative approaches, we provide a practical guideline for designing voice alarm systems that will foster users’ behavioral changes to achieve daily goals. 링크 : My Voice as a Daily Reminder: Self-Voice Alarm for Daily Goal Achievement 감사합니다. 인공지능융합학과 행정실
-
- 작성일 2024-10-04
- 조회수 1634
-
-
- [교수동정] 소프트웨어융합대학 소속 한진영 교수, 과기정통부 ‘디지털 분야 해외석학유치지원’ 사업 선정
- 소프트웨어융합대학 소속 한진영 교수, 과기정통부 ‘디지털 분야 해외석학유치지원’ 사업 선정 - 펜실베니아주립대 샴 선더 교수와 ‘신뢰가능한 인공지능 연구단’ 설립 - 2026년까지 50억원 지원 ▲ 성균관대 한진영 교수(왼쪽)와 펜실베니아주립대 샴 선더 교수(오른쪽) 우리 대학은 과학기술정보통신부(이하 과기정통부)와 정보통신기획평가원이 공고한 ‘디지털 분야 해외석학유치지원’ 사업에 선정되었다. 지원 규모는 2026년까지 총 50억원이다. 올해 새롭게 추진하는 디지털 분야 해외석학유치지원 사업은 해외 석학급 최고급 연구자를 국내 대학에 유치해 공동 연구를 수행하고 이를 통해 국내 고급인재들의 연구 역량 향상을 지원하는 사업이다. 해외석학급 최고급 연구자는 QS세계대학평가 100위권 내 해외 우수대학 또는 글로벌 빅테크 기업 등에서 10년 이상 연구개발(R&D) 경험 및 연구 성과가 있는 박사급 재외한인 및 외국인 연구자를 말한다. 공모를 통해 총 3개 과제가 접수되었으며 연구 추진계획 및 기대효과, 해외석학급 연구자의 역량 및 우수성 등을 종합적으로 평가해 성균관대와 서울대가 최종 선정되었다. 인공지능(AI) 분야에 선정된 성균관대는 ‘신뢰가능한 인공지능 연구단(Pioneer Research Group for Socially Responsible Aritificial Intelligence, 연구책임자: 한진영 교수)’을 제안하였으며, 미국 펜실베니아주립대 ‘인공지능의 사회적 책임 연구소’ 소장인 샴 선더 교수 연구팀과 함께 최근 중요성이 커지고 있는 Socially Responsible AI(사회적으로 책임감 있는 AI) 기술을 연구한다. 스탠포드대가 발표한 ‘세계에서 가장 많이 인용된 과학자 상위 2%’에 4년 연속으로 선정된 바 있는 샴 선더 교수는 우리 대학 석좌교수 및 실감미디어연구센터 소장으로 부임하여 인공지능융합학과 및 실감미디어공학과 학생들을 지도하고 인공지능 윤리 분야에서 국제적으로 선도적 연구 성과를 낼 계획이다. 연구단은 ▲사회과학 측면에서 인공지능 윤리 가이드라인 개발 ▲안전하고 설명가능하며 신뢰성 있는 인공지능 요소 기술 개발 ▲개인정보 보호 및 인공지능 보안 기술 개발 등을 국내외 다학제 전문가들과 함께 진행할 계획이다. 또 국내외 인공지능 분야 전문가가 참여해 인공지능 윤리 연구 분야 성과 및 동향 등을 논의하는 온·오프라인 공개 세미나도 개최한다. 이은석 소프트웨어융합대학장은 “이번 연구단의 출범은 성균관대가 인공지능 분야에서 국제적인 연구 경쟁력을 갖추고 사회적으로 책임감 있는 AI 기술을 선도적으로 개발하는 데 중요한 역할을 할 것”이라며 “특히, 샴 선더 교수와의 협력을 통해 인공지능 윤리 분야 연구 역량이 크게 증진될 것”이라고 밝혔다. 그러면서 “안전하고 신뢰성 있는 AI 기술 개발을 통해 인류와 미래사회에 기여할 수 있는 방안을 모색할 것”이라고 덧붙였다.
-
- 작성일 2024-09-04
- 조회수 1195
-