AI학습능력 높여주는 ‘맞춤형 선생님’ 등장

시사위크
한국과학기술원(KAIST)은 전기및전자공학부 김준모 교수 연구팀이 인간의 선호를  효과적으로 반영한 강화학습 프레임워크 ‘TVKD(Teacher Value-based Knowledge Distillation)’를 개발했다고 17일 밝혔다./ 생성형 AI로 제작한 이미지
한국과학기술원(KAIST)은 전기및전자공학부 김준모 교수 연구팀이 인간의 선호를  효과적으로 반영한 강화학습 프레임워크 ‘TVKD(Teacher Value-based Knowledge Distillation)’를 개발했다고 17일 밝혔다./ 생성형 AI로 제작한 이미지

시사위크=박설민 기자  국내 연구진이 적은 데이터로도 인공지능(AI)이 사람의 선호 성향을 정확히 배우도록 가르치는 ‘AI 가정교사 시스템’ 개발에 성공했다. AI학습 능력을 극대화시킬 수 있어 차세대 언어모델 개발 등에 큰 보탬이 될 전망이다.

한국과학기술원(KAIST)은 전기및전자공학부 김준모 교수 연구팀이 인간의 선호를 효과적으로 반영한 강화학습 프레임워크 ‘TVKD(Teacher Value-based Knowledge Distillation)’를 개발했다고 17일 밝혔다.

기존 인공지능 학습 방식은 ‘A가 B보다 낫다’는 식의 단순 비교(preference comparison) 데이터를 대량으로 수집해 학습하는 구조였다. 이 방식은 많은 데이터가 필요하고, 판단이 애매한 상황에서는 AI가 혼란에 빠지기 쉽다는 한계가  있었다.

연구팀은 이러한 문제를 해결하기 위해 사람의 선호를 먼저 깊이 이해한 ‘교사(Teacher) 모델’이 그 핵심 정보만을 ‘학생(Student) 모델’에게 전달하는 방식을 제안했다. 이는 복잡한 내용을 정리해 가르치는 가정교사에 비유할 수 있다. 연구팀은  이를 ‘선호 증류(Preference Distillation)’라고 명명했다.

이번 기술의 가장 큰 특징은 단순히 ‘좋다·나쁘다’를 흉내 내는 것이 아니다. 대신 각 상황이 얼마나 가치 있는지를 수치적으로 판단하는 ‘가치 함수(Value Function)’를 교사 모델이 학습한 뒤 이를 학생 모델에 전달하도록 설계했다는 점이다.

이를 통해 AI는 애매한 상황에서도 단편적인 비교가 아닌, ‘이 선택이 왜 더 나은지’를 종합적으로 판단하며 학습할 수 있다. 명확한 데이터는 학습에 크게 반영하고, 모호하거나 잡음이 섞인 데이터는 영향력을 줄여 현실적인 환경에서도 AI가 안정적으로 학습할 수 있도록 했다.

연구팀이 이 기술을 여러 AI 모델에 적용해 실험한 결과, 기존에 가장 성능이 좋다고 알려진 방법들보다 더 정확하고 안정적인 성능을 보였다. 특히 엠티-벤치(MT-Bench), 알파카-이밸(AlpacaEval) 등 주요 평가 지표에서 기존 최고 기술을 안정적으로 앞서는 성과를 기록했다.

김준모 교수는 “현실에서는 사람의 선호 데이터가 항상 충분하거나 완벽하지 않은데 이번 기술은 그런 제약 속에서도 AI가 일관되게 학습할 수 있게 한다”며 “다양한  분야에서 실용성이 매우 높을 것”이라고 말했다.

이번 연 구성과는 국제 AI분야 최고 권위 학회인 ‘신경정보처리시스템학회(NeurIPS) 2025’에 채택됐다. 해당 연구는 2025년 12월 3일(미국 태평양시간) 포스터 세션에서 발표됐다.

Copyright ⓒ 시사위크 무단 전재 및 재배포 금지
alert

댓글 쓰기 제목 AI학습능력 높여주는 ‘맞춤형 선생님’ 등장

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중