"AI, 언젠가 대학 지도교수 대체 가능성 있지만 신뢰성은 아직 미흡"

독일 율리우스 막시밀리안 대학교 연구결과

AI, 언젠가 튜터 대체 가능성 있지만 신뢰성은 아직 부족 (출처: Pixabay/CC0 Public Domain) / 2025.09.07
AI, 언젠가 튜터 대체 가능성 있지만 신뢰성은 아직 부족 (출처: Pixabay/CC0 Public Domain) / 2025.09.07

[웹이코노미 이영기 기자] 인공지능(AI)은 이미 많은 사람들의 일상에 깊이 자리 잡았다. 챗GPT, 제미나이, 코파일럿 등 대형 언어모델(LLM)은 편지 작성, 과제, 여행 계획, 다양한 질문에 대한 답변 등 여러 분야에서 활용되면서 대학 이공계에서 지도교수로서의 역할도 대체할 수 있을지에 대한 연구결과가 나왔다. 

독일 뷔르츠부르크 율리우스 막시밀리안 대학교(Julius Maximilian University of Würzburg, JMU) 연구팀은 자연과학 분야에서 LLM이 학생들을 무감독 튜터로 지원할 수 있는지 조사한 결과를 영국과학전문매체 'phys(피즈).org(오아르지)'(이하 피즈오아르지) 9월6일자 기고문으로 직접 소개했다. 

앞서 연구논문은 미국 코넬대학교 운영 'arXiv' 프리프린트 서버에 8월29일 제출됐다. 논문의 제목은 'From Canonical to Complex: Benchmarking LLM Capabilities in Undergraduate Thermodynamics(표준에서 복잡성으로의 확장: 대학 학부 열역학에서의 LLM 성능 비교평가)'이다. 

기고문에 따르면 연구팀은 먼저, 현대 LLM의 열역학 이해도를 평가하는 도구인 UTQA(Undergraduate Thermodynamics Question Answering)를 개발했다.

이 도구는 교사와 연구자가 LLM을 공정하고 과목별로 평가할 수 있도록 설계됐으며, 누구나 자유롭게 이용할 수 있다.

프로젝트 책임자인 토비아스 헤르텔(Tobias Hertel)교수는 “AI가 언젠가 무감독 파트너로서 학생 개개인의 필요에 맞춰 지원할 수 있기를 바란다”며 “아직 그 단계에 이르지는 못했지만, 발전 속도는 놀랍다”고 말했다.

헤르텔 교수팀은 2023년 겨울학기부터 150명 이상의 학생이 참여하는 열역학 강의에서 LLM을 활용해 주간 지식 점검을 실시했다.

챗GPT-3.5, 챗GPT-4 등은 강점을 보였으나, 명확한 한계도 드러났다.

이에 따라 연구팀은 열역학 강의에서 50개의 도전적인 단일 선택형 문제로 구성된 UTQA 벤치마크를 마련했다.

2025년 기준 최고 성능을 보인 모델도 연구팀이 무감독 AI 튜터로 요구한 95% 정답률을 달성하지 못했으며, GPT-o3 모델조차 82% 정확도에 그쳤다.

모델들은 비가역 과정과 이미지 해석이 필요한 문제에서 일관되게 어려움을 겪었다.

헤르텔 교수는 “실제로 LLM은 감독 여부와 관계없이 교육에 유용할 수 있지만, 아직 무감독 튜터로 쓰기에는 부족하다”고 밝혔다.

연구에는 두 명의 학생 교사가 참여해 과제 번역과 확장에 기여했다.

연구팀은 앞으로 UTQA를 실제 기체, 혼합물, 상도, 표준 사이클 등으로 확장할 계획이다.

헤르텔 교수는 “텍스트와 이미지 결합, 비가역 영역 처리 능력이 향상될수록 신뢰할 수 있는 AI 튜토리얼에 가까워질 것”이라고 전망했다.

저작권자 © 웹이코노미 무단전재 및 재배포, AI학습 및 활용 금지
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
모바일버전