LLM 튜터는 답을 주는 도구가 아니라 질문을 설계하는 도구다
생성형 AI를 대학 수업에 넣자는 논의는 이제 낯설지 않다. 하지만 질문은 여전히 거칠다. “AI 튜터가 효과가 있나?”라고 묻는 순간, 서로 다른 효과가 한데 섞인다. 지식 점수가 오르는가, 과제 산출물이 좋아지는가, 학생이 더 깊게 생각하는가, 아니면 그저 편하게 느끼는가. 이 질문들은 같지 않다.
Xi, Zhang & Wang(2026)의 논문은 이 구분을 비교적 선명하게 보여준다. 연구진은 대학생을 대상으로 소크라테스식 질문 전략이 들어간 LLM 대화 에이전트와 그렇지 않은 대조 에이전트를 비교했다. 학생들은 6주 동안 팀 단위로 실험연구 계획서를 작성했고, 연구진은 개념지식, 계획서 품질, 성찰적 사고, 동기, 대화로그를 함께 측정했다.
핵심 결과는 단순하지 않다. 개념지식은 두 집단 모두 향상했지만 집단 차이는 뚜렷하지 않았다. 반면 팀 산출물인 연구계획서 품질은 소크라테스식 에이전트 집단에서 더 높았다. 성찰적 사고도 높았고, 특히 성찰과 비판적 성찰에서 차이가 두드러졌다. 동기는 차이가 없었다.
이 결과는 대학 수업에서 AI 튜터를 어떻게 이해해야 하는지 중요한 단서를 준다. AI 튜터는 단기 지식 점수를 자동으로 끌어올리는 만능 장치가 아니다. 오히려 복합 과제에서 학생이 자기 생각을 검토하고, 논리의 빈틈을 발견하고, 더 나은 산출물로 옮겨가도록 돕는 장치에 가깝다. 말하자면 AI 튜터의 핵심은 답변 품질만이 아니라 질문 품질이다.
대학 교육에서 이 차이는 크다. 많은 AI 도입 논의가 챗봇, FAQ, 자동응답, 과제 도우미 수준에 머문다. 그러나 수업 설계 관점에서 중요한 것은 학생 대신 생각해주는 AI가 아니다. 학생이 생각을 멈추지 못하게 만드는 AI다. 좋은 튜터는 정답을 빨리 말하는 존재가 아니라, 학생이 자신의 주장과 근거를 다시 보게 만드는 존재다.
따라서 대학이 AI 튜터를 도입할 때는 먼저 과제 유형을 구분해야 한다. 단순 지식 확인 과제에서는 설명과 예시가 중요하다. 프로젝트 과제에서는 문제정의, 기준 점검, 논리 구조 피드백이 중요하다. 팀 기반 수업에서는 개인별 피드백만으로 부족하다. 팀의 합의 기준, 역할 분담, 관점 차이를 드러내는 촉진 기능이 필요하다. 성찰 과제에서는 경험을 다시 해석하고 다음 행동으로 연결하는 질문이 필요하다.
이 논문이 보여준 또 하나의 시사점은 성과평가 방식이다. AI 교육성과를 사용량이나 만족도만으로 보면 안 된다. 학생이 많이 썼는가보다, 학생의 사고 구조가 어떻게 바뀌었는가를 봐야 한다. 연구진이 대화로그를 ENA, 즉 인식망분석으로 본 것도 이 때문이다. 학생의 말 속에서 어떤 개념이 함께 등장하고, 어떤 사고 경로가 만들어지는지를 보려는 시도다.
다만 이 연구를 그대로 받아들이기는 어렵다. 가장 큰 한계는 두 집단의 기반 LLM이 서로 달랐다는 점이다. 실험집단과 비교집단이 같은 모델 위에서 프롬프트 전략만 달랐다면 소크라테스식 질문의 효과를 더 깨끗하게 볼 수 있었을 것이다. 그러나 모델 자체가 다르면, 결과 차이가 질문 전략 때문인지 모델 성능 차이 때문인지 완전히 분리하기 어렵다.
분석 단위의 문제도 남는다. 학습은 팀 단위로 이루어졌지만 일부 분석은 개인을 독립 관측치처럼 다룬다. 팀 프로젝트 수업에서 AI 튜터를 설계한다면 개인 피드백뿐 아니라 집단 수준의 스캐폴딩도 봐야 한다. 팀 안에서 누가 질문을 던졌는지, 어떤 관점이 채택됐는지, 합의가 어떻게 형성됐는지까지 성과의 일부다.
또 하나 중요한 공백은 스캐폴딩의 소거다. 스캐폴딩은 원래 지원을 점차 줄여 학생이 스스로 수행하도록 만드는 과정이다. AI가 6주 내내 같은 강도로 질문을 던진다면 학생이 스스로 질문하는 능력을 내면화했는지는 알 수 없다. 좋은 AI 튜터는 끝까지 붙어 있는 도구가 아니라, 학생이 스스로 질문할 수 있게 만든 뒤 서서히 물러나는 도구여야 한다.
나는 이 연구를 ZPD와 동적평가 관점으로 다시 읽을 수 있다고 본다. 학생의 현재 수준에 맞춰 질문 깊이를 조절하고, 반응을 보며 지원 강도를 바꾸는 구조는 사실상 적응형 스캐폴딩이다. 그렇다면 대학의 AI 튜터 설계는 “어떤 모델을 쓸 것인가”보다 더 구체적인 질문으로 내려와야 한다.
어떤 과제에서
어떤 사고를 촉진하고
어떤 질문을 던지며
어떤 증거로 성과를 확인할 것인가
이 질문에 답하지 못한 AI 도입은 도구 구축에 머문다. 반대로 이 질문을 수업, 교육과정 개편, 운영모델, 성과관리와 연결하면 AI 튜터는 대학 교육의 실행 구조를 바꾸는 장치가 될 수 있다.
결국 AI 튜터의 성과는 답변의 유창함이 아니라 학생이 남긴 사고의 흔적에서 확인되어야 한다. 대학이 AI를 수업에 넣는다는 것은 챗봇을 하나 붙이는 일이 아니다. 질문 체계를 설계하고, 그 질문이 학생의 사고와 산출물을 어떻게 바꾸는지 확인하는 일이다.
확인한 출처
- Xi, L., Zhang, Y., & Wang, Q. (2026). Investigating the effects of an LLM-based Socratic conversational agent on students’ academic performance and reflective thinking in higher education. Computers & Education. DOI: 10.1016/j.compedu.2025.105494