[AI가 교사의 채점을 도울 수 있나: 학습 평가에서 AI의 역할에 대한 연구]
※ Digital Promise의 후원으로 Solutions Studio 팀에서 작성한 기사
- 학생 과제를 채점하고 피드백을 제공하는 데 걸리는 시간 때문에 많은 교사가 더 긴 작문 과제를 배정하지 못하고, 대부분의 학생이 성적과 피드백을 받기까지 많은 시간을 기다려야 함.
- 따라서 AI가 학생 과제 채점을 돕는다면 상당한 시간 절약과 학습 잠재력이 있을 것으로 생각할 수 있음.
- 그렇다면 AI 채점 및 피드백 시스템이 교사만큼 학생들에게 큰 도움이 될 수 있을까?
- 연구는 중학생들이 미리 선별된 글쓰기 프롬프트에 따라 논증 에세이의 초안을 작성하고 제출하고 수정할 수 있는 AI 플랫폼에 대한 평가를 실시함.
- 학생들이 '제출'을 클릭할 때마다 4가지 작문 영역('주장 및 초점', '지원 및 증거', '조직', '언어 및 스타일')에서 숙련도 점수(1~4점)와 관찰 및 개선 제안을 제공하는 차원별 코멘트를 받았는데, 이 모든 것은 학생들이 제출하는 즉시 AI가 생성한 것이었음.
- AI 점수와 피드백을 실제 교사의 점수와 비교하기 위해 2021-22학년도 동안 학생들과 함께 플랫폼을 사용한 경험이 있는 중학교 작문 교사 16명이 연구에 참여함.
- 점수와 제안을 확실하게 이해하고 적용할 수 있도록 프로젝트 루브릭을 함께 보정한 후, 각 교사에게 자신의 학생이 아닌 10개의 무작위 에세이를 배정하여 채점하고 피드백을 제공함.
* 교사의 점수는 AI가 부여한 점수와 어떻게 비슷하거나 달랐나?
- 평균적으로 교사가 AI보다 에세이 점수를 낮게 매긴 것으로 나타났으며, '주장 및 초점'을 제외한 모든 차원에서 유의한 차이가 있었음.
- 4개 차원(최소 4점, 최대 16점)에 대한 전체 점수에서 160개 에세이에 대한 교사의 평균 점수는 7.6점인 반면, 동일한 문제 세트에 대한 AI의 평균 점수는 8.8점이었음.
* 교사가 작성한 코멘트는 AI가 작성한 코멘트와 어떻게 비슷하거나 달랐나?
- 16명의 교사는 작성한 10개의 에세이에 대한 점수와 피드백에 대해 모여서 토론하였음.
- 공통적 의견은 전년도에 교실에서 이 프로그램을 사용했을 때 대부분의 학생들이 AI가 제공한 코멘트를 읽고 해석하는 데 도움이 필요하다는 것이었음. 예를 들어, 많은 경우 학생들이 댓글을 읽기는 하지만 글쓰기를 개선하기 위해 무엇을 하라는 것인지 잘 모른다고 보고함.
- 또 다른 차이점은 교사들이 에세이의 흐름, 목소리, 단순한 요약인지 아니면 논거를 구축했는지, 증거가 논거에 적합한지 또는 전체적으로 말이 되는지 등 에세이 전체에 초점을 맞춘다는 점임.
- 구성에 대한 교사들의 더 엄격한 평가는 AI와 달리 전체 에세이의 순서와 흐름을 파악할 수 있는 능력에서 비롯됨.
- 언어 및 스타일 영역에서 교사들은 겉으로 보기에 정교해 보이는 어휘를 여러 개 포함시키는 등 AI를 속이기 쉬운 방법을 지적했는데, 이는 AI에게는 좋게 평가되지만 교사에게는 문장이나 아이디어를 구성하지 못하는 단어로 보일 수 있음.
* AI가 교사의 채점을 도울 수 있나?
- 학생의 과제를 잘 평가하는 것은 시간이 많이 걸리는 매우 중요한 요소임. 학생은 빠른 피드백과 함께 꾸준한 연습이 필요하지만, 대부분의 교사들은 계획 및 채점 시간이 부족함. 이러한 부담을 덜어줄 수 있는 AI의 가능성은 잠재적으로 매우 중요함.
- 이 연구의 결과에 따르면 교사와 AI는 평가에 접근하는 방식이 약간 다르지만, AI 시스템이 교사처럼 에세이를 보다 총체적으로 보고 학생이 독립적으로 의견을 처리할 수 있도록 발달과 맥락에 적합한 방식으로 피드백 언어를 만들도록 훈련할 수 있다면 AI가 교사의 채점을 돕는 잠재력이 있다고 판단할 수 있음.