오픈AI의 생성형 인공지능(AI) 챗GPT에게 2026학년도 대학수학능력시험 국어 영역을 풀게 한 결과, 지시(프롬프트) 방식에 따라 등급이 달라지는 것으로 나타났다.
21일 진학사는 '챗GPT 5.1 Auto 모드'에 올해 수능 국어 영역(홀수형)에 나온 공통과목(1~34번)과 선택과목(화법과 작문, 언어와 매체 각 35~45번)을 이미지로 제공했다. 이후 ▲정답만 요구한 A 방식 ▲문항 세트별 PDF 제공 후 정답만 요구한 B 방식 ▲세트별 PDF 제공과 함께 단계별 풀이를 요구한 C 방식 등 세 가지 방식으로 답을 요구했다.
ⓒ진학사 블랙라벨사업부
먼저 A 방식에서는 GPT가 최소한의 추론만 수행했다. 점수는 공통 3점, 화법과 작문(이하 화작) 5점, 언어와 매체(이하 언매) 4점으로 매우 낮았다. '공통+화작'은 8점, '공통+언매'는 7점으로 모두 9등급 수준이었다.
문항 세트별 PDF를 제공한 B 방식에서는 공통 39점, 화작은 14점, 언매는 6점으로 점수가 A 방식보다 크게 올랐다. '공통+화작'은 53점(5등급), '공통+언매'는 45점(6등급)으로 중위권 성적을 보였다. 다만 여전히 얕은 추론 단계에 머물렀다.
마지막 세트별 PDF 제공과 함께 단계별 풀이를 요구한 C 방식에서는 성능이 크게 향상됐다. 지문과 선지를 읽고 서로 의미를 비교하고, 지문에서 근거가 되는 내용을 확인하라고 요구하자 공통 74점, 화작은 21점, 언매는 14점을 기록해 총점 95점(1등급)이 나왔다. 다만 B 방식에서 맞힌 문항을 C 방식에서는 오히려 틀리는 경우도 있었다.
진학사 관계자는 "GPT가 정밀한 절차를 따르는 과정에서 판단 경로가 예상치 못하게 바뀌거나 제시된 근거를 과도하게 복잡하게 해석해 오류가 발생한 것으로 보인다"고 설명했다.
진학사 블랙라벨사업부 관계자도 "AI는 높은 지능을 갖고 있지만 지시를 정교하게 이해하는 능력은 아직 충분하지 않은 만큼 사용자 프롬프트 설계가 성능 차이를 만드는 핵심 요소"라고 강조했다.
0
0
기사 공유
댓글
댓글 쓰기