한국, 수능시험 영어 2등급
미국, 의사.로스쿨 시험 합격..그러나 수능 수학 낙제

챗GPT수능도전, 출처 : 한국대학신문
챗GPT수능도전, 출처 : 한국대학신문

미국 의사면허 시험, 로스쿨(법학전문대학원)· MBA(경영전문대학원) 시험까지 통과한 챗봇 AI(인공지능) ‘챗GPT’가 한국 수능을 보면 어떤 결과가 나올까? 챗GPT가 3월이면 대학 입학을 앞둔 새내기들이 지난해 치렀던 ‘2023학년도 대학수학능력시험 문제’를 풀기도 했다. 

연일 화제를 모으고 있는 챗GPT(챗GPT)에 큰 기대를 모았다. 언어영역에서는 준수한 실력을 보였지만, 우리나라 대학수학능력시험 수리영역에서는 낙제점을 받아 주목된다.

'챗GPT'가 장문을 요약하고 다음 상황을 추론하는 언어영역에선 준수한 실력을 보였지만, 수리 영역에선 요즘 초등학생도 풀 수 있는 두자릿수 곱셈도 틀리며 연산 능력에 한계를 보였다. 챗GPT는 방대한 데이터를 학습해 결과를 추론하고 제시하는 생성AI 모델이라, 답이 정해져 있는 여러 숫자의 조합으로 이뤄진 수학 문제를 푸는 것은 아직 무리가 있는 것이다. 

2월 6일 애나와 연세대학교 인공지능대학 김시호 교수 연구팀이 실제 수능 문제를 통해 챗GPT의 실력을 측정한 결과, 영어는 2등급으로 준수했지만 수학은 9등급으로 낙제점을 받았다. 

이 실험은 2023학년도 수능 문제에서 그림이 포함돼 문항의 입력이 불가능한 경우를 제외하고 문제 전체를 입력하고 답을 확인하는 방식으로 진행했다. 

실험 결과에 따르면 영어 수능 시험에서 듣기 평가의 경우 16문제 중 14문제, 독해 평가는 17문제 중 13문제에 정답을 맞혀 합산 점수 82점을 취득했다. 수능 2등급 수준의 능력이다. 문단에 함축된 의미 추론, 요지 파악, 글의 목적과 주제 파악 등 난이도가 높은 문제에서는 모두 정답을 맞혔다.

수능 외국어 영영 챗 gpt답변, 출처 : 주식회사 애나, 연세대 연구팀
수능 외국어 영영 챗 gpt답변, 출처 : 주식회사 애나, 연세대 연구팀

 

AI, 전문가들 "수학적 언어 아직 완벽하게 이해 못 해"

수학 시험에서는 상반된 결과가 나왔다. 공통 과목 분야에서는 20문제 중 6문제의 정답을 맞췄다. 특히 확률과 통계, 미적분학, 기하 분야의 문제는 전부 오답을 출력해 챗GPT의 수학 능력은 아직 현저히 부족한 것으로 나타났다. 기계학습 방법으로 수학을 배우는 챗GPT의 연산 능력은 한 자리 숫자의 곱셈 정도는 풀지만 두 자리 숫자의 곱셈에서 오답을 낼 정도로 정확도가 떨어진다. 

챗GPT는 수학뿐만 아니라, 일상적인 대화에서도 때때로 잘못된 정보를 제공하며 신뢰성과 정확성에 의문부호를 남기고 있다. 이는 챗GPT의 개발사 오픈AI에서 생성AI 개발을 이끄는 미라 무라티 오픈AI 최고기술책임자(CTO)도 인정하는 부분이다. 무라티 CTO는 5일(현지시간) 미국 타임지와의 인터뷰에서 "챗GPT는 다음에 나올 단어를 AI가 예측하도록 훈련됐다”며 "다른 언어형 AI 모델과 마찬가지로 챗GPT도 없는 사실을 지어낼 가능성이 있다는 한계가 있다”고 인정했다.

구글로고 vs MS로고, 합성출처 : 픽사베이
구글로고 vs MS로고, 합성출처 : 픽사베이

 

세계 1위 포털에 도전장...

 한편 CNN비즈니스, BBC 등 복수 외신에 따르면 구글은 지난 6일(현지시간) 전 세계적으로 주목받는 챗GPT의 대항마가 될 AI챗봇 ‘바드’ 출시 계획을 공식 발표했다. 마이크로소프트(MS)사의 지원을 받는 대화형 AI 챗GPT가 급부상하면서 위협을 느낀 모양새다.

순다르 피차이 구글 최고경영자(CEO)는 블로그 게시물을 통해 AI챗봇 바드를 신뢰할 수 있는 테스터들에게 공개한 뒤 수주 안에 대중에게 공개하겠다고 밝혔습니다. 그는 "세계 지식의 폭을 우리의 대규모 언어 모델의 힘, 지능, 창의성과 결합하고자 한다"며 "곧 웹에서 더 많은 정보를 얻을 수 있을 것"이라고 강조했습니다.

 

 

저작권자 © 캐플경제 무단전재 및 재배포 금지