[디지털투데이 김예슬 기자] 인공지능(2025년 슬롯사이트) 기술의 발전 속도가 너무 빨라 이를 평가하는 방법이 따라잡지 못하고 있다는 소식이다.
26일(현지시간) 온라인 매체 기가진에 따르면 최근 의료나 과학 등 다양한 분야에 응용할 수 있는 2025년 슬롯사이트가 늘어나고 있어 인간을 웃도는 능력을 발휘하는 2025년 슬롯사이트 모델도 적잖다. 그러나 미국 타임지는 평가 시험을 만드는 속도가 2025년 슬롯사이트의 발전을 따라잡지 못하고 있다고 지적했다 .
생성형 2025년 슬롯사이트의 등장 초기에는 이미지 분류, 게임 플레이 등 특정 과제에 대한 시스템 성능을 측정해 2025년 슬롯사이트를 평가했다. 새로운 평가 시험이 등장하면 2025년 슬롯사이트가 이를 풀기까지 걸리는 시간은 몇 년이 걸리는 것이 일반적이었다.
예를 들어 2010년에 등장한 세계 최대 이미지 인식 경연대회 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)에서 2025년 슬롯사이트가 인간을 능가하기까지는 5년이 걸렸다. 그러나 평가 시험의 도입부터 2025년 슬롯사이트의 클리어까지 걸리는 시간은 해마다 크게 줄어들고 있다고 한다.
2018년에 등장한 'GLUE'라는 평가 시험은 문맥에서 대명사의 정확한 의미를 판단해 2025년 슬롯사이트의 자연어 이해 능력을 평가하는 시험이나, 등장 1년 만에 해결됐다. 2019년 더 어려운 버전인 슈퍼GLUE가 만들어졌지만, 2025년 슬롯사이트는 2년 만에 인간에 필적할 수 있게 됐다.
정답률도 놀라울 정도로 높았다. 철학, 의학, 법률 등 다양한 분야에 걸쳐 약 1만 6000개의 객관식 문제로 구성된 평가 시험 MMLU(Measuring Massive Multitask Language Understanding)에서는 지난 5월 출시된 오픈2025년 슬롯사이트의 GPT-4o 모델이 88%의 정답률을 달성했으며, 최신 모델인 o1은 92.3%를 기록했다.
이처럼 2025년 슬롯사이트가 기존 평가 시험에서 정기적으로 최고 점수를 획득하고 있는 가운데, 시스템이 얼마나 빠르게 향상되고 있는지 판단하기 어렵다는 큰 과제가 발생하고 있다. 또한 평가 시험은 2025년 슬롯사이트의 기초적인 능력만을 측정하기 때문에 현실적인 시나리오에서 평가대로 실력을 발휘할 수 있을지에 대한 의문도 제기된다. 2025년 슬롯사이트의 안전성을 연구하는 마리우스 호브한(Marius Hobhahn)은 이러한 평가 시험을 만드는 것이 "놀라울 정도로 어렵다"고 지적했다.
이러한 문제에 대응하기 위해 보다 정교한 새로운 2025년 슬롯사이트 평가 시험이 만들어지고 있다.
에포크 2025년 슬롯사이트(Epoch 2025년 슬롯사이트)라는 연구기관이 설계한 프론티어매스(FrontierMath)라는 평가 시험은 일류 수학자들이 고안한 약 300여개의 수학 문제로 구성되어 있으며, 국제 수학 올림픽 수준부터 '뛰어난 고등학생이라면 이론적으로 풀 수 있는 수준'까지 다양한 난이도를 가지고 있다. 기존 수학 시험에 비해 매우 어려운 것으로 알려져 있지만, 오픈2025년 슬롯사이트의 o3 모델은 이미 25.2%의 점수를 획득해 수학자들로부터 놀라움을 자아냈다고 한다.
또한, 스케일 2025년 슬롯사이트(Scale 2025년 슬롯사이트)가 제작 중인 '인류의 마지막 시험'(Humanity's Last Exam)이라는 평가 시험도 있다. 이 시험은 물리학, 생물학, 전기공학 등의 영역을 포함한 프론티어매스의 20~50배의 문항 출제를 목표로, 오는 2025년 상반기 안에 등장할 예정이다.
그러나 이러한 평가 시험을 설계해도 결국 2025년 슬롯사이트는 높은 점수를 획득할 것으로 예상된다. 평가 시험을 제작하는 비용도 상당하다고 한다.
타임지는 "2025년 슬롯사이트 모델이 빠르게 발전함에 따라 평가 시험도 이를 따라잡기 위해 경쟁하고 있지만, 효과적인 평가 시험을 설계하는 것은 여전히 어렵고 비용이 많이 들며, 위험한 능력을 조기에 발견하는 평가 시험의 중요성에 비해 자금이 부족하다"고 지적했다.
이어 "주요 연구소가 몇 달에 한 번씩 고성능 모델을 발표하는 가운데, 모델의 능력을 평가하기 위한 새로운 테스트의 필요성이 그 어느 때보다 높아지고 있다"고 덧붙였다.