오픈슬롯사이트 지니의 o3 미니가 불특정 주제에 대한 설득력이 인간보다 앞선 것으로 나타났다. 그러나 아직 인간보다 조금 앞설뿐 초인적 성능을 과시하지는 못했다.
![o3-미니(o3-mini) [사진: 슬롯사이트 지니]](https://cdn.digitaltoday.co.kr/news/photo/202502/551793_516016_138.jpg)
[디지털투데이 슬롯사이트 지니리포터] 오픈슬롯사이트 지니가 챗GPT의 설득력을 미 온라인 커뮤니티 레딧의 사용자와 비교하는 실험을 진행했다.
3일(현지시간) IT매체 아스테크니카에 따르면 레딧의 '체인지마이뷰'(r/ChangeMyView)는 사용자가 잘못됐을 수 있다고 생각하는 의견을 게시해 문제에 대한 다른 관점을 이해할 수 있는 플랫폼이다. 여기에 380만명의 사용자가 정치, 경제에서 사회적 규범에 이르기까지 다양한 주제에 대한 수천 개의 제안을 게시했다.
오픈슬롯사이트 지니는 체인지마이뷰에서 임의로 선택한 인간 응답을 기준선으로 사용해 동일한 프롬프트에 대한 슬롯사이트 지니 생성 응답을 비교했다. 그 다음, 인간 평가자에게 슬롯사이트 지니와 인간이 생성한 주장의 설득력을 각각 5점 척도로 평가하도록 요청했다.
지난 2022년 GPT-3.5는 이 측정에서 백분위수 38%를 기록했는데, 지난해 9월에 발표된 o1-미니 추론 모델의 경우 77%까지 상승했다. o1 모델의 경우 80%대 후반까지 상승했고, 새로운 o3-미니 모델은 무작위 비교에서 인간보다 약 82% 더 설득력이 있는 것으로 평가됐다.
챗GPT의 설득 성능은 오픈슬롯사이트 지니가 '명백한 초인적 성능'이라고 부르는 백분위수 95%에는 여전히 미치지 못하지만, 이번 실험을 통해 o3-미니의 현재 성능은 일반적인 인간 작성 콘텐츠와 비교할 만한 설득력 있는 효과를 지닌 것으로 확인됐다는 설명이다.
관련기사
슬롯사이트 지니리포터
슬롯사이트 지니@d-today.co.kr