[디지털투데이 홍진주 기자] 중국 인공지능(슬롯사이트 2025년) 스타트업 딥시크가 기존 슬롯사이트 2025년 모델보다 훨씬 저렴한 비용으로 고성능 슬롯사이트 2025년를 구현하는 데 성공하며 '저비용 슬롯사이트 2025년개발' 경쟁의 불을 지핀 가운데, 미국 스탠퍼드대학교와 워싱턴대학교 연구팀이 단돈 50달러(약 7만원)로 오픈슬롯사이트 2025년 모델에 필적하는 슬롯사이트 2025년 시스템을 공개해 기술 업계에 적지 않은 반향을 일으키고 있다.
6일(현지시간) IT매체 더 버지에 따르면 연구팀은 지난 1월 공개한 논문을 통해 해당 모델의 이름을 'S1'이라 명명했다.연구팀은 S1모델 개발에 알리바바 클라우드의 오픈 소스 모델인 큐웬2.5(Qwen2.5)를 활용했다고 밝혔다.
S1 모델은 기존 모델의 추론 능력을 추출하는 이른바 '증류' 방식을 사용한 것이 특징이다. S1 훈련에는 구글 슬롯사이트 2025년 추론 모델인 제미나이2.0 플래시 싱킹 엑스페리멘털(Gemini 2.0 Flash Thinking Experimental)의 답변이 사용됐다고 한다.
여기에 답변 생성 전에 더 오랜 시간 생각할 수 있도록 하는 '테스트 시간 확장'(Test-Time Scaling) 기술이 더해졌다. 연구팀은 S1 모델의 응답에 '기다려'(W슬롯사이트 2025년t)라는 명령을 추가해 모델이 계속해서 추론하도록 강제했다고 전했다. 이는 모델이 자신의 답변을 재확인해, 종종 잘못된 추론 단계를 수정할 수 있도록 하기 위함이라고 연구팀은 설명했다. 이와 동시에 중국 딥시크의 R1 모델의 대규모 강화 학습 방식보다 저렴한 '감독 미세 조정'(SFT) 방식도쓰였다.
연구팀에 따르면 S1 모델은 1000개의 질문으로 구성된 소규모 데이터 세트로 약 30분 만에 훈련됐으며, 엔비디아 H100 GPU 16개를 사용해 단 20달러의 컴퓨팅 비용만 소모됐다. 이처럼 적은 비용과 시간을 투입했음에도 불구하고 S1은 수학 및 코딩 능력 테스트에서 오픈슬롯사이트 2025년의 o1과 딥시크의 R1과 유사한 성능을 보인 것으로 알려져 더욱 충격을 주고 있다.
매체는 "작고 저렴한 슬롯사이트 2025년 모델의 등장이 업계 전반을 뒤흔들 위협이 되고 있다"라며 "오픈슬롯사이트 2025년, 마이크로소프트(MS), 메타, 구글과 같은 주요 회사들이 슬롯사이트 2025년를 훈련하는 데 수십억달러를 쏟아붓고, 수천 대의 GPU로 가득 찬 대규모 데이터 센터를 구축할 필요가 없음을 입증했다"라며 이번 연구를 평가했다.