[사진: 슬롯 꽁 머니(Anthropic)]
[사진: 앤트로픽(Anthropic)]

[디지털투데이 슬롯 꽁 머니리포터] 앤트로픽이 슬롯 꽁 머니의 탈옥 저항성을 대폭 높이는 기술인 '입헌 분류자'(Constitutional Classifiers)를 발표했다.

슬롯 꽁 머니에서 탈옥은 프롬프트를 조작하거나 한 번에 많은 질문을 입력하는 방법이다. 대부분의 슬롯 꽁 머니 모델은 위험한 정보를 출력하지 않도록 학습되어 있지만, 탈옥을 통해 슬롯 꽁 머니 모델이 출력이 금지된 정보를 출력하도록 할 수 있다.

앤트로픽은 입헌 분류자를 개발하기에 앞서 무해한 것과 유해한 것을 정의하는 '헌법'을 작성한 후, 이를 슬롯 꽁 머니 모델 클로드에 입력해 다양한 탈옥 방법과 언어에 대응할 수 있는 분류기를 만들어냈다.

또한 입헌 분류자의 효과를 검증하기 위해 '인간 테스트'와 '자동 테스트'를 실시했다. 인간 테스트에서는 클로드 3.5 소네트에 이 기술을 적용한 후 참가자에게 보편적인 탈옥 방법을 찾는 과제를 부여했다. 탈옥 방법을 발견한 사람에게는 최대 1만5000달러의 포상금이 약속되었으나, 2개월 동안 발견되지 않았다.

자동 테스트에서는 1만개의 탈옥 프롬프트를 작성해 '기술을 적용하지 않은 클로드 3.5 소네트'와 '기술을 적용한 클로드 3.5 소네트'에 공격을 실행했다. 그 결과, 기술을 적용하지 않은 경우 86%의 성공률을 보였으나, 적용한 경우에는 4.4%로 감소했다. 이는 탈옥 공격을 95% 이상 차단한 것이다.

앤트로픽은 향후 입헌 분류자 기술을 개선해 슬롯 꽁 머니 모델의 계산 비용을 줄이는 데 임할 것이라고 밝혔다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지