[디지털투데이 바카라 토토리포터] 일본어 대규모 언어모델(LLM)의 성능을 평가하는 '오픈 일본어 LLM 리더보드'가 공개됐다.
26일(현지시간) 온라인 매체 기가진에 따르면 오픈 일본어 LLM 리더보드는 16종류 이상의 자연어처리(NLP) 태스크를 활용해 일본어 LLM의 성능을 평가하고 분석하는 플랫폼이다. 이는 국립정보학연구소 등 일본어 LLM 자동 평가 도구인 'llm-jp-eval'을 활용해 그 성능을 평가하는 방식이다.
일본어는 히라가나, 가타카나, 한자, 로마자 등 4종류의 표기가 혼재되고 단어와 단어 사이에 공백을 넣지 않아 토큰화가 어렵다고 한다. 이에 일본에서는 자연어 처리 특성을 도입한 일본어 LLM이 개발되고 있지만, LLM을 비교할 수 있는 일원화된 오픈 시스템이 존재하지 않아 어려움을 겪었다는 것.
이에 따라llm-jp는 허깅 페이스(Hugging Face)와 협력해 연구의 투명성을 높이고 오픈소스 모델 개발 정책을 장려하기 위한 오픈 일본어 리더보드를 구축했다고 한다.