카카오, 통합 멀티모달 언어모델 ‘카나나-o’ 성능 공개

마이데일리
카카오가 통합 멀티모달 언어모델 ‘카나나-o’와 오디오 언어모델 ‘카나나-a’의 성능과 개발 후기를 공개했다. /카카오

[마이데일리 = 박성규 기자] 카카오가 통합 멀티모달 언어모델 ‘카나나-o’와 오디오 언어모델 ‘카나나-a’의 성능과 개발 후기를 공개했다고 1일 밝혔다.

카나나-o는 국내 첫 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 모델이다. 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다.

카카오는 모델 병합 기술을 기반으로 이미지 처리에 특화된 모델 ‘카나나-v’와 오디오 이해 및 생성에 특화된 ‘카나나-a’ 모델을 통합, 단기간 내 효율적으로 카나나-o를 개발했다.

통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 병합 학습을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 통합 훈련을 거쳤다. 이러한 과정을 통해 기존 LLM 구조에서 이미지 이해 능력과 음성 인식과 합성, 감정 이해 등 고도화된 오디오 능력을 확장시킨 통합 멀티모달 언어모델이 구현됐다.

이러한 개발 과정을 거친 카나나-o는 음성 감정 인식 기술을 통해 사용자의 의도를 올바르게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공해준다.

대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영하기도 했다. 스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 제공하는 강점도 보유했다.

카나나-o는 한국어 및 영어 벤치마크에서 글로벌 최고 모델들과 유사 수준을 기록했으며, 한국어 벤치마크에서는 높은 우위를 보였다.

카카오는 향후 카나나-o를 통해 △다중 턴 대화 처리 △양방향 데이터 동시 송수신 기술 대응 능력 강화 △부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속해 갈 계획이다.

김병학 카카오 카나나 성과리더는 “독자적인 멀티모달 기술을 바탕으로 자사 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획”이라고 말했다.

Copyright ⓒ 마이데일리 무단 전재 및 재배포 금지
alert

댓글 쓰기 제목 카카오, 통합 멀티모달 언어모델 ‘카나나-o’ 성능 공개

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중