액션파워(공동대표 조홍식 이지화)가 기록관리 인공지능(AI) 서비스 ‘다글로’의 성능을 개선한 업데이트를 실시했다고 26일 밝혔다.
다글로는 30만 이상의 회원에게 회의, 통화, 강의 영상을 텍스트로 변환하고 정리해주는 서비스다. 이번 모델 업그레이드를 통해 업계 최고 수준의 성능으로 끌어올렸다는 설명이다.
성능 개선 핵심은 크게 세 가지다. 우선 STT(스피치 투 텍스트) 모델 자체의 크기를 확대, 음성인식 정확도를 100%에 가깝게 개선했다고 전했다.
또 VAD(음성 감지) 기능을 높여 여러 사람의 대화에서도 목소리를 정확하게 분리해 낸다. 마지막으로 숫자와 영어 발음까지 명확하게 표시하도록 함으로써 텍스트 변환에 가독성까지 높인 결과를 도출한다.
이로써 다글로는 한국어와 영어 음성변환이 모두 최고 수준인 동시에 정교한 화자 분리까지 지원하게 됐다는 설명이다.
액션파워는 다른 음성변환 서비스와의 가장 큰 차별점은 '멀티모달' 지원이라고 밝혔다.
즉 영상 파일을 업로드하거나 유튜브 링크를 붙여 넣으면, 바로 영상의 음성을 원고로 생성한다. 또 크롬 확장 프로그램으로 다글로를 설치, 유튜브 영상을 시청하면서 바로 다글로로 텍스트 변환을 시작할 수 있다. 긴 영상에서 빠르게 중요한 부분만 파악하고 싶거나 강의 영상을 원고로 함께 보기 원하는 사용자들이 선호하는 기능이라고 전했다.
또 변환 결과는 일반 문서 파일뿐 아니라 자막 파일로도 다운로드할 수 있다. 상반기 마지막 업데이트 예정인 기능은 통화 내용을 바로 텍스트로 변환하고 보여주는 것이다.
이지화 액션파워 공동대표 겸 CTO는 “AI는 인간의 시간과 노력을 아껴준다는 점에서 가치가 있다. 신기하고 재미있는 유행이 아니라, 진짜로 사람에게 도움이 되는 기술에만 집중하고 있다"며 "감당할 수 없이 많은 정보와 대화들이 오가는 이 세상에서 다글로가 제공하는 ‘정리’라는 가치는 그래서 중요하다”고 강조했다.
또 "사람이 손대지 않아도 대화와 영상, 음성 기록이 알아서 정리되는 것이 다글로의 지향점"이라며 "다글로를 일상을 위한 진짜 ‘AI 조수’로 성장시키겠다"고 말했다.
더불어 개발 막바지 단계인 자체 대형언어모델(LLM) 상용화에 집중하고 있다고 밝혔다. 이를 통해 현재 원고를 생성하고 키워드를 뽑아주고 요약을 해주는 다글로를 업그레이드, 앞으로는 회의 후 실행할 일들과 다음 일정까지 정리해서 알려주고 영상에서는 가장 많이 시청된 부분만 따로 뽑아서 요약해 주는 기능까지 더할 예정이다.