아이올라의 스피치AI 기술, 용어 인식에 있어 오픈AI의 위스퍼를 능가
상태바
아이올라의 스피치AI 기술, 용어 인식에 있어 오픈AI의 위스퍼를 능가
  • 이성영 기자
  • 승인 2024.04.20 17:31
  • 댓글 0
이 기사를 공유합니다

아이올라 모델은 제조, 공급망과 물류, 제약 등의 산업 전반에 걸쳐 보고와 검사 수행을 위한 맞춤형 프로세스와 워크플로우 생성을 자동화한다

[글로벌신문]  음성 데이터를 캡처하여 비즈니스 업무흐름을 자동화하는 AI 기반 기술인 아이올라(aiOla)는 음성 인식 분야에서 중요한 성과를 발표했다. 새로운 키워드 탐지 모델을 기반으로 하는 아이올라의 솔루션은 산업별 전문용어를 이해하는 데 있어서 인간의 숙련도에 맞춰 발전해왔다. 특허를 받은 AdaKWS 모델은 키워드 탐지에서 95%의 정확도를 달성함으로써, 88%의 정확도에 도달하여 업계 최고였던 오픈AI의 위스퍼(Whisper) 모델을 능가했다.

키워드 탐지는 미리 정의된 단어와 구문을 감지하여 전문 용어를 식별하는 문제를 해결하는 음성 인식의 필수적인 측면이다. "택배가 파손된 채로 도착한 경우를 생각해 보세요. 택배기사는 그 상황을 설명하는 특정 코드와 약어를 사용하여 보고서를 제출해야 하는데, 이러한 코드와 약어가 키워드입니다. 업계 전문용어는 어디에나 존재하며, 많은 분야에서 작업자들이 하는 말의 절반까지 차지할 정도로 의사소통을 지배합니다"고 아이올라 CEO겸 공동설립자인 아미르 하라마티(Amir Haramaty)는 말한다. "키워드를 탐지하는 능력을 통해 택배 파손 보고서 제출부터 식품 제조 공장의 안전 검사 완료, 언어를 행동으로 전환하는 것까지 광범위한 산업 전반에 걸쳐 일상적인 프로세스를 자동화할 수 있습니다."

아이올라의 프로세스 자동화 애플리케이션은 액센트와 배경 소음에 관계없이 100개가 넘는 언어에서 음성, 전문용어 및 약어를 정확하게 이해할 수 있다. 아이올라는 최첨단 키워드 탐지 모델과 음성 인식 모델을 결합함으로써 이를 실현한다. 온보딩 프로세스는 단 몇 시간 만에 완료된다. 즉, 고객이 체크리스트 또는 양식의 예시를 제공하면, 아이올라가 사용 사례에 대한 맞춤형 언어 모델을 자동으로 생성한다. 그러면 작업자는 장비에서 눈과 손을 떼지 않은 채 아이올라 앱을 사용하여 구두로 작업을 완료할 수 있다. 희귀한 업계 용어를 높은 정확도로 탐지하는 아이올라의 탁월한 능력은 플랫폼으로 하여금 업무 프로세스와 관련된 음성과 일상 대화를 쉽게 구별할 수 있게 한다.

이 앱은 아이올라 과학자 팀이 개발한 독점 모델을 활용하여 음성 내에서 미리 정의된 키워드 목록을 인식한다. 이를 통해 아이올라 솔루션은 AI 모델을 재교육할 필요 없이 모든 산업의 전문용어에 즉시 적용할 수 있다. 16개 언어가 포함된 키워드 및 전문용어 감지 벤치마크에서 아이올라의 모델이 95%의 정확도를 달성한 반면, 위스퍼의 가장 큰 모델은 88%의 정확도를 기록했다. 또한 영어 오디오북에서 추출한 감지하기 어려운 키워드로 구성된 최근 벤치마크에서 아이올라의 AdaKWS가 95.1%의 정확도에 도달한 반면, 애플 연구팀의 CED 모델은 92.7%를 기록했다.

"키워드 탐지에는 특히 다양한 언어와 방언에 대한 학습 데이터의 부족으로 인해 상당한 어려움이 있습니다. 모델이 일상 대화에서 흔히 발견되지 않는 전문용어를 인식할 수 있도록 하려면 일반적으로 산업별 미세 조정이 필요합니다"고 아이올라 수석과학자인 조셉 케셰트(Joseph Keshet) 교수는 말한다. "우리 모델은 지속적으로 오픈AI 위스퍼 기준선을 큰 차이로 능가하여, 최고 성능의 기준선에 비해 상당한 개선을 이루었습니다. 더욱이 우리 모델은 15배나 적은 매개변수를 사용하여 훨씬 더 효율적입니다."


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사
이슈포토