Vosk: un ASR gratuito, libre

Vosk es el motor, una aplicación escrita en Python y basada en redes neuronales que reconoce palabras en varios idiomas (según el diccionario que se cargue) y que funciona de forma independiente (no requiere conexiones a otros sistemas) por lo que instalas el servidor, cargas el diccionario del idioma que deseas, lo ejecutas y ya está el puerto listo para enviarle audio y que el motor lo convierta a texto.

Instalación Servidor

La instalación del servidor no puede ser más sencilla:

Ejecutamos este docker que corre en background y nos abre el puerto 2700 para que nos conectemos vía websocket y enviarle el audio.

Conectándonos al servidor Vosk

Luego tan solo hay que descargar un cliente websocket para enviarle el archivo wav (formateado a 8Khz y mono)

Si no funciona debemos instalar:

Python 3.9

Actualizar PIP

Instalar nuevamente

 

Cliente Asterisk para conectar el ASR de Vosk

La gente de AlphaCep ha publicado un módulo para Asterisk, FreeSwitch y Jigasi (el módulo que utiliza Jitsi)

https://github.com/alphacep/vosk-asterisk

Si los archivos no los copia en la carpeta adecuada, hacemos lo siguiente:

De esta manera, podéis utilizar el reconocedor de audio directamente desde el Dialplan de Asterisk:

Eso sí, nos avisan en varios sitios que el sistema de reconocimiento requiere de un sistema potente, ya que consume bastante memoria y procesador cada vez que tiene que hacer un reconocimiento, pero eso es algo común en cualquier ASR hospedado por nosotros, así que a tenerlo en cuenta si queremos instalarlo en nuestro sistema de comunicaciones.

Toda la información en la página de Vosk: https://alphacephei.com/vosk/
Su página para estar al día: https://alphacephei.com/en/news.html
Y la guía para configurarlo en Issabel: https://t.me/Issabel_channel/4

Deja una respuesta