Transcripción de voz - ¿Cuál es la precisión de la transcripción de voz y cómo aumentarla?

Diversos factores pueden afectar a la precisión de la transcripción. Para obtener más información, consulte Mejora de la precisión de la transcripción. La transcripción de voz nativa de Genesys Cloud tiene un nivel de precisión similar al de otros proveedores de transcripción.

Después de abordar todos los factores que pueden afectar negativamente a la precisión, puede utilizar la gestión de diccionarios para mejorarla.

La gestión de diccionarios permite mejorar el reconocimiento de términos empresariales o específicos de un dominio. Las marcas, palabras o siglas específicas se transcriben en función de las particularidades de la organización. Esta función permite a los clientes añadir términos al diccionario, lo que aumenta la probabilidad de reconocimiento del servicio de transcripción. Para obtener más información, consulte Entender la gestión de diccionarios.

La gestión de diccionarios no interfiere con la localización de temas. La localización de temas admite dialectos nativos de transcripción de voz. Para obtener más información, consulte Idiomas compatibles con Genesys Cloud .

Realice lo siguiente para mejorar la precisión en la localización de temas.

  1. Agregar el término para los lista de frases dentro de una nuevo o existente tema.
  2. Verificar los específico el tema se agrega a la lista de temas del programa utilizado para transcribir las interacciones.
 Nota: Los temas reconocidos debido a la gestión del diccionario aparecen in la transcripción cuando se visualizan en la página Detalles de la interacción.

Los índices de precisión de la transcripción pueden variar significativamente con el centro de contacto en función de la calidad del audio, la claridad del discurso y la formación adicional proporcionada a través de temas.

La precisión de la transcripción de voz suele medirse mediante Word Error Rate (WER). La WER identifica el número de palabras que se transcriben incorrectamente durante la transcripción de voz y divide este número por el número de palabras de una transcripción manual. 

Hay tres tipos de errores.

  • Inserción (I): Cuando se añaden palabras incorrectas a la transcripción.
  • Supresión (D): Cuando no se detectan palabras en la transcripción.
  • Sustitución (S): Cuando se sustituyen palabras irrelevantes.

Se suman y se dividen por el número total de palabras de la transcripción manual (N). 

A continuación, se calcula la WER con la siguiente ecuación:

Ecuación WER

Transcripción manual: Hoy hace sol y está precioso.

Posibles resultados de la transcripción de voz: El jueves hace un sol precioso.

El resultado del reconocimiento de voz ha sido erróneo:

S = 1 ("jueves" en lugar de "hoy")

D = 1 ( falta "y")

I = 1 ("a" se añade)

N = 5 palabras

En este caso, la WER es del 60%.

En los idiomas basados en caracteres, se utiliza una "tasa de error de caracteres" en lugar de la WER.

Para obtener más información, consulte Mejorar la precisión de la transcripción, y Trabajar con una frase.