No es una forma "agradable" de hacerlo, pero puede hacer algunas muestras, tal vez a partir de 120 ppm, y compararlas con una grabación de control de la velocidad "predeterminada" (obviamente, con todas las grabaciones usando la misma voz y texto). Para mayor precisión, puede cargar los archivos en cualquier aplicación de edición de audio básica y ver las formas de onda para comparar realmente la velocidad de una grabación y otra. No puedo imaginar que tomaría demasiado tiempo reducirlo. Lo haría yo mismo si tuviera tiempo ahora.
De forma alternativa, puede obtener algunas muestras de texto de longitudes conocidas (por ejemplo, 100 palabras, 200 palabras, etc.), grabar la voz y hablarlas todas en la configuración predeterminada, luego usar las duraciones para calcular el wmp promedio de todas las grabaciones . Con suficientes muestras, estoy seguro de que te acercarás.
EDITAR: Siguiendo el primer procedimiento que describí anteriormente, encontré que la frecuencia de voz predeterminada de Alex (la voz predeterminada) es exactamente 175 palabras por minuto .
A las velocidades predeterminadas y de 175 wpm, las dos formas de onda coinciden perfectamente.