Esta página está en construcción: perdonen los errores y temas inacabados.

This page is being developed: I am sorry for errors and unfinished subjects.

Síntesis de habla

Hay numerosos sistemas o métodos para sintetizar habla o palabra (speech synthesis). Vamos a describir uno muy simple que hemos implementado recientemente (diciembre de 2006)  aplicado a la modificación del tono de la voz en una señal (secuencia de números que almacenan un sonido y que lo reproducen al soltar esos números por un dispositivo conversor (digital analógico), en orden ,y velocidad (frecuencia de muestreo) adecuada.

Se trata de tomar un período de la parte sonora de la señal (la que suena con tono) y acortarlo o alargarlo para cambiar su tono; y esto momento a momento, siguiendo una curva de tono o melodía arbitraria; o sea, dibujada sobre un gráfico o imagen. Esa melodía se representa   en la ventana llamada de TONO, en nuestro sistema ADA (teoría en An_aadf_pitch_estimator), en su implementación PEA (ayuda PEA Ayuda). Y sobre la misma puede dibujarse otra, sintetizándose una nueva señal con el tono correspondiente a l nuevo curva de tono dibujada. Se representan ambas tramos de señal y se oyen, para compararlas.

Los problemas se presentan en los enlaces entre los nuevos períodos: al cortar la forma de onda del período original aparecen valores que no coinciden con los iniciales del nuevo período siguiente. aparecen discontinuidades que suenan como ruido de lata frecuencia.

Se trata pues de intentar suavizar esos enlaces.

Primer sistema

Nuestra solución por ahora es conseguir los periodos más largos que el original concatenado varios: pero para evitar que sigan sonando, al aparecer varios seguidos,

1. Se comienza el periodo a copiar por el primero paso por cero anterior al máximo positivo
2. Se invierte el segundo
3. Se van atenuando los sucesivos.

Por ejemplo, en la figura contigua, los períodos originales presentan dos picos por período, mientras que el sintetizado, abajo, presenta 3 El tercero se ha obtenido del mismo invirtiendo y reduciendo.

Oiga original y sintetizado

Para evitar que los períodos sucesivos copiados no sean parecidos (fuente de sensación de tono) , se selecciona sólo al principio del tramo sonoro y luego se va avanzando sobre la señal originan de período en período sincronizándose con la sintetizada. Véase Señales pseudoperiódicas y frecuencia instantánea.

Como la sintetizada emplea períodos diferentes, generará más periodos que la original si son cortos (agudos) y menos si largos (graves); hay que mantener pues un control de la duración para que sea igual ( o casi ) que el tramo original correspondiente. Ello se consigue sumando la duración período a período e intentando --con error menor que medio período-- la sincronización de ambas señales. Más abajo variamos esa relación para dar cabida  variaciones de velocidad fijas, para toda la señal, o locales, para tramos de ella.

El sistema, pese a su simplicidad, funciona bastante bien.

No obstante subsisten discontinuidades que causan ruido en los tonos bajos (más bajos que original- veamos si las solventamos en el siguiente método.

Segundo sistema

Se basa en obtener una aproximación suficiente a la forma de onda de una período de baja frecuencia. es como la respuesta aun impulso o vibración unitaria de la glotis. Para cualquier frecuencia de vibración de esta sumaremos esa respuesta individual a intervalos iguales a los periodos correspondientes.

La forma de onda descrita se obtiene concatenando varios períodos de la señal original pero atenuándolos progresivamente. Este sencillismo método consigue un contenido harmónico similar, ya que el rizado correspondiente a cada formante se mantiene en la señal compuesta. Y la atenuación evita cualquier persistencia del período original; además genera una cola o fin del período sintetizado de baja amplitud, lo que no ocasiona apenas una discontinuidad cuando acaba su composición (suma en la señal compuesta de varios periodos sintetizados. Eligiendo además un valor nulo o casi ante el máximo del periodo original tampoco ocasionamos grandes discontinuidades al principio de la suma del periodo ampliado.

En definitiva, una señal de periodo arbitrario pero de timbre simular, muy similar, al original.

Hemos cambiado pues el tono a voluntad.
 
Véanse dos periodos ampliados sin inversión

 
Nuestra solución por ahora es conseguir los periodos más largos que el original concatenado varios: pero para evitar que sigan sonando, al aparecer varios seguidos,
1. Se comienza el periodo a copiar por el primero paso por cero anterior al máximo positivo
2. Se concatena el segundo atenuado a la mitad
2. Se concatena el tercero atenuado a un cuarto
4. Se suman esos períodos largos a intervalos de periodo nuevo si es sonoro el tramo
5. Se suma sólo un periodo original a intervalos iguales en sintetizada: se copia el tramo sordo idénticamente.

Vea ejemplo

Oiga un ejemplo sin suavizar: 'alimentos' original y sintetizada

Tercer sistema

Es una variación del segundo que consiste en atenuar también progresivamente, pero no sólo cada período concatenado, sino atenuar incluso dentro del periodo: la atenuación depende de la distancia, del intervalo al principio.

Comparación entre los tres sistemas

Van bien los tres. El segundo funciona muy bien, con poco ruido. Preferible quizá al primer sistema. El tercero es quizá genera onda más suave, pero las diferencias son pequeñas, en todo caso.

Se conserva intensidad y timbre locales, mientras que el tono cambia.

Aplicaciones

Se ha cambiado la entonación del habla en las siguientes modalidades.

Acento
Sintaxis.
Modalidad. Oiga '¿has venido hoy?? pregunta original convertida en afirmación simple, y afirmación enfática.
Talante Oiga 'oye' saludo juguetón y aviso reconvención
Sexo

El sistema se revela utilísimo para conocer todos los aportes a la entonación, sintetizándolos uno por uno y preguntando a los oyentes qué oyen.

Desarrollos futuros inmediatos

También puede cambiarse la intensidad, el tono (cambio general) y la velocidad del habla..Las tres han sido efectuadas.

Incluso podemos aumentar la articulación subiendo la intensidad de los tramos sonoros.

Los cambios anteriores pueden también realizarse localmente, mediante curvas de velocidad, de intensidad y de tono, esta ya efectuada. Incluso la cantidad para probar asimismo cambios.

Seguimos en

Síntesis de habla_2 (cambio de sexo)
Síntesis de habla_3 (cambio de talante o expresividad)
Síntesis de habla_4, (música)
Síntesis de habla_5 (para síntesis independiente (sin frase natural previa). 
Sintesis de habla_6. (la interpolación entre alófonos)
Sintesis de habla_7  (oclusivas)
 

Vuelta al Principio    Última actualización: sábado, 15 de marzo de 2014    Visitantes: contador de visitas