Introduccion a los conceptos de voz de IA

1

Tema 0 Bases para entender voz: lenguaje, sonido y probabilidad Antes de estudiar reconocimiento y sintesis, conviene ubicar los conceptos que aparecen debajo de la superficie: grafemas, fonemas, prosodia, senales de audio, frecuencia de muestreo, caracteristicas acusticas y probabilidades.

Idea central

La voz se procesa como una combinacion de lenguaje y senales: el audio se vuelve numeros, los numeros se vuelven caracteristicas y los modelos eligen la interpretacion mas probable.

Como reconocerlo en examen

No necesitas resolver formulas, pero si entender que la voz se convierte en datos numericos.
Distingue grafemas como unidades escritas y fonemas como unidades sonoras.
Recuerda que los sistemas de voz comparan hipotesis probables, no trabajan con certeza absoluta.

Ruta de trabajo

De la voz al significado

01

Onda

La voz empieza como sonido en el tiempo.

02

Numeros

El microfono convierte la senal en muestras digitales.

03

Rasgos

Se extraen caracteristicas utiles para el modelo.

04

Lenguaje

El contexto ayuda a convertir sonidos en palabras.

05

Hipotesis

La IA elige la interpretacion mas probable.

Profundizacion

Detalles que vale la pena retener

Lenguaje

Grafemas y fonemas

Los grafemas son letras o unidades escritas; los fonemas son sonidos minimos. La sintesis necesita decidir como se pronuncia lo escrito y el reconocimiento necesita mapear sonidos a palabras.

Sonido

Audio como senal

La voz empieza como una onda sonora. El microfono la digitaliza en muestras numericas que luego pueden limpiarse, analizarse y transformarse.

Caracteristicas

MFCC y patrones acusticos

Representaciones como MFCC resumen partes relevantes del habla para que el modelo no procese toda la onda cruda muestra por muestra.

Probabilidad

Elegir la mejor hipotesis

El sistema evalua posibles fonemas, palabras o frases y selecciona la opcion mas probable segun el audio y el contexto linguistico.

2

Tema 1 Voz como interfaz natural de IA La voz permite que las aplicaciones de IA se comuniquen de una forma mas natural, accesible y directa. El modulo se centra en dos capacidades base: convertir habla en texto y convertir texto en habla.

3

Tema 2 Escenarios donde la voz aporta valor Las soluciones de voz mejoran accesibilidad, productividad y experiencia de usuario. Aparecen en soporte al cliente, asistentes, reuniones, salud, notificaciones, educacion, medios y sistemas interactivos.

4

Tema 3 Reconocimiento de voz: de audio a texto El reconocimiento de voz convierte ondas de sonido en texto mediante una cadena de pasos: capturar audio, extraer caracteristicas, reconocer fonemas, aplicar lenguaje, decodificar palabras y refinar la salida.

5

Tema 4 Sintesis de voz: de texto a audio natural La sintesis de voz convierte texto escrito en audio hablado mediante normalizacion, analisis linguistico, generacion de prosodia y produccion final de la onda de audio.

Introduccion a los conceptos de voz de IA

Lo que el estudiante debe poder explicar

Estudia por temas, no por archivos

Como reconocerlo en examen

Onda

Numeros

Rasgos

Lenguaje

Hipotesis

Detalles que vale la pena retener

Grafemas y fonemas

Audio como senal

MFCC y patrones acusticos

Elegir la mejor hipotesis

Como reconocerlo en examen

Speech-to-text

Text-to-speech

Detalles que vale la pena retener

Habla a texto

Texto a habla

Conversacion completa

Como reconocerlo en examen

Valor

Entrada

Operacion

Detalles que vale la pena retener

Centros de atencion y llamadas

Reuniones, entrevistas y dictado

Interfaces inclusivas

Empieza por el escenario de mayor valor

La voz debe tener alternativa

Escenarios donde la voz aporta valor

Como reconocerlo en examen

Capturar

Preprocesar

Modelar

Decodificar

Refinar

Detalles que vale la pena retener

Audio analogico a digital

Caracteristicas compactas

Unidades minimas de sonido

Contexto para elegir palabras

Texto refinado

Reconocimiento de voz: de audio a texto

Como reconocerlo en examen

Normalizar

Pronunciar

Dar prosodia

Sintetizar

Detalles que vale la pena retener

Preparar el texto para hablarlo

Grafemas a fonemas

Lo que evita una voz robotica

Generar la onda final

Sintesis de voz: de texto a audio natural

Repaso rapido para no confundir capacidades

Grafema

Fonema

Frecuencia de muestreo

Reconocimiento de voz

Sintesis de voz

MFCC

Modelo de lenguaje

Prosodia

Vocoder neuronal

Chequeo rapido del modulo