Modulo 04 - Microsoft Azure AI-901

Introduccion a los conceptos de voz de IA

Reconoce como la IA convierte audio en texto, texto en audio y experiencias de voz en soluciones utiles.

Este modulo explica las dos capacidades fundamentales de voz: reconocimiento de voz y sintesis de voz. El foco es entender escenarios, beneficios, limitaciones y el flujo tecnico que permite crear experiencias conversacionales, accesibles y manos libres.

Microsoft Azure

Objetivos de aprendizaje

Lo que el estudiante debe poder explicar

01

Reconocer nociones base de lenguaje, sonido y probabilidad que explican como funcionan las soluciones de voz.

02

Distinguir reconocimiento de voz y sintesis de voz segun entrada y salida.

03

Reconocer escenarios empresariales donde la voz mejora accesibilidad, productividad y experiencia de usuario.

04

Explicar las fases principales de una canalizacion de voz a texto.

05

Explicar las fases principales de una canalizacion de texto a voz.

06

Identificar consideraciones de calidad de audio, idioma, privacidad, latencia y accesibilidad.

Vista de aprendizaje

Estudia por temas, no por archivos

1
Idea central

La voz se procesa como una combinacion de lenguaje y senales: el audio se vuelve numeros, los numeros se vuelven caracteristicas y los modelos eligen la interpretacion mas probable.

Como reconocerlo en examen

  • No necesitas resolver formulas, pero si entender que la voz se convierte en datos numericos.
  • Distingue grafemas como unidades escritas y fonemas como unidades sonoras.
  • Recuerda que los sistemas de voz comparan hipotesis probables, no trabajan con certeza absoluta.
Ruta de trabajo

De la voz al significado

01

Onda

La voz empieza como sonido en el tiempo.
02

Numeros

El microfono convierte la senal en muestras digitales.
03

Rasgos

Se extraen caracteristicas utiles para el modelo.
04

Lenguaje

El contexto ayuda a convertir sonidos en palabras.
05

Hipotesis

La IA elige la interpretacion mas probable.
Profundizacion

Detalles que vale la pena retener

Lenguaje

Grafemas y fonemas

Los grafemas son letras o unidades escritas; los fonemas son sonidos minimos. La sintesis necesita decidir como se pronuncia lo escrito y el reconocimiento necesita mapear sonidos a palabras.

Sonido

Audio como senal

La voz empieza como una onda sonora. El microfono la digitaliza en muestras numericas que luego pueden limpiarse, analizarse y transformarse.

Caracteristicas

MFCC y patrones acusticos

Representaciones como MFCC resumen partes relevantes del habla para que el modelo no procese toda la onda cruda muestra por muestra.

Probabilidad

Elegir la mejor hipotesis

El sistema evalua posibles fonemas, palabras o frases y selecciona la opcion mas probable segun el audio y el contexto linguistico.

2
3
4
5

Banco de conceptos

Repaso rapido para no confundir capacidades

Base linguistica

Grafema

Unidad escrita del lenguaje, como una letra o combinacion de letras que aparece en el texto.

Reconocelo cuando

Aparece en sintesis de voz cuando el sistema debe convertir texto escrito en sonidos pronunciables.

No lo confundas con

No es lo mismo que fonema; el grafema se escribe, el fonema se pronuncia.

Base linguistica

Fonema

Unidad minima de sonido que permite distinguir palabras dentro de un idioma.

Reconocelo cuando

Aparece cuando el sistema analiza pronunciacion, sonidos del habla o modelos acusticos.

No lo confundas con

No es una letra necesariamente; es una unidad sonora.

Base de audio

Frecuencia de muestreo

Cantidad de veces por segundo que una senal de audio se mide para convertirla en datos digitales.

Reconocelo cuando

Si la pregunta habla de capturar audio, calidad de entrada o 8 kHz a 16 kHz, piensa en muestreo.

No lo confundas con

No decide el significado de las palabras; define como se digitaliza la senal.

Speech-to-text

Reconocimiento de voz

Capacidad que convierte palabras habladas en texto escrito para que una aplicacion pueda procesarlas.

Reconocelo cuando

Aparece cuando el caso habla de transcribir, dictar, subtitular o aceptar comandos hablados.

No lo confundas con

No es sintesis de voz; aqui la entrada es audio y la salida es texto.

Text-to-speech

Sintesis de voz

Capacidad que convierte texto escrito en audio hablado de sonido natural.

Reconocelo cuando

Aparece cuando una app lee contenido, responde en voz alta, anuncia alertas o narra materiales.

No lo confundas con

No transcribe audio; genera audio a partir de texto.

Reconocimiento

MFCC

Representacion compacta de caracteristicas acusticas usada para resaltar patrones relevantes del habla.

Reconocelo cuando

Si se habla de extraer caracteristicas de la forma de onda antes del modelado acustico, piensa en MFCC.

No lo confundas con

No es texto ni fonema; es una representacion numerica intermedia del audio.

Reconocimiento

Modelo de lenguaje

Componente que usa vocabulario, gramatica y contexto para elegir secuencias de palabras probables.

Reconocelo cuando

Aparece cuando sonidos similares pueden formar palabras distintas y se necesita contexto.

No lo confundas con

No captura el audio; ayuda a convertir hipotesis foneticas en texto coherente.

Sintesis

Prosodia

Patrones de ritmo, tono, pausas, intensidad y enfasis que hacen que una voz sintetica suene natural.

Reconocelo cuando

Si el problema menciona voz robotica, entonacion, pausas o enfasis, piensa en prosodia.

No lo confundas con

No es solo pronunciacion correcta; define como se dice algo.

Sintesis

Vocoder neuronal

Modelo que genera la onda de audio final a partir de representaciones acusticas como mel-espectrogramas.

Reconocelo cuando

Aparece al final de la canalizacion text-to-speech, cuando se produce el audio.

No lo confundas con

No normaliza texto ni decide fonemas; produce la senal audible final.

Evaluacion final

Chequeo rapido del modulo

1. Una aplicacion recibe una orden hablada y necesita convertirla en texto para procesarla. Que capacidad corresponde?

2. Un asistente virtual lee una respuesta escrita con una voz natural. Que capacidad se esta usando?

3. Que beneficio de voz ayuda a usuarios con dificultad visual o motriz?

4. En reconocimiento de voz, que factor suele afectar directamente la precision desde el inicio?

5. Que representa MFCC dentro de una canalizacion speech-to-text?

6. Que componente ayuda a resolver ambiguedades entre palabras que suenan parecido?

7. Que fase transforma el texto 'Dr.' o una fecha en una forma pronunciable antes de sintetizar voz?

8. Que describe mejor la prosodia en sintesis de voz?

9. Que componente genera la onda de audio final en muchos sistemas modernos de text-to-speech?

10. Un sistema de soporte escucha una llamada, transcribe la consulta y responde con voz. Que capacidades combina?

11. Que consideracion es importante antes de implementar voz en una aplicacion?

12. Por que se recomienda ofrecer metodos alternativos de entrada y salida aunque exista voz?

13. Que etapa del reconocimiento de voz selecciona la secuencia de palabras mas probable entre varias hipotesis?

14. Que tarea posterior al reconocimiento mejora la legibilidad del texto transcrito?

15. En una app de aprendizaje de idiomas, el alumno habla una frase y el sistema responde con correccion audible. Que patron describe mejor el flujo?