Cómo convertir voz a texto en Python

El reconocimiento de voz es la capacidad de una máquina o programa para identificar palabras y frases en el lenguaje hablado y convertirlas en información textual.

Probablemente lo haya visto en ciencia ficción y asistentes personales como Siri , Cortana y Google Assistant , y otros asistentes virtuales que interactúan a través de la voz.

Para comprender su voz, estos asistentes virtuales deben realizar un reconocimiento de voz.

El reconocimiento de voz es un proceso complejo, por lo que no les voy a enseñar cómo entrenar un modelo de aprendizaje automático / aprendizaje profundo para hacerlo. En su lugar, le enseñaré cómo hacerlo utilizando la API de reconocimiento de voz de Google.

Siempre que tenga los conceptos básicos de Python, puede completar con éxito este tutorial y crear sus propios programas de reconocimiento de voz completamente funcionales en Python.


Para completar con éxito este tutorial, debe tener la siguiente biblioteca de Python instalada en su máquina

  • Biblioteca PyAudio
  • Biblioteca de reconocimiento de voz


pip install PyAudio
pip install SpeechRecognition

La biblioteca SpeechRecognition le permite realizar el reconocimiento de voz con soporte para varios motores y API, en línea y fuera de línea.

A continuación se muestran algunos de los motores compatibles

  • CMU Sphinx (funciona sin conexión)
  • Reconocimiento de voz de Google
  • API de Google Cloud Speech
  • Wit.ai
  • Reconocimiento de voz de Microsoft Bing
  • API de Houndify
  • IBM Speech to Text
  • Detección de palabras clave de Snowboy (funciona sin conexión)

En este tutorial, usaremos la API de reconocimiento de voz de Google, que es gratuita para usos básicos, tal vez tenga un límite de solicitudes que puede enviar durante un tiempo determinado.

A lo largo de este tutorial, realizará el reconocimiento de voz utilizando sonido que se alimenta directamente desde el micrófono y también utilizando audio de archivos.

Reconocimiento de voz desde micrófono

Al realizar el reconocimiento de voz desde el micrófono, necesitamos grabar el audio del micrófono. Luego, lo enviamos al motor de reconocimiento de voz a texto de Google, que realizará el reconocimiento y devolverá el texto transcrito.

Pasos involucrados

  • Grabación de audio desde un micrófono (PyAudio)
  • Envío de audio al motor de reconocimiento de voz
  • Imprimir el texto reconocido en la pantalla

A continuación se muestra un código app.py de muestra , es bastante sencillo


import speech_recognition as sr

recognizer = sr.Recognizer()

''' recording the sound '''

with sr.Microphone() as source:
    print("Adjusting noise ")
    recognizer.adjust_for_ambient_noise(source, duration=1)
    print("Recording for 4 seconds")
    recorded_audio = recognizer.listen(source, timeout=4)
    print("Done recording")

''' Recorgnizing the Audio '''
    print("Recognizing the text")
    text = recognizer.recognize_google(
    print("Decoded Text : {}".format(text))

except Exception as ex:

Reconocimiento de voz desde archivo de audio

Cuando se trata de realizar el reconocimiento de voz a partir de archivos de audio, solo cambiará una línea de código. En lugar de usar un micrófono como fuente de audio, le daremos una ruta a nuestro archivo de audio que queremos transcribir a texto.

El siguiente código es una secuencia de comandos de muestra para realizar el reconocimiento de voz de audio en un archivo.

import speech_recognition as sr

recognizer = sr.Recognizer()

''' recording the sound '''

with sr.AudioFile("./sample_audio/speech.wav") as source:
    recorded_audio = recognizer.listen(source)
    print("Done recording")

''' Recorgnizing the Audio '''
    print("Recognizing the text")
    text = recognizer.recognize_google(
    print("Decoded Text : {}".format(text))

except Exception as ex:


kalebu@kalebu-PC:~$ python3 app_audio.py 
Done recording
Recognizing the text
Decoded Text: python programming is the best of all by Jordan

Reconocimiento de voz de una fuente de audio larga

Cuando tiene un audio muy largo, cargar todo el audio en la memoria y enviarlo a través de la API puede ser un proceso muy lento, para superar eso tenemos que dividir la fuente de audio larga en pequeños trozos y luego realizar el reconocimiento de voz en esos trozos individuales.

Vamos a utilizar pydub para dividir la fuente de audio larga en esos pequeños trozos.

Para instalar pydub solo usa pip

$~ pip install pydub

A continuación se muestra un código Python de muestra que carga el audio largo, lo divide en el segmento y luego realiza el reconocimiento de voz en esos fragmentos individuales para obtener más información sobre cómo dividir el audio, puede consultar el Tutorial de DataCamp.

import os 
from pydub import AudioSegment
import speech_recognition as sr
from pydub.silence import split_on_silence

recognizer = sr.Recognizer()

def load_chunks(filename):
    long_audio = AudioSegment.from_mp3(filename)
    audio_chunks = split_on_silence(
        long_audio, min_silence_len=1800,
    return audio_chunks

for audio_chunk in load_chunks('./sample_audio/long_audio.mp3'):
    audio_chunk.export("temp", format="wav")
    with sr.AudioFile("temp") as source:
        audio = recognizer.listen(source)
            text = recognizer.recognize_google(audio)
            print("Chunk : {}".format(text))
        except Exception as ex:
            print("Error occured")



$ python long_audio.py
    Chunk : by the time you finish reading this tutorial you have already covered several techniques and natural then
    Chunk : learn more
    Chunk : forgetting to subscribe to be updated on upcoming tutorials

¡Felicidades, ahora sabe cómo hacerlo, no puedo esperar a ver lo que va a construir con este conocimiento!

