Ricerca nel sito web

API Whisper di OpenAI per trascrizione e traduzione


Questo articolo ti mostrerà come utilizzare l'API Whisper di OpenAI per trascrivere l'audio in testo. Ti mostrerà anche come utilizzarlo nei tuoi progetti e come integrarlo nei tuoi progetti di data science.

Hai accumulato molte registrazioni, ma non hai energia per iniziare ad ascoltarle e trascriverle? Quando ero ancora studente, ricordo che dovevo lottare ogni giorno con l'ascolto di ore e ore di lezioni registrate e gran parte del mio tempo veniva sottratto alla trascrizione. Inoltre non era la mia lingua madre e dovevo trascinare ogni frase su google traduttore per convertirla in italiano.

Ormai la trascrizione e la traduzione manuale sono solo un ricordo. La famosa società di ricerca per ChatGPT, OpenAI, ha lanciato l'API Whisper per le conversazioni da voce a testo! Con poche righe di codice Python, puoi richiamare questo potente modello di riconoscimento vocale, toglierti ogni pensiero dalla mente e concentrarti su altre attività, come fare pratica con progetti di data science e migliorare il tuo portfolio. Iniziamo!

Cos'è il sussurro?

Whisper è un modello basato su reti neurali sviluppato da OpenAI per risolvere compiti di sintesi vocale. Appartiene alla famiglia GPT-3 ed è diventato molto popolare per la sua capacità di trascrivere l'audio in testo con altissima precisione.

Non limita la gestione dell’inglese, ma la sua capacità è estesa a più di 50 lingue. Se sei interessato a capire se la tua lingua è inclusa, controlla qui. Inoltre, può tradurre l'audio di qualsiasi lingua in inglese.

Come altri prodotti OpenAI, esiste un'API per accedere a questi servizi di riconoscimento vocale, consentendo a sviluppatori e data scientist di integrare Whisper nelle loro piattaforme e app.

Come accedere all'API Whisper?

Prima di andare oltre, sono necessari alcuni passaggi per accedere all'API Whisper. Innanzitutto, vai e accedi al sito Web dell'API OpenAI. Se non hai ancora l'account, devi crearlo. Dopo esserti inserito, fai clic sul tuo nome utente e premi l'opzione "Visualizza chiavi API". Quindi, fai clic sul pulsante "Crea nuova chiave API" e copia la nuova chiave API creata sul tuo codice Python.

Trascrivi con l'API Whisper

Innanzitutto, scarichiamo un video di YouTube di Kevin Stratvert, uno YouTuber molto popolare che aiuta gli studenti di tutto il mondo a padroneggiare la tecnologia e migliorare le competenze attraverso strumenti di apprendimento, come Power BI, editing video e prodotti di intelligenza artificiale. Ad esempio, supponiamo di voler trascrivere il video “3 Mind-blowing AI Tools”.

Possiamo scaricare direttamente questo video utilizzando la libreria pytube. Per installarlo è necessaria la seguente riga di comando:

pip install pytube3
pip install openai

Installiamo anche la libreria openai, poiché verrà utilizzata più avanti nel tutorial. Una volta installate tutte le librerie Python, dobbiamo solo passare l'URL del video all'oggetto Youtube. Successivamente, otteniamo il flusso video con la massima risoluzione e, quindi, scarichiamo il video.

from pytube import YouTube

video_url = "https://www.youtube.com/watch?v=v6OB80Vt1Dk&t=1s&ab_channel=KevinStratvert"

yt = YouTube(video_url)
stream = yt.streams.get_highest_resolution()
stream.download()

Una volta scaricato il file, è ora di iniziare la parte divertente!

import openai

API_KEY = 'your_api_key'
model_id = 'whisper-1'
language = "en"
audio_file_path = 'audio/5_tools_audio.mp4'
audio_file = open(audio_file_path, 'rb')

Dopo aver impostato i parametri e aperto il file audio, possiamo trascrivere l'audio e salvarlo in un file Txt.

response = openai.Audio.transcribe(
    api_key=API_KEY,
    model=model_id,
    file=audio_file,
    language='en'
)
transcription_text = response.text
print(transcription_text)

Uscita:

Hi everyone, Kevin here. Today, we're going to look at five different tools that leverage artificial intelligence in some truly incredible ways. Here for instance, I can change my voice in real time. I can also highlight an area of a photo and I can make that just automatically disappear. Uh, where'd my son go? I can also give the computer instructions, like, I don't know, write a song for the Kevin cookie company....

Come previsto, l'output è molto accurato. Anche la punteggiatura è così precisa che ne sono molto colpito!

Traduci con l'API Whisper

Questa volta tradurremo l’audio dall’italiano all’inglese. Come prima, scarichiamo il file audio. Nel mio esempio, sto usando questo video di YouTube del famoso YouTuber italiano Piero Savastano che insegna l'apprendimento automatico in un modo molto semplice e divertente. Devi solo copiare il codice precedente e modificare solo l'URL. Una volta scaricato, apriamo il file audio come prima:

audio_file_path = 'audio/ml_in_python.mp4'
audio_file = open(audio_file_path, 'rb')

Quindi, possiamo generare la traduzione inglese partendo dalla lingua italiana.

response = openai.Audio.translate(
    api_key=API_KEY,
    model=model_id,
    file=audio_file
)
translation_text = response.text
print(translation_text)

Uscita:

We also see some graphs in a statistical style, so we should also understand how to read them. One is the box plot, which allows to see the distribution in terms of median, first quarter and third quarter. Now I'm going to tell you what it means. We always take the data from the data frame. X is the season. On Y we put the count of the bikes that are rented. And then I want to distinguish these box plots based on whether it is a holiday day or not. This graph comes out. How do you read this? Here on the X there is the season, coded in numerical terms. In blue we have the non-holiday days, in orange the holidays. And here is the count of the bikes. What are these rectangles? Take this box here. I'm turning it around with the mouse....

Considerazioni finali

Questo è tutto! Spero che questo tutorial ti abbia aiutato a iniziare con l'API Whisper. In questo caso di studio è stato applicato con i video di YouTube, ma puoi anche provare con podcast, chiamate zoom e conferenze. Ho trovato davvero impressionanti i risultati ottenuti dopo la trascrizione e la traduzione! Questo strumento di intelligenza artificiale sta sicuramente aiutando molte persone in questo momento. L’unico limite è il fatto che è possibile tradurre solo il testo in inglese e non viceversa, ma sono sicuro che OpenAI lo fornirà presto. Grazie per aver letto! Buona giornata!

Risorse

  • Guida alla sintesi vocale dell'API Whisper

  • Introduzione all'API OpenAI Whisper in Python | Video di Youtube

Articoli correlati