WHISPER AI, Tutorial italiano: Come trasformare un VIDEO o un audio in TESTO gratis con l'intelligenza artificiale

Luca Pilolli 25 febbraio 2024 Video sull'Intelligenza Artificiale Edit this post

Il video mostra una soluzione per smanettoni, non aspettatevi proprio cose in stile Chat GPT, ma se sei abituato a smanettare allora ...

Il video mostra una soluzione per smanettoni, non aspettatevi proprio cose in stile Chat GPT, ma se sei abituato a smanettare allora potrebbe essere una soluzione gratuita, open source che sfrutta da una parte un prodotto di Open AI e dall'altra una applicazione che sfrutta le potenzialità di calcolo che Google mette a disposizione gratuitamente open source.

Codice di Installazione presente nel video

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

Applicazione Modelli Whisper AI

I modelli Whisper AI variano in dimensione e capacità, da "Tiny" a "Large", con il modello

"Tiny" progettato per essere il più leggero e veloce, adatto per applicazioni a bassa potenza e bassa latenza,
"Large" offre la massima precisione e capacità di comprensione del contesto, adatto per applicazioni che richiedono la massima qualità di trascrizione.
Esistono anche modelli intermedi come "Base", "Small" e "Medium" che offrono compromessi tra velocità e precisione.

Ricapitolando la differenza i modelli di Whisper AI

TINY, leggero e veloce.
BASE,
SMALL,
MEDIUM,
LARGE, massima qualità di trascrizione.

Codice di avvio trascrizione

!whisper "nomefile.estensione" --model medium

AGGIUNTE AL VIDEO TUTORIAL in stile :DIVENTO

Rispetto al video ad un certo punto l'interfaccia chiede quale GPU usare fornendo 3 possibilità? Dove? In Colaboratory nel menu Runtime, e le scelte proposte ad oggi per le GPU sono tra:

T4 GPU
A100 GPU
V100 GPU

Quale scegliere?

Secondo ChatGPT abbiamo che:

T4 GPU: è una GPU versatile che offre un buon equilibrio tra prestazioni e efficienza energetica. È adatta per lo sviluppo e il test di modelli di machine learning.
V100 GPU: offre prestazioni superiori rispetto alla T4, rendendola adatta per l'addestramento di modelli di machine learning più grandi e complessi. Ha più memoria e una maggiore larghezza di banda, il che consente di gestire dataset più grandi e complessi.
A100 GPU: è l'opzione più potente disponibile su Colab, progettata per l'addestramento e l'inferenza di modelli di machine learning su larga scala. Offre prestazioni notevolmente superiori rispetto alla V100 e alla T4, con un'enorme quantità di memoria e capacità di elaborazione parallela, rendendola ideale per compiti di intelligenza artificiale molto esigenti.

Ma se dobbiamo trasformare un audio in Testo con WHISPER AI quale GPU conviene usare di quelle menzionate?

Sempre secondo ChatGPT: per trasformare un audio in testo utilizzando Whisper AI, la scelta della GPU dipende dalla velocità di elaborazione desiderata e dalla dimensione del dataset.

Se stai lavorando con file audio di grandi dimensioni o hai bisogno di tempi di elaborazione rapidi, l'A100 è la scelta migliore per le sue superiori capacità di elaborazione.
Per progetti di dimensioni moderate, la V100 offre un buon equilibrio tra prestazioni e costo.
La T4 può essere sufficiente per progetti meno esigenti o per lo sviluppo e il testing.

Approfondimenti.

openai.com/research/whisper

Nessun commento

Iscriviti a: Commenti sul post (Atom)