Il video mostra una soluzione per smanettoni, non aspettatevi proprio cose in stile Chat GPT, ma se sei abituato a smanettare allora ...
Il video mostra una soluzione per smanettoni, non aspettatevi proprio cose in stile Chat GPT, ma se sei abituato a smanettare allora potrebbe essere una soluzione gratuita, open source che sfrutta da una parte un prodotto di Open AI e dall'altra una applicazione che sfrutta le potenzialità di calcolo che Google mette a disposizione gratuitamente open source.
Codice di Installazione presente nel video
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
Applicazione Modelli Whisper AI
I modelli Whisper AI variano in dimensione e capacità , da "Tiny" a "Large", con il modello
- "Tiny" progettato per essere il più leggero e veloce, adatto per applicazioni a bassa potenza e bassa latenza,
- "Large" offre la massima precisione e capacità di comprensione del contesto, adatto per applicazioni che richiedono la massima qualità di trascrizione.
- Esistono anche modelli intermedi come "Base", "Small" e "Medium" che offrono compromessi tra velocità e precisione.
Ricapitolando la differenza i modelli di Whisper AI
- TINY, leggero e veloce.
- BASE,
- SMALL,
- MEDIUM,
- LARGE, massima qualità di trascrizione.
Codice di avvio trascrizione
!whisper "nomefile.estensione" --model medium
AGGIUNTE AL VIDEO TUTORIAL in stile :DIVENTO
Rispetto al video ad un certo punto l'interfaccia chiede quale GPU usare
fornendo 3 possibilità ? Dove? In Colaboratory nel menu Runtime, e le scelte
proposte ad oggi per le GPU sono tra:
- T4 GPU
- A100 GPU
- V100 GPU
Secondo ChatGPT abbiamo che:
-
T4 GPU: è una GPU versatile che offre un buon equilibrio tra
prestazioni e efficienza energetica. È adatta per lo sviluppo e il test di
modelli di machine learning.
-
V100 GPU: offre prestazioni superiori rispetto alla T4, rendendola
adatta per l'addestramento di modelli di machine learning più grandi e
complessi. Ha più memoria e una maggiore larghezza di banda, il che consente
di gestire dataset più grandi e complessi.
- A100 GPU: è l'opzione più potente disponibile su Colab, progettata per l'addestramento e l'inferenza di modelli di machine learning su larga scala. Offre prestazioni notevolmente superiori rispetto alla V100 e alla T4, con un'enorme quantità di memoria e capacità di elaborazione parallela, rendendola ideale per compiti di intelligenza artificiale molto esigenti.
Ma se dobbiamo trasformare un audio in Testo con WHISPER AI quale GPU conviene usare di quelle menzionate?
Sempre secondo ChatGPT: per trasformare un audio in testo utilizzando Whisper AI, la scelta della GPU dipende dalla velocità di elaborazione desiderata e dalla dimensione del dataset.
-
Se stai lavorando con file audio di grandi dimensioni o hai bisogno
di tempi di elaborazione rapidi, l'A100 è la scelta migliore per le
sue superiori capacità di elaborazione.
-
Per progetti di dimensioni moderate, la V100 offre un buon
equilibrio tra prestazioni e costo.
- La T4 può essere sufficiente per progetti meno esigenti o per lo sviluppo e il testing.
Nessun commento