Il y a quelque temps, je vous ai présenté la carte de développement ANAVI Dev Mic de Léon Anavi. Léon a publié une vidéo [en Anglais] pour utiliser sa carte sur un Raspberry Pi 5 en reconnaissance vocale. Il utilise Whisper, un réseau neuronal entraîné par OpenAI qui se rapproche de la robustesse et de la précision humaines pour la reconnaissance de la parole en anglais. Très intéressé par cette solution qui permet de reconnaître la parole EN LOCAL, sans connexion Internet, je me suis demandé si ça fonctionnait aussi pour le français ?
Au sommaire :
Conversion parole-Texte sur Raspberry Pi 5 en local avec OpenAI Whisper
Matériel Utilisé
- Raspberry Pi 5 – 4Go RAM
- Raspberry Pi OS à jour (08/2024)
- Carte SD 64 Go
Installation sur le Raspberry Pi 5
Si vous avez un Raspberry Pi 5 et un ANAVI Dev Mic, suivez les étapes suivantes pour configurer et exécuter le script :
Lancez Raspberry Pi OS et ouvrez un terminal.
Créez un environnement virtuel Python3 :
python -m venv test
cd test
source bin/activate
Installer les dépendances :
sudo apt update
sudo apt install portaudio19-dev
Installer les bibliothèques Python :
pip install SpeechRecognition pyaudio openai-whisper
Téléchargez le code source depuis GitHub :
git clone https://github.com/AnaviTechnology/anavi-examples
Exécutez le script :
cd anavi-examples/speech-to-text
python3 stt.py
Lorsque le programme est prêt à vous écouter, il affiche « Listening« … et c’est parti
Ça fonctionne bien, il y a quand même un délai de plusieurs secondes avant que le texte ne s’affiche.
La charge CPU frôle les 100% (97%) et la température grimpe… mais ça fonctionne
Sortir de l’environnement virtuel Python
Sortez proprement de l’environnement virtuel avec la commande deactivate :
Alors restons calme, il faut que les phrases restent simples. J’ai essayé de réciter « Le corbeau et le Renard », le résultat était assez folklorique. Mais on a un système AUTONOME LOCAL qui traduit (lentement) la parole en texte et en Français.
C’est un premier pas vers la commande vocale sur le Raspberry Pi 5.
Un premier pas aussi vers de la reconnaissance vocale plus rapide que nous promet Hailo, puisque des membres de la communauté travaillent à l’intégration de la reconnaissance vocale sur le module Hailo utilisé sur Raspberry Pi 5. Ceci devrait accélérer grandement la phase de traitement… A suivre…
Sources
https://www.crowdsupply.com/anavi-tec…
https://github.com/AnaviTechnology/an…
https://pypi.org/project/SpeechRecogn…
https://github.com/Uberi/speech_recog…
https://github.com/openai/whisper
https://github.com/AnaviTechnology/anavi-examples/blob/master/speech-to-text/stt.py