Pour chaque nouvelle langue, tout commence par la lecture de plusieurs paragraphes et listes de mots par des personnes avec des accents et des intonations différentes.

Ces enregistrements vocaux sont ensuite retranscrits à la main afin d'avoir une représentation exacte des textes énoncés, et permettre la reconnaissance des mots dictés par les différentes voix.

Ces données permettent ensuite de construire un modèle algorithmique de langage qui peut prédire les séquences de mots, et qui s'améliore avec de nouvelles données.

Afin d'améliorer la précision de ce modèle, Apple va ensuite rendre disponible la nouvelle langue mais au départ uniquement pour la dictée vocale sous iOS et macOS.

Cette étape permet de récupérer de nouvelles données en provenance d'une immense base d'utilisateurs ce qui amène à diviser le taux d'erreur de reconnaissance par deux.

Les ingénieurs d'Apple répètent ensuite ce processus jusqu'à ce qu'ils jugent que la nouvelle langue soit prête, puis des acteurs prêtent leur voix à Siri qui va les synthétiser pour répondre aux requêtes des utilisateurs.

On a ainsi pu voir ici comment la voix de Susan est devenue Siri entre 2005 et 2012 !

Une fois qu'une nouvelle langue Siri est disponible pour les utilisateurs, celle-ci est régulièrement mise à jour, toutes les 2 semaines, afin de continuer d'améliorer la précision.

A lire également sur le même sujet :

Source

Vous aimez ? Partagez !