Retranscription vocale automatique, ou retranscription manuelle ?

Face à la difficulté et au temps nécessaire pour retranscrire correctement ses entretiens, nombreux sont ceux qui espèrent trouver une solution miracle dans la retranscription automatique par reconnaissance vocale. On mettrait la bande dans un logiciel et il en ressortirait une version écrite traduisant exactement les propos tenus. D'ailleurs, c'est peut-être la raison pour laquelle vous êtes arrivés sur ce site, avec l'espoir que Sonal vous offrira cette possibilité. Hélas, ce n'est pas le cas. Cela dit, vous devez savoir que, malheureusement, il n’existe pas encore de logiciel miraculeux qui retranscrive "tout seul" et que les solutions existantes présentent quelques inconvénients. 

Les problèmes de la retranscription vocale automatique

La reconnaissance vocale a fait d'énormes progrès mais elle n'est pas encore assez efficace pour retranscrire seule des entretiens semi-directifs. Le problème est qu'à l'heure actuelle, il semble encore y avoir une partition entre les logiciels qui sont capables de reconnaître un nombre réduit de mots dans la bouche d'un nombre très important de locuteurs (type reconnaissance vocale des smartphones ou des standards électroniques) et ceux qui peuvent reconnaître un très grand nombre de mots... mais chez un seul locuteur. Cela dit, les progrès de ces techniques sont continus et les logiciels pourront bientôt reconnaître tous les mots prononcés par toutes les voix avec une précision suffisante mais ils ne seront probablement pas gratuits avant un moment, car la technologie sous-jacente demande de grands investissements.

En l'état, c'est plutôt la deuxième solution que proposent les principaux logiciels de reconnaissance vocale, mais ce n'est pas sans inconvénients.

  • Une phase de rodage plus ou moins longue.

Le problème en l'occurrence est que la reconnaissance vocale ne reconnaît qu’une seule voix : la vôtre. Il faut ainsi en quelque sorte “dresser” le logiciel pendant un certain temps, en lisant un texte imposé, pour que l’application analyse vos intonations et sache les reconnaître. Une phase de rodage plus ou moins longue vous attend donc avant même de commencer à retranscrire.  Il faut que le logiciel apprenne à décrypter la "voix de son maître", mais cette spécialisation sur vos seules intonations complique en conséquence l'interprétation des voix étrangères, qui sont normalement majoritaires dans un enregistrement d'entretien.

  • La nécessité de répéter tous vos entretiens.

Donc, à ce stade, il vous faudra probablement répéter dans le micro tout ce que vous entendez sur la bande- c'est-à-dire và la fois vos questions et les réponses de vos interlocuteurs -, afin que le logiciel transforme à son tour votre voix en texte.

  • La mauvaise reconnaissance des expressions et tournures orales.

Or, comme les logiciels ont souvent été conçus pour dicter des courriers et non des entretiens, toutes les tournures orales ne sont pas reconnues. Ainsi, malgré des progrès indéniables, ces applications sont loin d’avoir une efficacité optimale, tant dans la reconnaissance des tournures que dans la qualité du français.

Par exemple, les “chépas” devront être “traduits” en “je-ne-sais-pas”. De même, on sait bien que personne ne fait à l’oral des phrases aussi construites qu’à l’écrit. Il y a toujours des hésitations, des répétitions, des bouts de phrases qui n’arrivent nulle part etc. On peut rendre en partie ces digressions lorsque l’on retranscrit à la main, mais, dans la retranscription vocale, c’est plus compliqué,  il faut donc “traduire” en simultanée ce qui disent vos interlocuteurs, quitte à considérablement simplifier leurs phrases, et perdre un certain nombre de finesses du discours. Vous risquez assez vite de vous retrouver dans la peau d’un journaliste sportif obligé de tirer des phrases construites des propos lacunaires d’un footballeur. Or, il est difficile de construire une analyse scientifique digne de ce nom sur ce que les personnes interviewés ne disent qu’en substance…

NB : Chez les professionnels de la retranscription, on appelle un “perroquet” celui qui fait ce travail de répétition/traduction. Il y a un article qui parle de ça ici. Le perroquet travaille généralement en binôme avec un correcteur, qui rattrape les erreurs d’interprétation des logiciels.

Pourquoi Sonal ?

En résumé, si vous travaillez seul, cela veut dire que non seulement vous allez devoir répéter tout le contenu de vos entretiens devant le micro, mais qu’en plus, vous allez devoir vérifier en parallèle qu’il ne commet pas d’erreur, et saisir manuellement tous les noms propres ou les éléments de vocabulaire qui ne figurent pas dans le dictionnaire du logiciel. Ce qui vous obligera à arrêter la bande, le temps de corriger les erreurs.

Bref, les logiciels de retranscription vocale sont probablement un peu plus rapides au bout d’un certain temps de dressage, mais ne sont pas plus simples à utiliser et peuvent conduire à un appauvrissement du contenu de vos entretiens.

Pour toutes ces raisons, nous avons développé Sonal afin d’améliorer au maximum le confort des travaux de retranscription manuelle, ainsi que l’analyse et la gestion des retranscriptions d’entretiens d’une manière plus générale.

Beaucoup plus fondamentalement, il faut comprendre que la tentation de convertir automatiquement du son en texte revient à programmer l'abandon de la bande au profit du texte. C'est une logique assez ancienne qui revient à penser que le seul matériau de travail légitime est le texte, ce qui est pour le moins discutable dans la mesure où le son comporte une quantité inifiment supérieure d'informations. Une retranscription dans Sonal permet de cumuler les deux matériaux au lieu de remplacer l'un par l'autre.

N’hésitez pas à partager vos expériences et avis sur le sujet !