BLOG

Course entre cerveau humain et intelligence artificielle (partie 2)

Race between human brains and artificial intelligence

Dans Partie 1 de cet article, j'ai brièvement décrit l'avènement de l'interprétation simultanée et les techniques qui permettent aux interprètes comme moi d'accomplir cette tâche. Ensuite, je voudrais répondre à une question évidente qui se pose aujourd'hui à notre industrie: l'IA est-elle déjà assez bonne pour remplacer les interprètes humains? Sinon, l'IA le sera-t-elle jamais?

Pour cadrer cette discussion, cherchons d'abord à comprendre comment l'intelligence artificielle peut être en mesure d'accomplir la tâche d'un interprète simultané. Il y a trois étapes:

  • Reconnaissance de la parole. C'est la même technologie qui vous permet de tenir une conversation avec Siri, Amazon Echo ou Google Home d'Apple. Grâce à l'apprentissage automatique et à d'énormes quantités de données générées par les utilisateurs, la précision des programmes de reconnaissance vocale s'est améliorée à pas de géant au cours des dernières années. En Chine, par exemple, des sociétés Internet comme Baidu, iFlyTech et Sogou affirment que leurs méthodes de saisie peuvent convertir la voix en texte à des taux de précision supérieurs à 90%, certains aussi élevés que 97%.
 
  • Traduction de texte en texte. L'utilisation de la technologie dans la traduction de texte n'a rien de nouveau. Au cours des dernières décennies, la traduction assistée par ordinateur (TAO) a énormément évolué: de la mémoire de traduction (TM) à la traduction automatique statistique (SMT) en passant par la traduction automatique neuronale (NMT). La nature de ce progrès est que lorsqu'une grande quantité de texte source est introduite dans l'algorithme de la machine, ainsi qu'une traduction de haute qualité produite par l'homme dans la langue cible, la machine reconnaît les modèles et les applique à toute phrase suivant le même modèle. Comme le nom «apprentissage automatique» le suggère, la machine «apprend» littéralement comment traiter les données d'entrée sans s'appuyer sur des modèles ou des règles de grammaire produits par l'homme. Bien que la précision de la traduction de texte en texte soit difficile à quantifier, la plupart des utilisateurs conviennent que la sortie est généralement hautement utilisable, ce qui nous permet de comprendre des pages Web en langue étrangère et d'autres documents presque instantanément et gratuitement.
 
  • Synthèse de discours, également connue sous le nom de technologie Text-to-Speech. Grâce à l'apprentissage en profondeur (un autre mot à la mode souvent utilisé de manière interchangeable avec l'apprentissage automatique ou l'intelligence artificielle), les programmes informatiques sont capables de synthétiser une voix réaliste pour lire n'importe quel texte. Pour avoir une idée de la situation actuelle de la technologie, rendez-vous sur ce site et cliquez sur le bouton «écouter». Les outils payants fonctionnent encore mieux.
 

Maintenant, pour répondre à la question de savoir à quel point l'IA est déjà bonne, nous pouvons donner à la technologie un rapport à chaque étape et multiplier les trois chiffres pour obtenir un résultat global.

  • Certains des meilleurs programmes de reconnaissance vocale revendiquent des taux de précision compris entre 90% et 97%. Cela semble stupéfiant, et pourtant c'est tout à fait vrai. Ici, nous utiliserons 90% comme score estimé.
 
  • La qualité de l'évaluation au stade de la traduction est la plus controversée. Certains disent que la traduction automatique est encore loin d'être satisfaisante et ne le sera jamais. D'autres s'émerveillent de la qualité des outils de traduction automatisée et disent que la Tour de Babel appartient déjà au passé. Par exemple, si vous utilisez Facebook, vous auriez remarqué le bouton «traduire» à côté des messages de vos amis dans d'autres langues. Cliquez dessus et vous aurez une bonne idée de ce qu'ils ont dit la plupart du temps. De même, le bouton «Traduire cette page» sur Chrome nous permet également de naviguer facilement sur les sites Web en langue étrangère. Si je devais mettre un pourcentage, je donnerais à ces outils un 90 sur 100. Ils sont loin d'être parfaits, mais admettons qu'ils sont déjà très utilisables et ne font que s'améliorer de jour en jour! Ma propre expérience en tant que traducteur suggère également que l'utilité de la traduction automatique dépend du type de texte. S'il existe des modèles et un vocabulaire très répétitifs (et pourtant spécialisés) dans la langue, les machines se révèlent généralement très fiables. Par exemple, les contrats juridiques ou les demandes de brevet entrent dans cette catégorie. Il est intéressant de noter que ces domaines ont également tendance à être les maillons faibles du mélange de compétences d'un interprète humain. Ce phénomène pose les bases d'une approche collaborative entre l'humain et la machine.
 
  • La troisième étape de ce processus, la synthèse vocale, est beaucoup moins pertinente pour cette discussion que les deux premières. Théoriquement, la qualité à ce stade est toujours 100% car la machine peut facilement lire le texte transcrit (et traduit) avec une précision parfaite. De plus, beaucoup trouveront cette partie du service inutile. Pensez à la dernière fois que vous avez regardé un film en langue étrangère. Étant donné le choix entre regarder une version doublée et la version originale avec sous-titres, je parie que beaucoup d'entre vous ont préféré la version originale avec sous-titres dans votre langue. Dans quelques années, les conférences multilingues seront probablement diffusées sur des appareils mobiles avec des sous-titres en temps réel disponibles dans différentes langues. En d'autres termes, à l'avenir, la technologie pourra peut-être répondre au besoin de les spectateurs plutôt que les auditeurs.
Race between human brain and artificial intelligence

Donc, si nous faisons le calcul en multipliant ces scores, nous obtiendrons maintenant quelque part autour de 81%. Mais que signifie exactement ce nombre? Le travail des interprètes humains 81% est-il condamné ou sommes-nous toujours en sécurité? Je voudrais discuter de deux considérations supplémentaires.

Premièrement, les machines et les interprètes humains sont bons pour différentes parties du travail, et généralement complémentaires. Par exemple, les interprètes humains se sentent souvent stressés par les nombres, les chiffres et les noms propres qui apparaissent dans les discours interprétés. Si la phrase suivante apparaît dans un discours à l'improviste, la plupart des interprètes humains auront du mal à suivre simultanément, surtout si l'interprète ne connaît pas le sujet.

MAHMOUD MOHIELDIN, Vice-président principal du Programme de développement à l'horizon 2030, Relations et partenariats avec les Nations Unies, Groupe de la Banque mondiale, décrivant les messages qui ont émergé des réunions de printemps de l'institution financière internationale, a déclaré que la croissance mondiale avait perdu de son élan, passant de 3,3% au premier trimestre de 2018 à moins de 2,7% au quatrième trimestre.

Les machines, cependant, sont incroyablement précises et rapides lorsqu'il s'agit de transcrire et de traduire des noms et des nombres appropriés. Si le message transcrit et traduit est affiché sur un écran devant l'interprète humain dans la «cabine» (l'espace insonorisé dans lequel travaillent les interprètes), cela améliorerait considérablement la confiance et la qualité globale de la production de l'interprète.

Qu'en est-il du point faible de l'IA? La réponse est que l'IA est, à ce jour, encore très faible en matière de réflexion et d'analyse. Les interprètes humains tiennent compte du contexte social lorsqu'ils interprètent. Les machines sont absolument incapables de le faire. Par exemple, lorsque le gourou américain de l'investissement Ray Dalio a été invité à donner une conférence en Chine l'année dernière, l'organisateur de l'événement à Pékin a eu suffisamment d'audace pour utiliser un service fourni par named Sogou, offrant une combinaison de l'étape 1 (reconnaissance vocale) et de l'étape 2 (traduction de texte en texte) avec à la fois la transcription et la traduction affichées sur un grand écran.

Lorsque l'hôte de l'événement, un professeur chinois et ami de M. Dalio a présenté son invité, il a dit «Ray 个 一个 做梦 的 人» (Ray shi yi ge zuo meng de ren). La traduction anglaise correcte aurait été quelque chose comme "Ray est un rêveur" ou "Ray est un homme avec des rêves." À la stupéfaction de tous, ce qui est sorti sur grand écran était: «瑞士 一个 , 做梦 的 人。» (Rui shi yi ge zuo meng de ren) », accompagné de la traduction anglaise« One in Switzerland. Un rêveur." Phonétiquement, c'est exactement ce que l'orateur a dit, mais apparemment la machine a interprété à tort les syllabes Ray et shi (le caractère chinois pour «est») comme signifiant Rui-shi (瑞士 / Suisse).

Race between human brains and artificial intelligence
Crédit photo : Jonathan Rechtman, https://www.linkedin.com/pulse/ray-dalio-speaks-china-machine-translation-fails-jonathan-rechtman/

C'est un cas révélateur, car la cause première de cette bévue n'est pas le manque de données ou de puissance de calcul, mais l'incapacité de penser et d'analyser. Si un interprète humain avait entendu la même combinaison de sons (Ray-shi), il serait très probablement capable de la comprendre comme «Ray is», plutôt que «Switzerland», d'autant plus que M. Ray Dalio est américain.

Deuxièmement, il convient également de souligner que la maturité technique est une chose, mais l'adoption par les utilisateurs en est une autre. Ce n'est pas parce qu'une technologie est «quasiment là» qu'elle peut conquérir un marché de sitôt. Un obstacle majeur à surmonter est le risque perçu et le manque de confiance des parties prenantes. Après tout, le véritable décideur de l'utilisation des services d'interprétation simultanée n'est pas quelqu'un qui navigue sur une page wikipedia et clique avec désinvolture sur le bouton «traduire» sur Chrome, mais de gros clients institutionnels (pensez aux Nations Unies et au gouvernement du Canada) qui ont tendance à être conservateurs et lent à adopter la nouvelle technologie. Avec le moindre risque que les choses tournent mal, ces grandes institutions se retiennent généralement et s'en tiennent à l'option sûre qu'elles utilisent depuis des décennies.

Ce dilemme entre innovation et risque a été le mieux montré dans la réaction du public à la première accident mortel causé par la voiture autonome d'Uber. À la lumière de cet accident - dont nous savions qu'il allait se produire tôt ou tard - Uber a immédiatement suspendu ses tests. D'une certaine manière, c'est injuste pour les Ubers de notre monde: statistiquement parlant, les conducteurs humains tuent des centaines de piétons chaque jour, mais très peu de ces accidents font la une des journaux.

Je soupçonne que la même histoire se déroulera pour l'interprétation simultanée activée par l'IA. Dès que la nouvelle du premier «accident majeur» éclatera (enfin, j'espère que cela ne coûtera la vie à personne), les gens le blâmeront sur la technologie imparfaite, et s'en retiendront pendant un moment. Cela signifie peut-être que l'adoption à grande échelle de technologies de pointe pour faciliter les réunions internationales, où les enjeux sont généralement élevés, ne sera pas une voie facile. Cela arrivera-t-il un jour? Peut-être, mais beaucoup plus tard qu'un technologue pourrait s'y attendre.

Pour conclure, je voudrais proposer trois prédictions sur la direction que prend cette «course» entre le cerveau humain et l'intelligence artificielle.

1) Au cours des 5 à 10 prochaines années, la technologie continuera de remodeler l'interprétation de conférence, d'améliorer son expérience utilisateur et de réduire son coût.

2) Dans 10 à 20 ans, la plupart des travaux d'interprétation impliqueront des outils alimentés par l'IA en tant qu'assistants.

3) Le travail de l'interprète humain sera redéfini, mais ne sera jamais remplacé.

En bref, l'IA devrait, et aura, un rôle à jouer pour façonner l'avenir de l'interprétation simultanée, tout comme l'IA le fera pour de nombreuses autres professions. Cependant, l'IA ne doit pas remplacer, mais plutôt un assistant, des interprètes humains. S'il est utilisé correctement, il augmentera considérablement notre capacité à traduire la langue parlée simultanément, avec précision et élégance.

 


 

Rony Gao est membre de Mensa Canada, interprète de conférence en exercice et consultant interculturel basé à Toronto. En tant qu'interprète chinois-anglais, Rony a travaillé pour un large éventail de dirigeants politiques et commerciaux.

2 réponses

  1. Approche très intéressante de l'IA en tant qu'assistant pour les interprètes, comme certains le sont pour les traducteurs. Ce serait le cas, par exemple, si DeepL pouvait parler…

  2. C'est juste une question de temps.
    Les ordinateurs vous battront aux échecs et traduiront ce que vous dites en même temps. ??

Les commentaires sont fermés.