La traduction automatique neuronale, une révolution linguistique
En 2017, quand la traduction automatique neuronale (TAN) était suffisamment au point pour intégrer nos processus de production, j’ai immédiatement mis mon équipe R&D sur le sujet. À cette occasion, j’avais traduit notre présentation d’entreprise à l’aide du nouveau moteur de traduction TAN de Systran et j’avais été stupéfaite par les résultats.
La présentation en question était un aperçu complet de tous nos services, soit 59 pages de texte en français qui ont été corrigées trois fois pour que la qualité soit parfaite. (Merci Faten, Boris et Laurence !)
Quelques jours plus tard, alors que j’étais en train de peaufiner la présentation pour répondre à un appel d’offres, j’apprenais que notre client potentiel (un grand fabricant français) voulait notre réponse en anglais. Nous n’avions qu’un jour pour livrer 59 pages de contenu anglais parfait !
Permettez-moi de vous expliquer pourquoi, en tant que PDG d’une société de traduction, j’ai décidé de répondre à un appel d’offres décisif en soumettant à une traduction automatique l’un de nos documents commerciaux les plus importants.
Depuis 2007, Lexcelera a intégré la traduction automatique pour répondre aux demandes de traductions de certains clients dans plusieurs cas de figure : pour leur permettre de comprendre le contenu d’un brevet ou d’un document technique, pour traduire leurs rapports internes, pour convertir automatiquement des sites Web dans d’autres langues ou encore pour fournir une première ébauche de traduction qui est ensuite corrigée (« post-éditée ») par nos équipes afin d’obtenir une qualité irréprochable.
Depuis lors, nous suivons toutes les évolutions technologiques dans le domaine de la traduction automatique.
Commençons par quelques mots sur la TAN ou traduction automatique neuronale, également appelée NMT (Neural Machine Translation).
Qu’est-ce que la traduction automatique neuronale ?
La traduction automatique neuronale a seulement quelques années d’existence. Les premiers articles qui présentent ce nouvel outil datent de 2013.
Là où les précédents outils de traduction automatique s’appuyaient sur des règles linguistiques, ou des probabilités statistiques, la TAN emploie les nouvelles technologies du deep learning. On parle aujourd’hui de réseaux de neurones récurrents (RNN) animés par l’intelligence artificielle. Ces nouveaux moteurs de traduction automatique sont désormais en mesure de tenir compte du contexte (tout ce qui se trouve avant et après l’élément à traduire) lorsqu’ils traitent une phrase. Ils sont aussi capables de faire des apprentissages et de devenir « plus intelligents » à mesure qu’on leur fournit du contenu de qualité.
De nombreuses sociétés, et notamment les fameux GAFAM se sont tournées vers cette innovation. Ces grandes entreprises, figurant parmi les leaders de leurs secteurs, ont développé leurs propres solutions de traduction automatique neuronale.
Les découvertes liées aux réseaux de neurones artificiels permettent également des avancées impressionnantes dans les domaines de la synthèse vocale et de la reconnaissance faciale.
Les acteurs du secteur et leurs solutions
Parmi les solutions du marché on retrouve Microsoft Translator, Pure Neural de Systran et Google Translate.
Certains éditeurs moins connus ont également obtenu des résultats très intéressants, allant jusqu’à voler la vedette à des géants comme Google ; c’est le cas de DeepL. Citons également SDL Translate et Iconic qui se sont taillés une part du marché qu’est la traduction automatique neuronale.
La société Systran, un des pionniers de la traduction automatique, partage notamment ses découvertes liées à la TAN à toute une communauté Open Source pour faire avancer le domaine.
Les bénéfices de la traduction automatique neuronale
Les avantages pour nos clients sont bien évidemment des économies et un gain de temps non négligeables. La traduction automatique permet de traiter de nombreux contenus qui n’auraient jamais été traduits auparavant, par manque de temps ou d’argent. Et lorsque le moteur automatique est bien entraîné, le gain de productivité est considérable.
Jusqu’à présent, la traduction automatique était réservée aux contenus simples ou techniques, en excluant le marketing ou les contenus jugés trop rédactionnels. Le contenu de notre présentation d’entreprise était justement très orienté marketing. J’étais désespérée car il nous fallait une traduction instantanée pour pouvoir respecter la date limite de soumission de l’offre.
Mon expérience avec l’outil de TAN de Systran
Jusqu’alors, la traduction automatique nécessitait énormément de corrections, à moins d’avoir très bien entraîné le moteur. Et il se trouve que nous sommes spécialisés dans l’entraînement de bons moteurs de traduction. Concernant ce bêta-test, le moteur de TAN de Systran était un moteur générique, non entraîné. Pourtant, il a fait des merveilles avec notre présentation d’entreprise.
Nous avons évidemment dû apporter des corrections, mais j’ai été surprise de constater si peu d’erreurs. L’outil semblait comprendre notre propos et l’a traduit avec fluidité. La plupart du temps, la terminologie était juste et les phrases sonnaient bien.
La traduction avait cependant déraillé à certains endroits. (Je me demande, d’ailleurs, comment un nouveau moteur de TAN traduirait « off the rails » en français.) Le logiciel laissait parfois un mot anglais au beau milieu d’une phrase française ou répétait bizarrement le même mot deux fois. Et environ toutes les trois à quatre phrases, il y avait une erreur flagrante à corriger. Malgré cela, j’ai été stupéfaite de pouvoir laisser des phrases entières sans la moindre retouche.
La plupart des erreurs relevées à l’époque étaient faciles à corriger, comme des répétitions de mots ou des termes que le système ne connaissait pas. (Ironiquement, le système de TAN de Systran n’a pas reconnu le terme « post-édition » en français et a traduit « relecture » par « re-reading ».)
Aujourd’hui, après trois années de développement supplémentaires, l’outil Pure Neural de Systran est capable d’analyser le contexte des contenus qu’il traduit pour produire des résultats encore plus précis. Les progrès réalisés en seulement quelques mois sont tout simplement bluffants.
Vers de nouveaux paradigmes pour la traduction automatique neuronale
Les premiers moteurs de TAN étaient capables de traiter des séquences de plusieurs mots à la fois et d’en comparer la cohérence. On parle alors de modèle CNN ou « Réseau neuronal par convolution ».
Aujourd’hui, on utilise le modèle RNN pour « Réseau neuronal par récurrence ». Les nouveaux moteurs de TAN sont capables d’analyser le contexte d’un document en entier, voire de documents de référence, pour trouver la meilleure manière de traiter une phrase ou un segment. Cette avancée élimine la grande majorité des erreurs et permet une traduction plus fluide et naturelle, bien loin des premiers balbutiements de la traduction automatique.
Toutes ces avancées technologiques posent évidemment la question de la place de l’être humain dans les processus de traduction.
Quelle place pour l’humain à l’ère de la traduction automatique neuronale ?
Les linguistes informaticiens de Lexcelera ont et auront encore un rôle à jouer dans l’entraînement des moteurs de TAN. Il y a toujours des noms de produits et de la terminologie interne à respecter et à protéger et des formes colloquiales à ajuster. En bref, un langage client que la machine doit apprendre en continu sur la base des données que nos linguistes lui préparent.
Un être humain fera aussi des choix différents, apportera des valeurs culturelles ou émotionnelles à un texte, contrairement à un moteur de TAN. L’outil ne sait en effet pas s’éloigner du texte source. Les disciplines telles que la transcréation, qui consiste en une traduction plus libre, plus créative et plus idiomatique dans la langue cible, sont donc pour le moment hors de portée d’un moteur de TAN.
Plus important encore, les post-éditeurs de Lexcelera devront toujours lire chaque phrase pour se prémunir contre les erreurs et les omissions. (C’est toujours mon avis aujourd’hui, malgré les avancées importantes de ces outils.) Ils doivent même y apporter une vigilance très particulière, les erreurs sur l’output étant bien plus subtiles et difficiles à percevoir. En tout état de cause, même si la TAN n’est pas irréprochable, elle ne se contente plus de donner une compréhension générale d’un texte, mais bien une traduction valide. Ce n’est pas la perfection, mais cela s’en rapproche. La post-édition devient donc plus rapide, et cela permet aux post-éditeurs humains de traiter davantage de contenus, en moins de temps. Après deux années de mise en production, nous avons pu constater des gains de productivité de 60 % par rapport aux technologies précédentes et de 230 % par rapport à la seule traduction humaine.
L’avenir commence aujourd’hui, et le défi de Lexcelera, comme celui de tous les professionnels amoureux des mots, multiculturels et multilingues (en d’autres termes, les traducteurs), sera d’asseoir notre pertinence face à des outils de plus en plus performants chaque jour, alimentés par les dernières avancées de l’intelligence artificielle et du deep learning.
Lexcelera travaille activement à ce nouvel avenir en s’assurant de rester à l’avant-garde. La traduction automatique, simple comme neuronale, fait à présent partie intégrante du monde de la traduction. Nous consacrons environ 7 % de notre masse salariale à la R&D pour nous assurer de rester à la pointe de ces technologies.
Aujourd’hui, l’investissement porte ses fruits car nous avons travaillé avec ces technologies linguistiques assez longtemps pour les maîtriser. Nous savons comment les personnaliser, les adapter et les améliorer. Mais il ne s’agit pas seulement d’un travail informatique : nous entraînons de bons moteurs de traduction automatique en misant sur le talent humain. Les traducteurs professionnels, les post-éditeurs, et les linguistes informaticiens auront toujours leur place chez Lexcelera.
Nos métiers sont en évolution, mais ce n’est pas nécessairement un mal. À nous de nous adapter à ces nouveaux usages et de nous frayer un chemin là où la traduction automatique ne peut pas encore aller. Profitons également des avantages qu’elle apporte en matière de traitement de plus gros volumes de contenus. Trois ans après notre bêta-test de l’outil de Systran, la TAN n’a pas totalement changé le monde de la traduction. Elle représente un nouvel outil aux multiples possibilités pour ceux et celles qui oseront sauter le pas.
Restez à l’écoute !
Lori Thicke