NLP : Comment Trint a bouleversé la production de contenus pour toujours

Je suis un passionné du traitement du langage naturel (NLP* en anglais pour Natural Language Processing*) depuis longtemps. J’ai en effet utilisé la synthèse vocale pour écrire des livres et des articles de blog depuis près de 20 ans maintenant. Je l’ai découvert en allant voir mon médecin et en me rendant compte qu’il utilisait Dragon NaturallySpeaking pour dicter à cet ordinateur. Alors, je me suis dit : « S’il peut le faire, pourquoi pas moi ? » Depuis lors, les choses se sont améliorées de façon spectaculaire. Trint, que j’ai découvert en 2018 sur la recommandation d’un ami, a changé la donne dans l’arène de la NLP. J’ai interviewé son PDG et fondateur, Jeff Kofman, pour découvrir la genèse du système et pour lui demander son avis sur l’avenir de la NLP.

*voir la mise au point en fin d’article 

NLP : Comment Trint a bouleversé la production de contenus pour toujours

J’ai commencé à l’utiliser au début de l’année 2002. Cela veut dire que ce type d’outils n’est pas nouveau pour moi, mais lorsque j’ai découvert Trint il y a deux ans, j’ai été impressionné par ses capacités. C’était un changement radical dans le marché de la NLP, sans aucun doute, cette chose changeait la façon dont nous produisions le contenu entièrement et pour toujours. 

NLP
Jeff Koffman, PDG et fondateur de Trint, société de NLP basée à Londres (photo de Jeff Koffman, LinkedIn)

La difficulté avec la NLP, au moins dans les premiers temps, était la capacité à reconnaître n’importe quel type de voix et même éventuellement deux voix différentes (ou plus) dans le même enregistrement. Cela peut vous paraître mineur, mais comme le remarque Jeff Koffman dans l’interview ci-dessous, la prouesse ne réside pas dans le moteur lui-même, car celui-ci est le résultat d’un travail technique si ancien que vous aurez peut-être même du mal à le croire. 

Le véritable défi consiste à faire fonctionner ce genre d’outils dans un véritable environnement de travail. 

Le vrai problème de la production de contenu est que vous commencez souvent par un enregistrement. C’est parce qu’il est beaucoup moins exigeant que de prendre des notes, et aussi beaucoup plus pertinent et fiable.

Ainsi, même si le traitement du langage naturel existe depuis longtemps, il n’y avait jamais eu jusqu’à présent d’outil adéquat, capable de détecter différentes voix dans un même enregistrement. De même qu’un système capable de transcrire tout type de voix et tout type d’accent sans aucun entraînement.

Nuance, qui vient d’abandonner le support de Dragon pour Mac, laissant ainsi un vide énorme sur ce marché, nécessite encore une formation adéquate et n’est capable de détecter qu’une voix à la fois. Trint, au contraire, est extraordinaire. 

Je l’utilise donc tout le temps, en me concentrant pleinement sur la qualité de mon contenu, autrement qu’en essayant simplement de me souvenir de ce que la personne a dit ou, pire encore, en passant des heures à essayer de transcrire ce qu’elle a dit.

Je voulais interviewer Jeff Koffman depuis longtemps, et l’organisation de la conférence a pris beaucoup de temps. Je suis ravi de pouvoir présenter cette interview sur visionarymarketing.com. 

Jeff Kofman : « Je me qualifie d’entrepreneur par accident. »

Je me considère comme un entrepreneur par accident. Si vous m’aviez dit, il y a dix ans, que je dirigerais une entreprise de 50 employés dont le chiffre d’affaires se chiffrerait en millions et même que je serais un homme d’affaires, je vous aurais ri au nez. 

J’ai été journaliste de la télévision canadienne et américaine pendant plus de 30 ans. J’ai passé la dernière moitié de ma carrière comme correspondant à l’étranger et correspondant de guerre pour ABC News. Et avant cela, pour CBS News, les grandes chaînes américaines qui font des reportages pour l’Amérique latine, puis la guerre en Irak et toutes sortes d’autres conflits, puis j’ai déménagé à Londres et couvert le Printemps arabe où j’ai gagné ma deuxième Emmy Award. 

Il y a un concept appelé  » adéquation du produit au marché (market fit) ». Et je suppose que j’ai autrefois trouvé une adéquation de ma personne à l’emploi, si l’on peut dire, parce que j’ai aimé mon métier. C’était incroyablement dur. Ce fut extrêmement exigeant pendant plus de 20 ans de ma carrière. J’étais sur le pont 24 heures sur 24, 7 jours sur 7.

C’est extrêmement motivant, mais c’est épuisant. Et je réalisais 100 vols par an au plus fort de mes déplacements. C’était très exotique, très stimulant et parfois incroyablement émouvant et souvent très créatif. 

NLP
Naturellement, j’ai utilisé Trint pour transcrire l’interview de Jeff. Ici, j’ai utilisé les fonctionnalités standard de l’outil pour synchroniser mon texte avec l’enregistrement et corriger quelques phrases ici et là. Trint est beaucoup plus puissant que cela, car vous pouvez même éditer vos sous-titres dans une vidéo Premiere directement comme indiqué dans le Tweet ci-dessous.

Pourquoi dois-je transcrire mes interviews au 21e siècle ?

Je n’aurais pas pu trouver meilleure carrière, mais je savais qu’à un moment donné, j’allais atteindre ma date limite de vente à la télévision américaine. Donc, vous voyez, il valait mieux essayer de sauter avant d’être poussé vers la sortie. Et alors que j’explorais des opportunités en enseignant à l’université tout en travaillant encore pour ABC News comme correspondant à Londres, je cherchais à écrire un livre. Et j’ai rencontré des développeurs logiciels qui avaient travaillé dans les domaines du texte et de la voix. 

Et je leur ai dit : « Pourquoi dois-je transcrire mes interviews, discours, conférences de presse au 21e siècle comme on le fait depuis les années 60 ou 70, avec l’apparition des magnétophones sur le marché ? » Et cela nous a menés à une conversation sur ce à quoi la solution pourrait ressembler. Et ensuite, cela a donné lieu à une collaboration concrète et à une expérimentation qui a abouti à un résultat incroyablement stimulant. 

Nous pensions pouvoir inventer le futur.

Avec ces gens que je ne connaissais pas vraiment, nous avions juste été en contact via Skype ; nous avons pensé que nous pouvions inventer le futur. J’ai quitté ABC News le 30 novembre 2014. Et douze heures plus tard, nous commencions à travailler sur ce sujet. 

J’ai pris l’avion pour Florence, en Italie, où j’ai rencontré les trois développeurs dans un Airbnb. Et nous avons commencé à définir ce que serait ce service. Et je n’avais aucune expérience des affaires. Je n’avais jamais managé personne, ni touché un tableur et je n’avais jamais compris comment on développait un logiciel. Mais j’ai eu le sentiment croissant que le monde avait vraiment besoin de cette solution que nous pourrions produire et développer. 

Un produit de NLP pour résoudre les problèmes des producteurs de contenu

Le produit a été lancé commercialement en septembre 2016 auprès des « prosumers ». Nous les appelons ainsi parce que c’est un produit professionnel, et non un produit de consommation. Mais nous l’avons lancé le service auprès des particuliers et il a immédiatement eu le vent en poupe.

Cela signifie que nous avons manifestement résolu un problème que les gens avaient envie de voir traiter. Si vous êtes un journaliste comme moi, un chercheur universitaire, si vous travaillez dans n’importe quel type de production de contenu, la douleur la plus importante est de trouver les moments importants dans un enregistrement. Cela signifie écouter, repasser la bande, arrêter, taper les mots, repasser la bande à nouveau et arrêter encore, taper d’autres mots, etc. 

Tous ceux qui ont pratiqué cela connaissent cette routine. Et si vous leur demandez ce qu’ils pensent de cela, ils vous répondent :  » Ah ! quelle plaie, quelle corvée, c’est la chose que je déteste le plus !  » et quand je disais, si nous pouvions automatiser la pire partie de ce processus, que diriez-vous ? Alors ils répondaient « cela serait magique ». Sans blague, vous seriez mon sauveur ! ». 

Voyez la quantité de messages de remerciements que nous recevons à @TrintHQ

Si vous regardez notre fil Twitter à @TrintHQ, vous verrez la quantité de messages de remerciement que nous recevons. Nous avons lancé Trint Enterprise en avril 2018, et nous nous sommes concentrés sur la construction de Trint pour les équipes et la collaboration, pour la transcription en direct. Nous avons ajouté une application mobile, car les utilisateurs nous ont dit comment ils voulaient résoudre leurs problèmes spécifiques. Plus de trois cent mille personnes ont utilisé la plateforme depuis son lancement. 

Nous avons conclu notre tour de table de série A en avril 2019 avec 4,5 millions de dollars américains, nous avons 51 employés, dont 41 ici à Londres et 10 à Toronto, où nous avons un bureau de vente en Amérique du Nord. Et les deux bureaux vont connaître une croissance importante en 2020. 

Trois segments d’utilisateurs : les individus, les petites équipes et les entreprises

Nous ne publions pas nos chiffres quotidiens ni hebdomadaires, mais notre base d’utilisateurs continue de croître de manière significative, et nos utilisateurs se comptent par milliers. Nous avons maintenant trois segments d’utilisateurs. Nous avons des individus ; nous avons ce que nous appelons des équipes, c’est-à-dire de deux à dix personnes. Ce sont de petites unités de production, des groupes d’universitaires, des sociétés de marketing, toute personne qui a besoin d’une recherche qualitative ou qui doit produire un contenu à partir d’un enregistrement, qu’il soit audio ou vidéo. Et puis nous avons Trint Enterprise, pour les équipes de plus de 11 personnes, et nous commençons vraiment à nous développer et à signer des contrats importants avec des entreprises de médias, des gouvernements, des sociétés de marketing, des universités et ainsi de suite. 

Nous sommes passés d’une économie basée sur le texte à une économie basée sur la voix.

Nous sommes passés d’une économie fondée sur le texte au 20e siècle à une économie fondée sur la voix au 21e siècle. Et donc le besoin de Trint au quotidien, concerne à peu près pour tout le monde. Si vous vous replacez au 20e siècle, certes nous avions la radio et la télévision, mais le texte était encore la forme dominante de communication, que ce soit au travers des rapports écrits ou des journaux, des imprimés sur papier ou des cartes postales écrites à nos familles quand nous voyagions. Ou avant cela, les télégrammes de nos grands-parents et arrière-grands-parents. Le texte était partout à cette époque. 

Tout cela se fait maintenant sur WhatsApp, Uberconference ou Zoom. Dans des enregistrements réalisés sur nos iPhone ou Androids. Plus de 84 % du trafic sur Internet se fait sous forme de vidéos. Si vous regardez l’essor du podcasting, vous pouvez voir que les gens sont poussés à écouter le New York Times, et pas seulement à lire le texte à l’écran. 

La composante PNA est rapidement devenue une commodité

La composante de traitement du langage naturel est rapidement devenue une commodité. L’histoire du traitement du langage naturel remonte probablement aux années 60 ou 70. Et les bases actuelles des algorithmes ont vraisemblablement 40 ou 50 ans. Ce qui a changé au cours des 20 dernières années, c’est à la fois la vitesse de calcul et la capacité de stockage. 

Et c’est pourquoi vous avez vu cette avancée massive de l’intelligence artificielle en général et du traitement du langage naturel, du traitement en particulier. La raison pour laquelle vous obtenez de si bons résultats en anglais est simplement que le corpus des données d’apprentissage est maintenant si vaste. Et donc nous n’avons pas besoin ou ne voulons pas apprendre de vous en particulier. 

À ce propos, nous tenons à avoir les plus hauts niveaux de certification de sécurité des données disponibles. Nous sommes certifiés par l’Organisation Internationale de Normalisation (ISO 27001). C’était un projet de deux ans et demi. 

Les données de tout le monde sont séparées de celles des autres. Et l’important est que nous ne regardons pas vos données. Nous n’en avons pas besoin parce que, en particulier en anglais, c’est maintenant à un niveau si sophistiqué et monétisé que la réalité est qu’il y a moins de dix algorithmes majeurs de traitement du langage naturel disponibles. Et la plupart d’entre eux, les meilleurs, sont relativement proches dans leur précision parce que cela devient maintenant une science exacte. 

Le véritable défi du NLP est de savoir comment l’utiliser pour résoudre les problèmes des gens.

Le défi est de savoir comment utiliser ces résultats de manière à résoudre les problèmes des utilisateurs. Parce que ce que j’ai découvert en tant que journaliste devenu entrepreneur, c’est que c’est une chose de produire quelque chose de cool et qui fait que les gens feront waouh ! C’est une autre chose que de transformer cela en un produit réel qui résout les problèmes quotidiens des gens. Et c’est là que nous sommes devenus très spécialisés, car il n’y a pas que l’IA. C’est le moteur de cette tendance ; c’est l’IA appliquée. C’est l’interface utilisateur qui est si importante. Et c’est là que nous sommes devenus des experts. 

Nous sommes maintenant disponibles en 28 langues, toutes les principales langues européennes plus les principales langues asiatiques. Ce que nous voyons maintenant, c’est la capacité de former automatiquement un algorithme pour faire de la NLP dans des langues où le modèle économique ne l’aurait pas rendu viable il y a cinq ans, et encore moins dix ans.

Une API pour intégrer la NLP dans vos applications propriétaires

L’API est utilisée pour le téléchargement pour Trint Enterprise. Si vous intégrez Trint dans un logiciel propriétaire, le but est de faciliter autant que possible l’accès à votre module d’extension par les utilisateurs. Ainsi, l’API signifie, par exemple, que l’Associated Press, utilise Trint au sein de leur plateforme de gestion de contenu appelée ENPS (pour Electronic news production system). C’est une plateforme propre à Associated Press qui a sa division commerciale. Il est utilisé par quelque 800 organisations dans le monde entier. Ils ont intégré leur version interne de l’ENPS dans leur fenêtre vidéo où, dans la liste déroulante pour l’exportation, il n’y a qu’à indiquer qu’on désire envoyer un Trint, et cela en utilisant notre API. Et cela signifie que les gens n’ont pas à aller dans Chrome et à télécharger leur fichier. Ils peuvent le faire directement à partir de là.

Une vision pour l’avenir du traitement du langage naturel 

Je pense que le potentiel commence tout juste à être envisagé. Je crois que lorsque je regarde ce que notre produit pourrait devenir, non seulement dans cinq ans, mais dans deux ans, je pense aux couches de métadonnées et d’analyse que nous pouvons faire sur la parole. 

Et d’une certaine façon, le défi consiste à trouver comment les appliquer. Mais je pense que l’analyse des sentiments et la reconnaissance vocale, la reconnaissance du locuteur, sont des éléments que vous allez voir beaucoup plus automatisés dans le contenu au fur et à mesure qu’il sera capturé ou téléchargé.

Ce que nous considérions jusqu’à récemment comme un enregistrement, qui n’est que de l’audio et de la vidéo, commencera très probablement dans un avenir proche, puis dans un avenir intermédiaire, à se voir accoler automatiquement des couches conséquentes de métadonnées. Et je pense que cela va complètement changer la façon dont nous traitons les enregistrements.

Il va sans dire que cette interview a été transcrite en utilisant Trint, avec seulement quelques modifications mineures, puis traduite en français. Nous sommes de grands utilisateurs de Trint et nous sommes fiers de participer aux séances de feed-back des utilisateurs à chaque fois que cela est possible. Avec Trint, il est possible de percevoir un petit bout de l’avenir du logiciel pour les professionnels du contenu. Il fait partie d’une gamme de produits et services novateurs que nous pouvons utiliser, en tant que spécialistes du marketing de contenu, pour produire un contenu de meilleure qualité et plus attrayant au profit de nos lecteurs et clients.

 


*Je me suis fait interpeler, à juste titre, sur l’usage des termes techniques par Carole Lailler. J’ai proposé à Carole, Dr en sciences du langage, de nous éclairer dans un prochain article sur tous ces éléments techniques, la clarification du vocabulaire étant certainement très utile aux innovateurs. En attendant, il vous faudra faire avec mes approximations. Mais ce jeu en vaut néanmoins la chandelle et je vous invite en attendant à essayer ce superbe outil.

suivez moi !

Yann Gourvennec

PDG & fondateur chez Visionary Marketing
Yann Gourvennec a créé le site visionarymarketing.com en 1996. Il est intervenant et auteur de 4 ouvrages édités chez Kawa. En 2014 il est devenu entrepreneur, en créant son agence de marketing digital Visionary Marketing.
suivez moi !

Votre avis nous intéresse :

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.