Introduction
La terminologie est l'ensemble des termes qui identifient un sujet spécifique.
L'extraction de la terminologie est le processus d'extraction de la terminologie d'un texte.
L'idée est de comparer la fréquence des mots dans le document et leur fréquence dans la langue.
Des mots très fréquents dans le document, mais rares dans la langue sont probablement des termes.
Technologie
Il utilise la statistique de Poisson, la méthode du maximum de vraisemblance et Inverse Document Frequency (Latent Semantic Analysis) parmi
les fréquences des mots dans le document et le corpus de textes génériques de 100 millions de mots par langue.
Il utilise un analyseur morphologique de probabilité pour tenir compte de la probabilité qu'une certaine séquence puisse
être un terme. Il créé les n-grammes de mots en minimisant l'entropie relative.
Pourquoi l'avons-nous développé ?
Translated a développé cette technologie pour aider ses traducteurs à connaître quelles seront
les difficultés qu'ils rencontreront dans un document et pour simplifier le processus de création des glossaires.
Je le veux !
Si cette technologie vous intéresse, nous vous invitons à en savoir plus sur les
Translated Labs et sur nos services pour le
Traitement automatique de la langue.
Je peux faire mieux !
Si vous pensez pouvoir améliorer ces applications, si vous êtes passionnés d'extraction d'informations, de traitement de langage naturel, d'apprentissage automatique ou d'intelligence artificielle de manière plus générale, vous avez trouver le bon endroit pour travailler.
Nous envoyer un CV