Introduction
Un identificateur de la langue est un classificateur automatique.
Il calcule la ressemblance d'un texte avec les textes de référence précédemment introduits.
Pourquoi l'avons-nous développé ?
Cette technologie fait partie intégrante d'un robot d'indexation capacble d'extraire du Web les informations utiles à nos traducteurs.
Nous l'utilisons également pour vérifier que nous n'avons pas oublié de traduire des phrases dans un projet et pour améliorer la capacité d'utilisation des interfaces Web comme notre traducteur automatique
S'agissant d'un classificateur automatique, il peut être facilement utilisé pour dire à quelle catégorie appartient un document en lui fournissant des documents d'exemple.
Pour cette raison, nous l'utilisons également pour classifier notre correspondance et pour identifier le sujet d'un texte écrit dans une langue que nous ne comprenons pas.
Technologie
Créé une repréesntation n-dimensionnelle du texte (Vector Space Model) en utilisant
comme coordonnées les propriétés statistiques des séquences d'octets trouvées dans le texte. Elle réalise la même opération sur les textes de référence précédemment introduits.
Dans l'espace n-dimensionnel, le texte introduit aura une position précise. Le texte de référence qui lui est le plus proche sera celui qui lui ressemble le plus.
Je le veux !
Si cette technologie vous intéresse, nous vous invitons à en savoir plus sur les
Translated Labs et sur les services pour le
Traitement automatique de la langue.
Je peux faire mieux !
Si vous pensez pouvoir améliorer ces applications, si vous êtes passionnés d'extraction d'informations, de traitement de langage naturel, d'apprentissage automatique ou d'intelligence artificielle de manière plus générale, vous avez trouver le bon endroit pour travailler.
Nous envoyer un CV