Introduction
Cette application cherche les relations sémantiques dans un texte en analysant les propriétés statistiques des mots.
Elle ne se base pas sur des règles, mais sur la probabilité que deux mot puissent apparaître dans la même phrase sans qu'ils aient une relation.
Pourquoi l'avons-nous développé ?
Cette technologie fait partie intégrante d'un projet plus complexe capable d'extraire du Web la terminologie traduite.
Pour donner un exemple, si nous voulions trouver sur le Web la traduction anglaise de Métallisation, il serait difficile de trouver des sites bilingues pour extraire l'information.
Toutefois nous trouverons sur Google 223000
pages françaises qui parlent de "Métallisation". A partir de ces pages, nous découvrons que la Métallisation possède des relations sémantiques
avec "vide", "installation", "peinture", "finition", "métal" dont nous connaissons acilement les traductions en anglais.
A ce stade, nous pouvons chercher ce qu'ont en commun les mots "vacuum", "plant", "paint", "metal" la réponse est "Metallization",
la traduction que nous cherchions !.
Une autre application de cette technologie est Semantix, notr produit de recherche sémantique.
Technologie
Elle créé un représentation n-dimensionnelle des mots (PLSA) en utilisant
comme coordonnées les propriétés statistiques des mots qui apparaissent à côté.
Cette démonstration utilise comme corpus les débats du parlement européen.
Je le veux !
Si cette technologie vous intéresse, nous vous invitons à en savoir plus sur les
Translated Labs et sur les services pour le
Traitement automatique de la langue.
Je peux faire mieux !
Si vous pensez pouvoir améliorer ces applications, si vous êtes passionnés d'extraction d'informations, de traitement de langage naturel, d'apprentissage automatique ou d'intelligence artificielle de manière plus générale, vous avez trouver le bon endroit pour travailler.
Nous envoyer un CV