Classification de textes grâce à la compression

De Wiki du LAMA (UMR 5127)
Aller à la navigation Aller à la recherche

Introduction:

L'objectif de notre projet est de créer et d'étudier un algorithme de classification de texte grâce à la compression.
Avec la compression, qui est un procédé basé sur des statistiques,
on peut théoriquement reconnaître deux textes comportant les mêmes mots et phrases grâce à leurs compressions qui seront similaires.
En se basant sur ce concept, un groupe de chercheurs a créé un algorithme de 12 lignes pouvant faire cette classification.
Notre objectif va donc être de le recréer et de l'étudier pour le comparer à des algorithmes basés sur le Learning.

Les réseaux de neurones profonds :

Ilan Pour bien comprendre ce dont nous allons parler ici il faut comprendre ce que sont les réseaux de neurones profonds ou le Deep learning en anglais. Cette méthode a redessiné les capacités de l’intelligence artificielle en exploitant des architectures profondes inspirées du cerveau humain. Ces modèles apprennent à extraire des représentations depuis des données complexes, et ils alimentent aujourd’hui de nombreux services automatisés. La méthode proposé par les chercheurs à pour but de concurencer ces réseaux de neurones et étant donné qu'il existe beaucoup de ces modèles c'est un des plus puissants qui à été choisi, il s'agit de BERT

Fonctionnement général :

Ilan ...

Les résultats des chercheurs :

Ilan ...

ce qu'on a utilisé

Martin ...

parametre fonction

Martin ...

structure code

Martin ...

Notre test

Martin ...

Comparaison avec les test des chercheurs :

Ilan ...

Conclusion :

Ilan ...