« INFO424 : Projet en informatique » : différence entre les versions
Aucun résumé des modifications |
|||
(3 versions intermédiaires par le même utilisateur non affichées) | |||
Ligne 111 : | Ligne 111 : | ||
// si ``c`` est une lettre minuscule ( 'a' <= c && c <= 'z' ) |
// si ``c`` est une lettre minuscule ( 'a' <= c && c <= 'z' ) |
||
// si ``c`` est une lettre accentuée ( "àÀâÂéÉèÈêÊëÊîÎïÏôÔöÖùÙ".indexOf(c) != -1 ) |
// si ``c`` est une lettre accentuée ( "àÀâÂéÉèÈêÊëÊîÎïÏôÔöÖùÙ".indexOf(c) != -1 ) |
||
// Si c |
// Si ``c`` ne satisfait pas l'un des trois tests, alors ``s`` n'est pas un mot! |
||
} |
} |
||
</code> |
</code> |
||
Ligne 142 : | Ligne 142 : | ||
</code> |
</code> |
||
<B>ATTENTION</B> afin d'obtenir des résultat pertinents, ignorez tous les ``p_m`` dont la valeur est 0 ou 1. Si vous les incorporez dans votre calcul, tous les autres ``p_mi`` seront ignorés et le résultat final sera systématiquement 0 ou 1 (ou ``Nan`` car vous risqueriez de faire une division par zéro). |
|||
= Bases de données à télécharger = |
= Bases de données à télécharger = |
||
Ligne 148 : | Ligne 148 : | ||
Afin de tester votgre code, vous pouvez utiliser la banque de courriels suivants : |
Afin de tester votgre code, vous pouvez utiliser la banque de courriels suivants : |
||
- [http://lama.univ-smb.fr/~ |
- [http://lama.univ-smb.fr/~provencal/enseignement/INFO424/emails.zip emails.zip] |
||
Dernière version du 8 mars 2017 à 11:07
Responsable pour 2016--2017: Xavier Provençal
Présentation du projet
Serveur SVN
Premier checkout du dépôt SVN
Cette manipulation n'est à effectuer une seule fois par chacun des membres de l'équipe. Le résultat sera la création d'un dossier qui sera synchronisé entre les membres de l'équipe par un gestionnaire de versions.
- Avec un éditeur de texte, ouvrir le fichier ~/.ssh/config et y ajouter les lignes suivantes (VOTRENOM doit être remplacé par votre nom d'utilisateur) :
Host serveursvn Hostname os-vps418.infomaniak.ch User VOTRENOM Port 622
- Ouvrir un terminal et entrer la commande :
ssh serveursvn
- Une fois connecté, entrez la commande :
hostname
- Si la réponse n'est pas "depots", c'est que la connexion a échouée... vérifiez les étapes précédentes. Si la réponse est "depots" alors changez votre mot de passe en entrant la commande :
passwd
- Changer votre mot de passe n'est pas optionnel. D'ici quelques jours un script tentera de se connecter en utilisant votre ancien mot de passe. S'il réussi, il supprimera tout vos fichiers !
- Déconnectez vous en faisant CTRL-D.
- Dans le terminal, positionnez vous dans un dossier approprié pour effectuer le "checkout". Le "checkout" va créer un dossier du même nom que votre équipe de projet. Pour effectuer le "checkout" faites (EQUIPE doit être remplacé par votre nom d'équipe tel qu'écrit au champs GROUP sur la feuille qui vous a été distribuée) :
svn checkout svn+ssh://serveursvn/var/svn/EQUIPE
- C'est fini ! Un des membres de l'équipe va maintenant ajouter au dépôt les guides et les fichiers java réalisés lors de la première séance.
Ne plus entre son mot de passe à chaque connexion
Lorsque vous interragissez avec votre dépôt svn vous établissez d'avord une connexion ssh. Il existe deux façons de s'identifier lorsqu'on établie une connexion ssh :
- Entrer un mot de passe.
- Échanger des clés.
Pour s'identifier par échange de clé, il faut posséder une paire clé publique / clé privée. Tout d'abord, vérifiez si vous possédez déjà des clés, entrez la commande :
ls ~/.ssh/id_rsa*
Si les deux fichiers id_rsa et id_rsa.pub sont listés alors vous possédez déjà des clés. Sinon, entrez la commande :
ssh-keygen
Acceptez les valeurs pas défaut et n'entre rien comme passphrase. Voilà, vos clés ont été générées.
Activez l'identification par échange de clés. Entrez la commande :
ssh-copy-id serveursvn
Vous entrez alors votre mot de passe pour la dernière fois. À partir de ce moment vous serez identifier pas échange de clés.
Aide à la programmation
Lister les fichiers présents dans un dossier
En entête du fichier, ajoutez la ligne :
import java.io.File;
La fonction suivante, affiche la liste des fichiers et dossiers présents dans le dossier ``chemin``.
static void listeFichiersDansDossier( String chemin )
{
File dossier = new File( chemin );
File[] listeDesFichiers = dossier.listFiles();
for ( File f : listeDesFichiers ) {
if ( f.isFile() ) {
System.out.println("Fichier : " + f.getName());
} else if ( f.isDirectory() ) {
System.out.println("Dossier " + f.getName());
}
}
}
Identifier les mots
Après avoir retiré les balises html du coprs d'un message, il faut être en mesure de la découper en mots. Voici une méthode très simple afin de découper les lignes de texte en mots.
// on suppose que 'ligne' de type String et contient une ligne de texte
for ( String s : (subject + " " + body).split( "[ ,.!?'’…]" ) )
{
s = s.toLowerCase();
if ( estMot(s) )
{
// ajouter ce mot à la l'ensemble des mots de ce message.
}
}
Dans le code ci-dessus, on utilise la fonction ``estMot``. Cette fonction prend en entrée une chaîne de caractères et retourne un booléen indiquant s'il s'agit bien d'un mot ou non. Par exemple, les courriels contiennent souvent des images dont le code est inclus dans le corps du message, format des suites de caractères incompréhensibles. La fonction ``estMot`` doit être en mesure de détecter ce genre de suites de caractères qui ne correspondent pas à des mots.
private boolean estMot(String s)
{
// Si la longueur de s est zéro ou supérieure à 25 alors ``s`` n'est pas un mot. On fixe la limite à 25 car 'anticonstitutionnellement' est de longueur 25 !
// Pour chaque lettre ``c`` de ``s``, on teste :
// si ``c`` est une lettre majuscule ( 'A' <= c && c <= 'Z' )
// si ``c`` est une lettre minuscule ( 'a' <= c && c <= 'z' )
// si ``c`` est une lettre accentuée ( "àÀâÂéÉèÈêÊëÊîÎïÏôÔöÖùÙ".indexOf(c) != -1 )
// Si ``c`` ne satisfait pas l'un des trois tests, alors ``s`` n'est pas un mot!
}
Calcul des probabilités
Une fois votre programme d'analyse terminé, votre second programme, le juge, détermine si un courriel donné est un spam ou non. Le détail des calcul est bien expliqué sur la page wikipedia :
Probabilité pour un mot : https://fr.wikipedia.org/wiki/Filtrage_bay%C3%A9sien_du_spam#Calculer_la_probabilit.C3.A9_qu.27un_message_contenant_un_mot_donn.C3.A9_soit_un_spam Combiner les probabilités : https://fr.wikipedia.org/wiki/Filtrage_bay%C3%A9sien_du_spam#Combiner_les_probabilit.C3.A9s_individuelles
Comme suggéré, nous feront l'hypothèse que, de manière générale, la probabilité qu'un message reçu soit un spam, est de 1/2. Cela permet de simplifier significativement les calculs.
Ainsi, étant donné un mot ``m`` dont l'Analyseur a déterminé les probabilités suivantes :
- Le mot ``m`` a la probabilité ``p_ham`` d'apparaître dans un courriel de type ``ham``. - Le mot ``m`` a la probabilité ``p_spam`` d'apparaître dans un courriel de type ``spam``.
On calcule ``p_m``, la probabilité que le message soit un spam en faisant : ``p_spam / ( p_ham + p_spam )``.
Une fois qu'on a calculé tous ces probabilités pour tous les mots ``m1, m2, m3, ..., mk``, on calcule la probabilité que le message soit un spam en calculant :
p_m1*p_m2*p_m3*...*p_mk
---------------------------------------------------------------------
(p_m1*p_m2*p_m3*...*p_mk) + ((1-p_m1)*(1-p_m2)*(1-p_m3)*...*(1-p_mk))
ATTENTION afin d'obtenir des résultat pertinents, ignorez tous les ``p_m`` dont la valeur est 0 ou 1. Si vous les incorporez dans votre calcul, tous les autres ``p_mi`` seront ignorés et le résultat final sera systématiquement 0 ou 1 (ou ``Nan`` car vous risqueriez de faire une division par zéro).
Bases de données à télécharger
Afin de tester votgre code, vous pouvez utiliser la banque de courriels suivants :
- emails.zip