INFO505 : Mathématiques pour l'informatique

Ce wiki est un complément de cours pour le cours "info-505, mathématiques pour l'informatique" donné à l'automne 2007. La participation au wiki n'est pas obligatoire mais fortement encouragée. Pour pouvoir modifier les pages, inscrivez-vous (lien en haut à droite) pour obtenir un login et mot de passe. (Utilisez votre vrai nom...)

Vous pouvez aller voir ce guide pour vous familiariser avec les wikis.

Exercice : si vous n'en avez pas, créez-vous un compte et essayez de modifier cette page (correction de fôtes d'aurtograffe, rajout de détails, mise en page, ...)

Vous pouvez aussi utiliser la page de discussion pour ... discuter. (Ou poser des questions, faire des commentaires etc.)

Introduction

Edsger Wybe Dijkstra, un grand monsieur de l'informatique a dit "Computer Science is not about computers, any more than astronomy is about telescopes." Autrement dit l'informatique ne peut pas se réduire à l'étude des ordinateurs.

Le but de la première partie de ce cours est de regarder comment deux domaines des mathématiques pures sont devenues incontournables dans la société de l'internet et du multimédia :

la cryptographie, issue de la théorie des nombres,
les codes correcteurs d'erreur, issus des l'algèbre sur les corps finis.

Les technologies résultantes sont utilisées lors de chaque transaction électronique, pour l'échange de mails ou à chaque fois que vous écoutez un CD. La partie officielle du cours est un cours de mathématiques : le temps alloué ne nous permettra pas de regarder les détails d'implantation ou le test des outils mentionnés dans le cours. Je vous encourage à tester, programmer ou utiliser les concepts mentionnés pour vous les approprier...

Complexité, approximations asymptotiques

La notion de complexité d'un programme est fondamentale pour pouvoir évaluer l'intérêt pratique d'un programme. La complexité observée lors de test ou de benchmark est parfois suffisante mais ne prend en compte que certaines exécutions (celles qui sons testées par les tests). Il est souvent nécessaire de se faire une idée de la complexité théorique d'un programme pour pouvoir prédire son temps d'exécution (ou ses besoins en ressources) pour les exécutions futures.

Première approche de la complexité

Tout d'abord, nous ne nous intéresserons qu'à la complexité en temps, et (presque) jamais à la complexité en espace. Il ne faut pas en déduire que seule la complexité en temps est importante !

L'idée de base est de compter en combien de temps va s'exécuter un programme donné, mais la question elle même est mal posée :

comment compte-t'on ?
et surtout, que compte-t'on ?

Chronométrer le temps d'exécution ne permet pas de faire d'analyse fine, et ne permet pas facilement de prédire le comportement général de votre programme. Comme le temps dépend beaucoup du processeur utilisé, l'idéal serait de pouvoir compter le nombre de cycle nécessaires au programme. Cela est généralement impossible car cela dépend du type de processeur utilisé ainsi que des optimisations faites par le compilateur.

La complexité en temps d'un algorithme, c'est une estimation du nombre d'opérations atomiques effectuées par cette algorithme avant qu'il ne termine. Cette estimation doit être donnée comme une fonction dépendant de la taille de l'entrée sur laquelle est lancé l'algorithme.

La notion d'opération atomique est assez intuitive : c'est une opération algorithmique qui n'est pas divisible en sous-opérations. En première approximation, une opération est atomique si elle ne porte que sur des objets de type entier, caractère ou booléen. (Les types codés sur un ou deux mots). Un test (si (n==42) alors ...) ou une affectation (x:=3,1415926536) sont des opérations atomiques ; mais l'initialisation d'un tableau n'est pas atomique. (Il y a autant d'opérations qu'il y a d'éléments dans le tableau...)

Exemple : la recherche du maximum dans un tableau d'entiers positifs peut se faire comme suit

max := 0
pour i:=1 à taille
faire
  si (max < Tab[i])
  alors max:=Tab[i]
finfaire
affiche("Le maximum est %i.\n",max)

Le nombre d'opérations est le suivant :

une opération pour l'initialisation de max
une opération pour l'initialisation de i à 1
un test pour voir si i==taille
une opération pour le test max < Tab[1]
"peut-être" une opération pour l'affectation max:=Tab[1]
puis, pour chaque élément suivant du tableau :
- un incrément du compteur
- une affectation du compteur
- un test pour voir si on a atteint la fin du tableau
- un test
- peut-être une affectation

Au total, si $n$ est la taille du tableau, on obtient entre $4n$ et $5n$ opérations. De manière générale, on s'intéresse surtout au pire cas ; on dira donc que cet algorithme s'exécute en "au plus $5n$ opérations".

Approximations asymptotiques

On ne peut habituellement pas compter de manière aussi précise le nombre d'opérations ; et ça n'a pas toujours du sens de vouloir être trop précis. (Est-ce que i:=i+1 correspond à une ou deux opérations atomiques ?) Nous allons donc utiliser les approximations asymptotique pour compter la complexité... Le but sera alors de distinguer les algorithmes "rapides", "lents", ou "infaisables". La notion de "grand O" permet de faire ça de manière systématique.

définition: si $f$ et $g$ sont des fonctions de $\mathbb {N}$ dans $\mathbb {N}$ , on dit que $f$ est un "grand O" de $g$ , et on écrit $f=O(g)$ si le quotient $|f(n)| \over |g(n)|$ est "ultimement" borné. Plus précisément, ça veut dire que $\exists B,\forall n,{|f(n)| \over |g(n)|}<B$

Le but de cette définition est multiple :

elle cache une borne "au pire"
elle permet d'identifier des complexités qui ne diffèrent que par une constante multiplicative (" $4n$ et $5n$ , c'est presque la même chose")
elle permet d'ignorer les cas initiaux et autres phénomènes négligeables (c'est le "ultimement" de la définition, qui ne sert strictement à rien)
elle permet de simplifier les calculs de complexité

Propriétés

si $f=O(h)$ et $g=O(h)$ alors $\alpha f+\beta g=O(h)$
si $f=O(g)$ et $g=O(h)$ alors $f=O(h)$
si $f=O(g)$ et $f'=O(g')$ alors $f\times f'=O(g\times g')$
si $f=O(g)$ et $f'=O(g')$ alors $f+f'=O(|g|+|g'|)$

Pour pouvoir simplifier les expressions, il est important de connaître les liens entre les fonctions usuelles : $\log$ , les fonctions linéaires, les polynômes, les exponentielles, les doubles exponentielles...
Pour $n$ très grand : $1<\log(\log(n))<\log(n^{g})<\log(n)<\log(n^{k})<\log(\exp(n))<n^{g}<n<n^{k}<\exp(\log(n))<\exp((n^{g}))<\exp(n)<\exp(n^{k})<\exp(\exp(n))$
Avec $g<1$ et $k>1$ .

---À compléter ? C'est vous qui voyez...---

Un exemple

Arithmétique : théorie de la cryptographie

Algèbre finie : les codes correcteurs d'erreurs

Quelques références

article wikipedia sur la cryptographie

article wikipedia sur les codes correcteurs d'erreur

Détails techniques sur le cours

Organisation des séances

Comme il n'y a qu'un seul groupe, le cours sera entièrement en mode cours / TD.

Le cours est divisé en deux parties indépendantes :

une partie "mathématiques pour l'informatique" (par Pierre Hyvernat)
une partie "algorithmique des graphes" (faite par Françoise Deloule)

Les support de TD et TP

TD 1

INFO505 : Mathématiques pour l'informatique

Sommaire

Introduction