« INFO710 : Compléments de base de données » : différence entre les versions

De Wiki du LAMA (UMR 5127)
Aller à la navigation Aller à la recherche
Ligne 25 : Ligne 25 :
* cinquième séance (06/10/2008) : TD2.
* cinquième séance (06/10/2008) : TD2.
* sixième séance (13/10/2008) : fin du TD2, cours sur l'algèbre relationnelle.
* sixième séance (13/10/2008) : fin du TD2, cours sur l'algèbre relationnelle.
* septième séance (20/10/2008) : TP1.


==Les support de TD et TP==
==Les support de TD et TP==

Version du 20 octobre 2008 à 09:47

Ce wiki est un complément de cours pour le cours "info-710 : compléments de bases de données". J'encourage tous les étudiants à y participer en l'augmentant et le corrigeant au fur et à mesure de l'avancement du cours. Pour pouvoir modifier les pages, inscrivez-vous pour obtenir un login et mot de passe. (Please, utilisez votre vrai nom...)

Vous pouvez aller voir ce guide pour vous familiariser avec les wikis.


Exercice : si vous n'en avez pas, créez-vous un compte et essayez de modifier cette page (correction de fôtes d'aurtograffe, rajout de détails, mise en page, ...)

Vous pouvez aussi utiliser la page de discussion pour ... discuter.





Organisation des séances

Comme vous n'êtes pas nombreux, le cours sera entièrement en mode cours / TD.

  • première séance (08/09/2008) : introduction, entités et attributs.
  • deuxième séance (15/09/2008) : clés, associations et cardinalités ; début du TD1.
  • troisième séance (22/09/2008) : fin du TD1.
  • quatrième séance (29/09/2008) : un peu de SQL.
  • cinquième séance (06/10/2008) : TD2.
  • sixième séance (13/10/2008) : fin du TD2, cours sur l'algèbre relationnelle.
  • septième séance (20/10/2008) : TP1.

Les support de TD et TP

Introduction

Présentation, qu'est-ce qu'une base de données

Voici une définition possible de base de données (Richard Grin) :

"une base de données est un ensemble structuré de données enregistrées dans un ordinateur et accessibles de façon sélective par plusieurs utilisateurs."

Donc, il s'agit d'un ensemble de données qui sont :

  • structurées : ça n'est pas mon bureau,
  • enregistrées dans un ordinateur : ça n'est pas la BU,
  • accessibles de façon sélective : ça n'est pas un fichier pdf,
  • par plusieurs utilisateurs : ça n'est pas un fichier dans un tableur.

On pourrait rajouter les choses suivantes :

  • modifiables par plusieurs utilisateurs en même temps (ça n'est donc pas un fichier tableur sur un système de fichiers partagé),
  • accessibles de manière fine (ça n'est pas un catalogue),
  • dont la gestion est possible (tous les utilisateurs ne peuvent pas forcement faire la même chose).


Exercice : cherchez des exemples pour souligner l'importance de chaque point.

Trouvez-vous d'autres aspects à rajouter ?


Historique

Un rapide survol des développements des BD :

  • préhistoire : avant même les ordinateur, le problème de stocker, gérer et utiliser de grandes quantités de données c'est posé. (recensement, bibliothèques, cadastre etc.)
  • années 60 : l'informatique devient accessible pour les entreprises. Deux modèles (modèle hiérarchique et modèle réseau) sont développés pour gérer des banques de données. Un problème est que l'utilisateur doit connaître les détails de l'implantation de ces systèmes pour pouvoir les utiliser.
  • au début des années 70 : E. F. Codd propose un nouveau modèle qui sera à la base de la plupart des SGBD suivants : le modèle relationnel. Ce modèle a l'avantage d'abstraire la couche informatique et permet donc l'étude théorique des problèmes liés à la représentation des données et leur utilisation.
  • 1976 : apparition du modèle "entités / relation" pour faciliter la conception de BD à un niveau plus élevé.
  • milieu des années 80 : le langage SQL (Structured Querry Language) devient un standard.
  • milieu des années 90 : développement de l'internet, demande croissante d'outils pour gérer des BD à distance.
  • fin des années 90 : développement de SGBD ouvert (MySQL, PostgreSQL).
  • actuel : de nouveau problèmes apparaissent à cause de la taille des BD existantes. Une gestion fine et des algorithmes très efficaces sont nécessaires pour pouvoir accéder à certain projets (génome, espace etc.)


Gestion d'une base de données

Le terme "base de données" ("BD" ou "BDD") est généralement réservé aux données, alors que la partie logicielle permettant l'utilisation d'une BDD est appelée "système de gestion de bases de données" (ou "SGBD" pour les intimes). La version anglaise est database management system ("DBMS").

Un SGBD doit permettre :

  • une independance vis à vis de la représentation physique des données
  • un accès logique (sémantique) à toute partie des données
  • de garantir la cohérence des données et d'éviter la redondance
  • un niveau d'abstraction pour permettre à des non-specialistes d'utiliser les données
  • une couche algorithmique transparente pour augmenter l'efficacité sans rendre la manipulation plus complexe
  • une administration fine et centralisée des données et des utilisateurs
  • de garantir la sécurité des données

Voici quelques exemples de SGBD importants :

  • PostgreSQL, entièrement libre et gratuit,
  • MpSQL, un autre logiciel libre populaire,
  • Access, le gestionnaire de bases de données de Microsoft,
  • Oracle,
  • ...


Modèle client/serveur

Sans rentrer dans les détails, on peut faire une distinction entre

  • l'ordinateur serveur (unique)
  • les ordinateurs clients (autant que d'utilisateurs)

Le serveur est une machine (souvent dédiée à une tache unique) qui héberge les bases de données et répond aux requêtes des utilisateurs. Cette machine doit être accessible de l'extérieur (par le réseau) et fonctionne en permanence.

Les clients sont les utilisateurs, qui peuvent interoger le serveur, rajouter ou supprimer des données. Chaque client utilise sa propre machine.

Dans notre cas, le serveur sera la machine appelée eco.univ-savoie.fr accessible uniquement depuis le réseau local de l'université de Savoie. (Si vous êtes chez vous, il faudra utiliser le vpn...)

Premiers exemples

Exercice : donnez quelques exemples détaillés de BD. Quels types de recherches fines pourriez-vous effectuer sur de telle BD ? Quels problèmes peuvent se produire, et quelle solution envisagez-vous ?

Représentation graphique de la structure d'une BDD (modèle conceptuel des données)

Le but de cette représentation est de donner la structure de notre BD indépendemment d'un quelconque SGBD. Comme en programmation, il est important de réfléchir avant de commencer à coder, de peur de faire n'importe quoi...

Img-01.png

un (mauvais) exemple de morceau de BDD

Entités et attributs

Entités

Une entité est une catégorie d'objets de même nature : des étudiants, des livres, des maisons, des crayons etc. Pour chaque type d'objet que l'on veut stocker dans la BD, il faut un attribut correspondant.

Les entités sont représentées par un rectangle :

Img-02.png

L'entité cours

Attributs

Les attributs sont des propriétés "importantes" (pour l'utilisateur de la BD) d'une entité. Les attributs sont listés sous le nom de l'entité comme suit :

Img-03.png

Notions de clé

Chaque objet d'une entité doit pouvoir être désigné de manière unique à partir d'un ou de plusieurs de ces attributs :

  • un cours est désigné par son code (info-710) et son année,
  • un enseignant par son nom et prénom (??)
  • un étudiant par son numéro d'étudiant
  • ...

Un ensemble d'attributs qui permet de désigner un élément d'une entité est appelé un clé candidate. Si cette clé est minimale (on ne peut pas enlever d'attributs sans perdre la propriété d'être une clé), on parle de clé minimale.

Chaque entité doit posséder une clé principale, choisie par le concepteur. Le (ou les) attributs de cette clé sont soulignés :

Img-04.png

Le choix d'une clé peut avoir de graves conséquences sur les performances. Il est de manière générale souhaitable d'avoir des clés comportant un seul attribut de type entier.

Exercice : est-ce qu'une clé principale peut prendre plusieurs fois la même valeur ?

Pour chacune des entités considérées précédemment, donnez les clés candidates et choisissez une clé principale.

Associations

Une association permet de relier deux entités entre elles : elles sont représentées par des rectangles aux coins arrondis. Les entités concernées sont reliées à l'association par un trait plein.

Les associations peuvent avoir des attributs, mais ce n'est pas obligatoire. Par exemple, on pourrait avoir une entité sport d'attributs nom, horaire et lieu, et une association sans attributs appelée pratique entre les entités etudiant et sport.

Fichier:Img-05.png

C'est kiki rajoute un joli dessin ?

Note : les associations n'ont pas de clé.

Cardinalités

La dernière information sur un diagramme de BD est la cardinalité : on indique combien de membres d'une entité peuvent être reliés à un élément d'une autre. On indique le minimum et le maximum, séparés par une virgule. La lettre permet de préciser un nombre arbitraire. (Tous les apparaissant dans un diagramme sont indépendants...)

Par exemple, dans le premier diagramme de cette partie,

  • chaque étudiant assiste au moins à un cours ("1,n")
  • chaque cours est suivi par plusieurs étudiants, éventuellement aucun ("0,n")
  • ...

Les cardinalités les plus courantes sont "0,n", "1,n", "0,1" et "1,1".

Exercice : donnez des exemples pour chacune de ces cardinalités.

Associations non binaires

---à faire---

Le langage SQL, première partie

Quoi

Le langage SQL (Structured Query Language) est le langage de bases de données le plus courant. C'est en 1986 que la première version standard de SQL est apparue. On appelle cette version SQL-86. En 1992, une deuxième version de la norme voit le jours (SQL-2), et une troisième version apparaît en 1999 (SQL-3). La version actuelle date de 2003 et est appelée SQL:2003. Tous les aspects du langage sont décrits dans un document officiel (la norme SQL) d'environ 3700 pages ! (Ce document est payant, mais les versions préliminaires sont disponibles gratuitement...)

Il existe de nombreux SGBD se basant sur SQL (MySQL, PostgreSQL, ...), mais aucun de respecte entièrement la norme : chacun rajoute quelques fonctionnalités pour faciliter la vie des utilisateurs. Il faut donc faire attention : certaines requêtes SQL fonctionnant avec MySQL ne sont pas forcement acceptées par PostgreSQL.


Le langage SQL peut se décomposer en plusieurs parties :

  • un langage de requêtes pour la recherche de données dans des bases existantes (ex : l'instruction SELECT);
  • un langage de manipulation pour créer ou modifier des données (ex : l'instruction INSERT)
  • un langage de définition des données (ex : l'instruction CREATE)
  • un langage de contrôle des données (ex : l'instruction REVOKE)
  • ...

Dans ce cours, nous nous intéresserons essentiellement aux trois premiers points.


La plupart des langages de programmation (C, Java, Perl, ...) possèdent également des bibliothèques de fonctions permettant d'accéder à des bases de données en utilisant le langage SQL.


Types de données

Les principaux types de données en SQL sont les suivants :

  • INTEGER : des entiers signés (sur 4 octets),
  • DECIMAL : des nombres décimaux représentés en virgule fixe. Le type DECIMAL(p,q) s'utilise pour les nombres décimaux avec p chiffres avant la virgule et q chiffres après la virgule.
  • REAL : des nombres réels, représentés en virgule flottante,
  • BIT : pour des valeurs booléennes,
  • CHAR(n) : pour les chaînes de caractères de taille fixée (exactement n),
  • VARCHAR(n) : pour les chaînes de caractères de taille variable (au plus n),
  • DATE et TIME : pour les dates ou les heures,
  • NULL est un type vide.


Définition des données

Remarques sur les mots clés et identificateurs

Les mots clés de SQL sont généralement écrits en majuscule (par exemple SELECT ...), même si la casse n'est pas importante. Il est conseillé de choisir une convention (tout en majuscules ou tout en minuscules) et de s'y tenir.

Les identificateurs servant de noms pour les tables, les attributs etc. peuvent comporter des majuscules, mais if faut alors utiliser des guillemets. Par exemples, les tables "Etudiant" et "etudiants" sont considérées comme différentes. Il est bien entendu fortement déconseillé d'avoir plusieurs tables dont les noms ne diffèrent que par la casse de certaines lettres...

On peut utiliser les identificateurs sans guillemets, mais ils sont alors transformés en minuscules. Par exemples, les identificateurs Etudiant, etudiant et "etudiant" désignent le même objet. Si on ne met pas de guillemets, on ne peut utiliser que des lettres dans l'identificateur...


Entités : tables

Les entités sont appelées tables en SQL. Pour déclarer l'entité etudiant dont les attributs sont nom, prenom et no-etu, on utilise la commande SQL suivante :

CREATE TABLE etudiant ( nom VARCHAR(50) , prenom VARCHAR(50) , "no-etu" CHAR(10) ) ;

Il est facile de dire que la clé principale sera le numéro d'étudiant :

CREATE TABLE etudiant (
  nom VARCHAR(50)                      ,
  prenom VARCHAR(50)                   ,
  "no-etu" CHAR(10)        PRIMARY KEY ,
  ) ;


-- autres contraintes : NOT NULL, UNIQ, CHECK...
-- clés étrangères
CREATE TABLE etudiant (
  "no-etu" CHAR(10)    PRIMARY KEY ,
  nom VARCHAR(50)      NOT NULL ,
  prenom VARCHAR(50) ,
  filiere CHAR(10)     REFERENCES "liste-filieres" (code)
) ;

Associations

On transforme les associations binaires en suivants les règles suivantes : on regarde les cardinalités maximales des deux entités autour de l'association,

  • si elles sont "1-n", alors l'association disparaît. On la remplace par une contrainte de clé étrangère en mettant la clé primaire de la table "_,n" dans la table "_,1". Si cette dernière est de type "1,1", la clé étrangère ne doit pas être vide. Les attributs de l'association sont déplacées dans la table "_,1".
  • si elles sont "1-1", on fait comme pour le cas "1-n", mais on rajoute une contrainte d'unicité sur la clé étrangère.
  • si elles sont "n-m", alors l'association devient une table. Comme clé primaire, on prend les deux clés des deux tables reliées par l'association. Ces nouveaux attributs sont également des clés étrangères. Les attributs de l'association deviennent des attributs de cette nouvelle table.


Manipulation des données

 INSERT INTO table( att1, att2, ..., attn)
        VALUES (val1, val2, ..., valn);
 INSERT INTO table( att1, att2, ..., attn)
        SELECT ... ;
 UPDATE TABLE SET att1 = e1 ,
                  att2 = e2 ,
                  ...
                  attn = en ,
   WHERE condition ;
 UPDATE TABLE SET (att1, att2, ..., attn) = (SELECT ...)
   WHERE condition ;
 DELETE FROM table
   WHERE condition ;


Interrogation des données

 SELECT

Modèle théorique : modèle relationnel

Formes normales

Le langage SQL, deuxième partie

¿Intégration avec d'autres outils?

Quelques références