INFO710 : Compléments de base de données

De Wiki du LAMA (UMR 5127)
Aller à la navigation Aller à la recherche

Ce wiki est un complément de cours pour le cours "info-710 : compléments de bases de données". J'encourage tous les étudiants à y participer en l'augmentant et le corrigeant au fur et à mesure de l'avancement du cours. Pour pouvoir modifier les pages, inscrivez-vous pour obtenir un login et mot de passe. (Please, utilisez votre vrai nom...)

Vous pouvez aller voir ce guide pour vous familiariser avec les wikis.


Exercice : si vous n'en avez pas, créez-vous un compte et essayez de modifier cette page (correction de fôtes d'aurtograffe, rajout de détails, mise en page, ...)

Vous pouvez aussi utiliser la page de discussion pour ... discuter.





Organisation des séances

Comme vous n'êtes pas nombreux, le cours sera entièrement en mode cours / TD.

  • première séance (08/09/2008) : introduction, entités et attributs.
  • deuxième séance (15/09/2008) : clés, associations et cardinalités ; début du TD1.


Les support de TD et TP


Introduction

Présentation, qu'est-ce qu'une base de données

Voici une définition possible de base de données (Richard Grin) :

"une base de données est un ensemble structuré de données enregistrées dans un ordinateur et accessibles de façon sélective par plusieurs utilisateurs."

Donc, il s'agit d'un ensemble de données qui sont :

  • structurées : ça n'est pas mon bureau,
  • enregistrées dans un ordinateur : ça n'est pas la BU,
  • accessibles de façon sélective : ça n'est pas un fichier pdf,
  • par plusieurs utilisateurs : ça n'est pas un fichier dans un tableur.

On pourrait rajouter les choses suivantes :

  • modifiables par plusieurs utilisateurs en même temps (ça n'est donc pas un fichier tableur sur un système de fichiers partagé),
  • accessibles de manière fine (ça n'est pas un catalogue),
  • dont la gestion est possible (tous les utilisateurs ne peuvent pas forcement faire la même chose).


Exercice : cherchez des exemples pour souligner l'importance de chaque point.

Trouvez-vous d'autres aspects à rajouter ?


Historique

Un rapide survol des développements des BD :

  • préhistoire : avant même les ordinateur, le problème de stocker, gérer et utiliser de grandes quantités de données c'est posé. (recensement, bibliothèques, cadastre etc.)
  • années 60 : l'informatique devient accessible pour les entreprises. Deux modèles (modèle hiérarchique et modèle réseau) sont développés pour gérer des banques de données. Un problème est que l'utilisateur doit connaître les détails de l'implantation de ces systèmes pour pouvoir les utiliser.
  • au début des années 70 : E. F. Codd propose un nouveau modèle qui sera à la base de la plupart des SGBD suivants : le modèle relationnel. Ce modèle a l'avantage d'abstraire la couche informatique et permet donc l'étude théorique des problèmes liés à la représentation des données et leur utilisation.
  • 1976 : apparition du modèle "entités / relation" pour faciliter la conception de BD à un niveau plus élevé.
  • milieu des années 80 : le langage SQL (Structured Querry Language) devient un standard.
  • milieu des années 90 : développement de l'internet, demande croissante d'outils pour gérer des BD à distance.
  • fin des années 90 : développement de SGBD ouvert (MySQL, PostgreSQL).
  • actuel : de nouveau problèmes apparaissent à cause de la taille des BD existantes. Une gestion fine et des algorithmes très efficaces sont nécessaires pour pouvoir accéder à certain projets (génome, espace etc.)


Gestion d'une base de données

Le terme "base de données" ("BD" ou "BDD") est généralement réservé aux données, alors que la partie logicielle permettant l'utilisation d'une BDD est appelée "système de gestion de bases de données" (ou "SGBD" pour les intimes). La version anglaise est database management system ("DBMS").

Un SGBD doit permettre :

  • une independance vis à vis de la représentation physique des données
  • un accès logique (sémantique) à toute partie des données
  • de garantir la cohérence des données et d'éviter la redondance
  • un niveau d'abstraction pour permettre à des non-specialistes d'utiliser les données
  • une couche algorithmique transparente pour augmenter l'efficacité sans rendre la manipulation plus complexe
  • une administration fine et centralisée des données et des utilisateurs
  • de garantir la sécurité des données

Voici quelques exemples de SGBD importants :

  • PostgreSQL, entièrement libre et gratuit,
  • MpSQL, un autre logiciel libre populaire,
  • Access, le gestionnaire de bases de données de Microsoft,
  • Oracle,
  • ...


Modèle client/serveur

Sans rentrer dans les détails, on peut faire une distinction entre

  • l'ordinateur serveur (unique)
  • les ordinateurs clients (autant que d'utilisateurs)

Le serveur est une machine (souvent dédiée à une tache unique) qui héberge les bases de données et répond aux requêtes des utilisateurs. Cette machine doit être accessible de l'extérieur (par le réseau) et fonctionne en permanence.

Les clients sont les utilisateurs, qui peuvent interoger le serveur, rajouter ou supprimer des données. Chaque client utilise sa propre machine.

Dans notre cas, le serveur sera la machine appelée eco.univ-savoie.fr accessible uniquement depuis le réseau local de l'université de Savoie. (Si vous êtes chez vous, il faudra utiliser le vpn...)

Premiers exemples

Exercice : donnez quelques exemples détaillés de BD. Quels types de recherches fines pourriez-vous effectuer sur de telle BD ? Quels problèmes peuvent se produire, et quelle solution envisagez-vous ?

Représentation graphique de la structure d'une BDD (modèle conceptuel des données)

Le but de cette représentation est de donner la structure de notre BD indépendemment d'un quelconque SGBD. Comme en programmation, il est important de réfléchir avant de commencer à coder, de peur de faire n'importe quoi...

Img-01.png

un (mauvais) exemple de morceau de BDD

Entités et attributs

Entités

Une entité est une catégorie d'objets de même nature : des étudiants, des livres, des maisons, des crayons etc. Pour chaque type d'objet que l'on veut stocker dans la BD, il faut un attribut correspondant.

Les entités sont représentées par un rectangle :

Img-02.png

L'entité cours

Attributs

Les attributs sont des propriétés "importantes" (pour l'utilisateur de la BD) d'une entité. Les attributs sont listés sous le nom de l'entité comme suit :

Img-03.png

Notions de clé

Chaque objet d'une entité doit pouvoir être désigné de manière unique à partir d'un ou de plusieurs de ces attributs :

  • un cours est désigné par son code (info-710) et son année,
  • un enseignant par son nom et prénom (??)
  • un étudiant par son numéro d'étudiant
  • ...

Un ensemble d'attributs qui permet de désigner un élément d'une entité est appelé un clé candidate. Si cette clé est minimale (on ne peut pas enlever d'attributs sans perdre la propriété d'être une clé), on parle de clé minimale.

Chaque entité doit posséder une clé principale, choisie par le concepteur. Le (ou les) attributs de cette clé sont soulignés :

Img-04.png

Le choix d'une clé peut avoir de graves conséquences sur les performances. Il est de manière générale souhaitable d'avoir des clés comportant un seul attribut de type entier.

Exercice : est-ce qu'une clé principale peut prendre plusieurs fois la même valeur ?

Pour chacune des entités considérées précédemment, donnez les clés candidates et choisissez une clé principale.

Associations

Une association permet de relier deux entités entre elles : elles sont représentées par des rectangles aux coins arrondis. Les entités concernées sont reliées à l'association par un trait plein.

Les associations peuvent avoir des attributs, mais ce n'est pas obligatoire. Par exemple, on pourrait avoir une entité sport d'attributs nom, horaire et lieu, et une association sans attributs appelée pratique entre les entités etudiant et sport.

Fichier:Img-05.png

C'est kiki rajoute un joli dessin ?

Note : les associations n'ont pas de clé.

Cardinalités

La dernière information sur un diagramme de BD est la cardinalité : on indique combien de membres d'une entité peuvent être reliés à un élément d'une autre. On indique le minimum et le maximum, séparés par une virgule. La lettre permet de préciser un nombre arbitraire. (Tous les apparaissant dans un diagramme sont indépendants...)

Par exemple, dans le premier diagramme de cette partie,

  • chaque étudiant assiste au moins à un cours ("1,n")
  • chaque cours est suivi par plusieurs étudiants, éventuellement aucun ("0,n")
  • ...

Les cardinalités les plus courantes sont "0,n", "1,n", "0,1" et "1,1".

Exercice : donnez des exemples pour chacune de ces cardinalités.

Associations non binaires

---à faire---

Le langage SQL, première partie

Quoi

Types et identificateurs

Définition des données

Entités : tables

Associations

Manipulation des données

Modèle théorique : modèle relationnel

Formes normales

Le langage SQL, deuxième partie

¿Intégration avec d'autres outils?

Quelques références