Portail nationalFormationRechercher par discipline

Bases de données documentaires et distribuées

Code UE : NFE204

Cours + travaux pratiques
6 crédits
Volume horaire de référence
(+ ou - 10%) : 50 heures

Responsable(s)

Philippe RIGAUX

Public, conditions d’accès et prérequis

Prérequis: M1 ou niveau Bac+4 informatique
Bonnes connaissances en bases de données, architectures des systèmes informatiques, pratique de la programmation
Public: cycle d'ingénieur CNAM, Master M2

L'avis des auditeurs

Les dernières réponses à l'enquête d'appréciation pour cet enseignement :

Fiche synthétique au format PDF

Présence et réussite aux examens

Pour l'année universitaire 2023-2024 :

Nombre d'inscrits : 30
Taux de présence à l'évaluation : 47%
Taux de réussite parmi les présents : 86%

Objectifs pédagogiques

Le cours est consacré à le gestion de données massives, non-structurées ou semi-structurées. Le passage à l'échelle de très gros volumes (téraoctets, pétaoctets) peut amener a revoir la modélisation relationnelle qui implique des opérations de jointures assez coûteuses dans un environnement distribué. Cette modélisation est également inadaptée à des données comme les textes, les images, ou un assemblage de plusieurs médias. On s'oriente alors plutôt vers une modélisation sous forme de "documents" souvent dénués de structure connue (e., documents images, vidéos, documents Office, etc) ou d'une structure très souple (documents hypertextes).
Les notions de modèles de données et de langage d'interrogation sont alors à revoir. De plus le volume des données considérées implique la mise en place d'infrastructure à grande échelle typique des systèmes de gestion des données du Web.
Le cours couvre les sujets suivants:

Données peu structurées. Représentation de données complexes et/ou dotée d'une structure variable. Application à la représentation de documents textuels par des langages comme XML ou JSON. Notions essentielles sur la navigation dans une structure de document, le typage de documents, et la gestion de documents dans des bases de données.
Systèmes NoSQL. Des systèmes de gestion de données qui renoncent à certaines fonctionnalités fortes (transactions, langage d'interrogation) des bases relationnelles, au profit du passage à l'échelle, émergent à l'heure actuelle. Ces systèmes sont fortement orientés vers la distribution dans des environnements de type cloud, et leur conception varie selon l'objectif visé (accès temps réel, ou traitement analytiques). La structure des données reprend les principes vus dans la première partie du cours. Nous étudions les principes généraux des systèmes NoSQL, et en étudions certains: MongoDB, CouchDB, Cassandra, etc. Les problèmes de passage à l'échelle, de fiabilité, de sécurité, de reprise sur panne et de cohérence seront évoqués.

La Recherche d'Information (RI) consiste à effectuer des recherches sur des ensembles de données peu structurées, en effectuant un classement par pertinence. Avec l'avènement de gros moteurs d'indexation tels que Google ou Amazon, les technologies de recherche textuelle devient incontournable et donne un véritable intérêt à toutes ses techniques de stockage et d'index orienté texte.

Stockage distribué. Le volume des données manipulées par les moteurs de recherche, les sites de commerce électronique ou les sites communautaires rassemblant des millions d'utilisateurs, a atteint des niveaux inédits: le téraoctets est un ordre de grandeur courant, bientôt ce sera le pétaoctets. De nouvelles techniques de gestion de ces données massives ont émergé récemment, sous l'impulsion notamment des entreprises (Google, Amazon) directement confrontées aux problèmes liés à ces volumes inédits. L'exposé sera consacré à ces nouvelles techniques, en mettant l'accent sur les solutions s'appuyant sur la distribution du stockage et des traitements dans des parcs de machines extensibles appelés "Cloud Computing". Le cours présente les principales problématiques et méthodes de stockage distribué: réplication, partitionnement, tolérance aux pannes, illustrées par quelques solutions-phares (ElasticSearch, Hadoop, Cassandra, etc).
Calcul distribué. Le stockage distribué est associé à des systèmes permettant de paralléliser les calculs pour traiter en temps raisonnable de très grandes masses de données, notamment à des fins analytiques. Le calcul parallèle à grande échelle est introduit et illustré avec des principes phares comme MapReduce, et des systèmes comme Spark, Hadoop et Flink.

Compétences visées

Compréhension des défis et des enjeux actuels dans la gestion de l'information, de plus en plus orientée vers l'acquisition et l'analyse de grandes masses de données. Maîtrise des techniques de base concernant ces nouvelles technologies. Systèmes NoSQL, techniques de distribution de données, techniques de recherche d'information.

Mots-clés

Contenu

Modélisation de données peu structurées
- Documents structurés, JSON, XML
- Données web, Open data, services REST
- Bases documentaires: MongoDB, CouchDB, Cassandra

Recherche d'information
- introduction à la recherche textuelle dans les documents, indexation textuelle et Recherche d'Information (IE, Google, Amazon, ...)
- moteur de recherches: ElasticSearch, Solr

Systèmes de stockage distribués
- systèmes distribués, équilibrage, partitionnement, réplication
- cloud, performances, architectures, scalabilité
- illustration concrète avec quelques systèmes NoSQL: MongoDB, Cassandra, ElasticSearch

Systèmes de calcul distribué
- Le paradigme MapReduce
- Systèmes modernes de traitement à grande échelle: Spark, Flink

Modalité d'évaluation

examen, projet, travaux pratiques

Bibliographie

Abiteboul, Manolescu, Rigaux, Rousset, Sennelart : Web Data Management, Cambdrige Publishing, 2012
R. Baeza-Yates, B. Ribeiro-Neto : Modern Information Retrieval, Addison-Wesely, 1999
P.Rigaux : Support en ligne: http://b3d.bdpedia.fr

Cette UE apparaît dans les diplômes et certificats suivants

Chargement du résultat...

Intitulé de la formation	Type	Modalité(s)	Lieu(x)
Intitulé de la formation Certificat de spécialisation Analyste de données massives	Type Certificat d'établissement	Lieu(x) À la carte	Lieu(x) Bretagne, Centre - Val de Loire, Liban, Madagascar, Paris	Entrée Sans niveau spécifique
Intitulé de la formation Master Informatique — Parcours Systèmes d'Information et Business Intelligence (SIBI)	Type Diplôme national (DEUST, licence, master, doctorat, diplôme d'Etat)	Lieu(x) Package	Lieu(x) Paris	Entrée Niveau 6 (Bac+3 et 4)
Intitulé de la formation	Type	Lieu(x)	Lieu(x)	Entrée
Intitulé de la formation Master Informatique — Parcours Traitement de l'information et exploitation des données (TRIED)	Type Diplôme national (DEUST, licence, master, doctorat, diplôme d'Etat)	Lieu(x) Package	Lieu(x) Paris	Entrée Niveau 6 (Bac+3 et 4)
Intitulé de la formation Ingénieur informatique - systèmes d'information et business intelligence	Type Diplôme d'ingénieur	Lieu(x) À la carte	Lieu(x) Auvergne - Rhône-Alpes, Bretagne, Centre - Val de Loire, Grand-Est, Ile-de-France (sans Paris), Madagascar, Nouvelle-Aquitaine, Occitanie, Paris, Pays de la Loire, Provence-Alpes-Côte d'Azur	Entrée Niveau 5 (Bac+2)
Intitulé de la formation	Type	Modalité(s)	Lieu(x)

Contact

EPN05 - Informatique
2 rue Conté
75003 Paris
Sandra Bosse

Voir le site

deptinfo.cnam.fr/new/infos.php?ue=NFE204

Voir le calendrier, le tarif, les conditions d'accessibilité et les modalités d'inscription dans le(s) centre(s) d'enseignement qui propose(nt) cette formation.

UE

- Paris
  - Paris
    - 2025-2026 1er semestre : Formation ouverte et à distance (FOAD)
    Comment est organisée cette formation ?
    2025-2026 1er semestre : Formation ouverte et à distance
    Dates importantes
    Période des séances du 15/09/2025 au 17/01/2026
    Période d'inscription : du 02/06/2025 à 10:00 au 17/10/2025 à 18:00
    Date de 1ère session d'examen : la date sera publiée sur le site du centre ou l'ENF
    Date de 2ème session d'examen : la date sera publiée sur le site du centre ou l'ENF
    Précision sur la modalité pédagogique
    Une formation ouverte et à distance (FOAD) est une formation dispensée 100% à distance, qui peut être suivie librement, à son rythme.
    Regroupements physiques facultatifs : Aucun
    Organisation du déploiement de l'unité
    Délai maximum de réponse à une solicitation : sous 96 heures (Jours ouvrés)
    Modes d'animation de la formation
    Organisation d'une séance de démarrage
    Evaluation de la satisfaction
    Hot line technique
    Ressources mises à disposition sur l'Espace Numérique de Formation
    Documents de cours

Bases de données documentaires et distribuées

Code UE : NFE204

Responsable(s)

Public, conditions d’accès et prérequis

L'avis des auditeurs

Présence et réussite aux examens

Objectifs pédagogiques

Compétences visées

Mots-clés

Contenu

Modalité d'évaluation

Bibliographie

Cette UE apparaît dans les diplômes et certificats suivants

Rechercher une formation

Type(s) de formation

Type(s) de diplôme

Niveau d'entrée

Contact

Voir le calendrier, le tarif, les conditions d'accessibilité et les modalités d'inscription dans le(s) centre(s) d'enseignement qui propose(nt) cette formation.

UE

Dates importantes

Précision sur la modalité pédagogique

Organisation du déploiement de l'unité

Modes d'animation de la formation

Ressources mises à disposition sur l'Espace Numérique de Formation

Code UE : NFE204

Responsable(s)

Dans la même rubrique