Entreposage et fouille de données

Code UE : STA211

  • Cours
  • 9 crédits
  • Volume horaire de référence
    (+ ou - 10%) : 70 heures

Responsable(s)

Ndeye NIANG KEITA

Vincent AUDIGIER

Public, conditions d’accès et prérequis

être admis en M2 du master STIC, mention statistique ou être agréé.
La demande d'agrément est à faire uniquement pour les auditeurs qui souhaitent suivre STA211 en présentiel au semestre 1. Pour obtenir l'agrément, les auditeurs adresseront, à partir du 25 Août,   par courrier électronique à l'enseignant responsable : ndeye.niang_keita@cnam.fr, un CV détaillé et une lettre de motivation indiquant les raisons de  la demande et le projet pédagogique dans lequel elle s'inscrit . Une réponse sera donnée dans un délai d'une dizaine de jours.
Niveau requis : NFA008 (bases de données) et STA101 (analyse des données, méthodes descriptives). Ces prérequis sont indispensables pour obtenir l'agrément. Vérifier avant d'envoyer une demande d'agrément.

L'avis des auditeurs

Les dernières réponses à l'enquête d'appréciation pour cet enseignement :

Présence et réussite aux examens

Pour l'année universitaire 2022-2023 :

  • Nombre d'inscrits : 86
  • Taux de présence à l'évaluation : 48%
  • Taux de réussite parmi les présents : 51%

Contenu

Modèles prévisionnels et systèmes de gestion de l'entreprise 
- structures spécifiques des bases de données de Data warehouse (star schema)
- OLAP
Méthodologies générales 
- Méthodologies de Data Mining
Pré-traitement des données 
- Analyses de la qualité des données,
- Techniques d'appréhension des valeurs manquantes ou aberrantes
- Techniques de construction de bases de travail (agrégations, etc. . . )
Données et techniques de fouille 
Méthodes non supervisées : 
- Cartes de Kohonen,  Règles d'association 
Méthodes supervisées : 
- Rappels de théorie de l'apprentissage
- Arbres de décision, forêts aléatoires, Réseaux de neurones, deep learning
- Méta-algorithmes : 
- boosting, bagging
Fouille dans de nouveaux types de données et méthodes associées : 
- Données textuelles - Données multivues - Images et Multimedia
Outils : 
- Environnements freeware : R, Python
- Outils spécifiques : SAS-EM,  SPAD
- Data Mining et bases de données : OLAP Business Object
 

Modalité d'évaluation

  • Projet(s)
  • Mémoire

Bibliographie

  • M.BARDOS : Analyse discriminante (Dunod, 2001)
  • G.SAPORTA : Probabilités, analyse des données et statistique (Technip, 2006)
  • S.TUFFERY : Data mining et statistique décisionnelle (Technip, 2005)
  • S.TUFFERY : Etude de cas en statistique décisionnelle (Technip, 2009)
  • T.HASTIE, J.FRIEDMAN, F.TIBSHIRANI : Elements of Statistical Learning (Springer, 2009)
  • G.GOVAERT (ed) : Analyse des données (Hermes,2003)
  • L. LEBART, A. MORINEAU, M. PIRON : Statistique exploratoire multidimensionnelle (1995)
  • J.P.NAKACHE, J.CONFAIS : Statistique explicative appliquée (Technip, 2003)
  • James, Witten, Hastie, & Tibshirani : An Introduction to Statistical Learning (2013) Téléchargeable ici:http://web.stanford.edu/~hastie/local.ftp/Springer/ISLR_print1.pdf

Cette UE apparaît dans les diplômes et certificats suivants

Contact

EPN06 Mathématiques et statistiques
2 rue conté Accès 35 3 ème étage porte 19
75003 Paris
Sabine Glodkowski
Voir le site

Voir le calendrier, le tarif, les conditions d'accessibilité et les modalités d'inscription dans le(s) centre(s) d'enseignement qui propose(nt) cette formation.

UE

    • Paris
      • Paris
        • 2024-2025 2nd semestre : Formation ouverte et à distance (FOAD)
        • 2026-2027 2nd semestre : Formation ouverte et à distance (FOAD)
        Comment est organisée cette formation ?
        2024-2025 2nd semestre : Formation ouverte et à distance

        Dates importantes

        • Période des séances du 03/02/2025 au 07/06/2025
        • Période d'inscription : du 10/06/2024 à 10:00 au 14/03/2025 à 17:00
        • Date de 1ère session d'examen : la date sera publiée sur le site du centre ou l'ENF
        • Date de 2ème session d'examen : la date sera publiée sur le site du centre ou l'ENF

        Précision sur la modalité pédagogique

        • Une formation ouverte et à distance (FOAD) est une formation dispensée 100% à distance, qui peut être suivie librement, à son rythme.
        • Regroupements physiques facultatifs : Aucun

        Organisation du déploiement de l'unité

        • Nombre d'élèves maximum à distance par classe : 80
        • Nombre d'heures d'enseignement par élève : 77
        • Délai maximum de réponse à une solicitation : sous 96 heures (Jours ouvrés)

        Modes d'animation de la formation

        • Forum
        • Organisation d'une séance de démarrage
        • Evaluation de la satisfaction
        • Hot line technique

        Ressources mises à disposition sur l'Espace Numérique de Formation

        • Documents de cours
        • Enregistrement de cours
        • Documents d'exercices, études de cas ou autres activités pédagogiques
        • tests de connaissance QCM

        Modalité de contrôle de l'acquisition des compétences et des connaissances (validation de l'UE)

        • Projet(s) individuel(s)