Présentation du cours

 

Introduction
Objectifs d’apprentissage
Durée du cours
Démarche d’apprentissage
Logiciel Matlab
Évaluation des apprentissages
Encadrement

 

Introduction

Le cours INF 6409 traite du forage de données, domaine aussi  désigné par le terme fouille de données ou par le terme anglo-saxon data Mining.

Le forage de données est l’application des techniques de statistiques, d’analyse de données et d’apprentissage automatique à l’exploration d’ensembles de données, en vue d’extraire les connaissances et les informations utiles qu’elles recèlent.

Objectifs d’apprentissage

À la fin du cours, vous devriez être capable de :

  • décrire différentes techniques d’analyse de données;
  • sélectionner et appliquer efficacement les techniques d’analyse en fonction du contexte d’utilisation (description, réduction de la dimension, regroupement, etc.) dans le but de faire émerger les connaissances et les informations significatives que peut contenir un ensemble de données.
  • participer à un projet de forage de données allant de la définition des variables à l’interprétation des résultats d’analyse.

Durée du cours

135 heures, réparties sur 15 semaines.

Vous pouvez toutefois, si nécessaire, profitez d’un report de la fin du cours. Pour des précisions sur cette possibilité, consultez le Guide des études à distance (p. 36).

Démarche d’apprentissage

Le cours est constitué de cinq modules encadrés par une activité de démarrage et une activité de clôture. Chacun des modules traite une technique commune utilisée dans le domaine du forage de données

Module 1 : Concepts de base du forage de données

Ce module constitue une introduction aux concepts de base du forage de données. Il est notamment question :

  • du principe du forage de données;
  • des applications du forage de données;
  • des différentes étapes de mise en oeuvre d’un processus de forage de données;
  • des différents de types données.

Vous réaliserez le premier mini-projet évalué sur 20 points. Il comprend trois exercices et un problème. L’objectif de ce mini-projet est, d’une part, d’appliquer les concepts étudiés sur des ensembles de données et, d’autre part, de faire une première activité pratique avec le logiciel Matlab.

Module 2 : Analyse en composantes principales

L’analyse en composantes principales (ACP) est une méthode d’analyse de données très connue en statistique et dans les sciences expérimentales. Elle consiste à rechercher les directions de l’espace qui représentent le mieux les corrélations dans un ensemble de données. Ceci a pour objectifs de réduire la dimension des caractéristiques, de les visualiser et d’interpréter et analyser les corrélations entre ces données.

Ce module traite du principe général et des objectifs de l’ACP. Les différentes étapes de la réalisation d’une ACP sont expliquées. L’objectif ultime est que vous puissiez, après le cours, réaliser une ACP sur un ensemble de données et d’interpréter les résultats obtenus à chacune des étapes de sa réalisation.

A la fin du module, vous réalisez le second mini-projet évalué sur 20 points. Un problème relatif à un ensemble de données est exposé et vous devez réaliser une ACP sur cet ensemble de données et en interpréter les résultats.

Module 3 : Regroupement

Le regroupement aussi appelé agrégation (en anglais {clustering}) est une méthode statistique d’analyse et de classification non supervisée de données. Cette méthode a pour objectif de construire des groupes ou agrégats d’objets similaires à partir d’un ensemble hétérogène d’objets.

Ce module traite le principe du regroupement et l’évaluation de sa qualité. Il traite trois méthodes de regroupement, à savoir, le regroupement hiérarchique, le regroupement par partition et le regroupement par modélisation.

Le module comprend un mini-projet qui se présente sous la forme d’un problème et dont l’objectif d’appliquer et de comparer trois méthodes de regroupement sur un même ensemble de données.

Module 4 : Arbres de décision

Un arbre de décision (en anglais decision tree) est une structure très utilisée en forage de données. Son fonctionnement repose sur des heuristiques construites en se basant sur des techniques d’apprentissage supervisé.

Ce module traite des structures d’arbres de décision et des algorithmes de leur construction. Plus précisément, il présentera l’algorithme ID3 et l’algorithme CART ainsi que leur avantages et limites.

Le module comprend un mini-projet qui se présente sous la forme d’un problème et dont l’objectif d’appliquer les algorithmes ID3 et CART sur un ensemble de données et d’interpréter les résultats des analyses.

Module 5 : Corrélation et régression

La régression est un ensemble de méthodes statistiques de prévisions qui sert à décrire et évaluer la relation entre une variable donnée (habituellement appelée variable dépendante) et une ou plusieurs autres variables (habituellement appelées variables indépendantes). Ce module est consacré aux modèles de régression simple et multiple.

Le module comprend un mini-projet qui se présente sous la forme d’un problème et dont l’objectif est, d’une part, d’analyser des corrélations et, d’autre part, de développer des modèles de regression simples et multiples sur l’ensemble de données.

Logiciel Matlab

Le logiciel Matlab est utilisé tout au long du cours. C’est un des environnement de calcul numérique les plus utilisés dans les universités, dans les laboratoires de recherche, mais aussi dans les entreprises.

Vous devez disposer d’une version étudiante R2014b ou ultérieure de ce logiciel afin de réaliser l’ensemble des activités et travaux notés du cours. Si vous l’achetez sur le site de la compagnie (actuellement 99$ US), c’est la version R2015a que vous allez vous procurer.

Avant d’acheter le logiciel ou d’installer une version du logiciel que vous aurez récupérée, vérifiez que votre système d’exploitation peut accueillir cette version de Matlab :

Évaluation des apprentissages

L’évaluation des apprentissages repose sur la réalisation de cinq mini-projets : chacun des modules comprend la réalisation d’un mini-projet qui sera noté sur 20 points. C’est le chargé d’encadrement corrige vos travaux et qui vous communique une évaluation et une rétroaction.

Nous vous rappelons ici que le plagiat constitue une faute grave, comme le stipule le règlement Plagiat, fraude et comportement répréhensible.

La notation littérale (A, B, C, E) est utilisée pour la note finale, conformément aux règlements des études supérieures de l’Université du Québec.

Notation Valeur numérique Zone
A+ 4,3 90 à 100
A 4,0 85 à 89
A- 3,7 80 à 84
B+ 3,3 77 à 79
B 3,0 73 à 76
B- 2,7 70 à 72
C+ 2,3 66 à 69
C 2,0 60 à 65
E 0 59 et –

Encadrement

Ce cours est conçu en vue d’une démarche d’étude individuelle selon le rythme qui vous convient. Votre encadrement est assuré par un chargé d’encadrement ou la professeure responsable.

Le rôle du chargé d’encadrement consiste à guider dans votre cheminement dans le cours. Il peut répondre, entre autres, aux questions relatives aux connaissances abordées dans le cours, aux activités d’apprentissage et aux travaux notés. C’est cette personne qui évalue et commente vos mini-projets.

La formule d’encadrement prévoit un courriel de démarrage à la première semaine. Cependant, il est recommandé aux personnes dont il s’agit du premier cours à distance de communiquer avec le chargé d’encadrement afin de fixer un rendez-vous téléphonique.

En tout temps, vous pouvez communiquer avec le chargé d’encadrement.