NOVA Information Management School

Data Mining I

Código

200026

Unidade Orgânica

NOVA Information Management School

Créditos

7.5

Professor responsável

Fernando José Ferreira Lucas Bação

Língua de ensino

Português. No caso de existirem alunos de Erasmus, as aulas serão leccionadas em Inglês

Objectivos

Na conclusão do curso o aluno deverá:

 - Discutir criticamente as principais noções e conceitos associados ao Data Mining;
 - Ser capaz de executar tarefas básicas de preparação e pré-processamento de dados;
 - Descrever os princípios e executar uma análise RFM;
 - Descrever em detalhe o funcionamento do algoritmo k-means e self-organizing map;
 - Descrever em detalhe o funcionamento do algoritmo self-organizing map;
 - Analisar e descrever os resultados apresentados por uma Matriz-U;
 - Produzir uma segmentação, defendendo as opções tomadas e explicando as alternativas;
 - Descrever o funcionamento do algoritmo apriori e a forma como são geradas as regras de associação;
 - Saber calcular os principais indicadores de qualidade de regras de associação;

Pré-requisitos

O curso não pressupõe familiaridade do aluno com o tema, mas é altamente recomendável que o aluno possua conhecimentos de estatística inferencial, bem como competências como utilizador informático.

Conteúdo

1. Introdução ao Data Mining
1.1. Os dados...
1.2. Os dados e as organizações
1.3. A promessa do Data Mining
1.4. Definição de Data Mining
1.5. A perspectiva empresarial
1.6. Tarefas típicas do Data Mining
1.6.1. Descoberta de Conhecimento (Clustering e Resumo)
1.6.2. Modelação Preditiva (Classificação e Regressão)
1.7. Tópicos adicionais
1.7.1. Diferentes tipos de Aprendizagem
1.7.2. A Maldição da Dimensionalidade
1.7.3. O Problema da Separabilidade
1.8. Exemplos de aplicação
2. Aspectos metodológicos do Data Mining
2.1. Definição do Problema
2.2. Recolha de dados
2.3. Metodologia de abordagem (SEMMA)
3. Visualização de dados
3.1. O papel da visualização
3.2. Lie Factor
3.3. Ferramentas de análise para dados 1d
3.4. Ferramentas de análise para dados 2d e 3d
3.5. Ferramentas de análise para dados 4d ou mais
4. Introdução às Tarefas de Preparação e Préprocessamento de Dados
4.1. Ruído vs sinal
4.2. Dados Omissos
4.3. Dados Inconsistentes
4.4. Identificação e Remoção de Outliers
4.5. Dados Temporais
4.6. Normalização de Dados
4.7. Redução da Dimensionalidade
4.8. Discretização de Valores
5. Fundamentos da Análise de Clusters
5.1. Introdução
5.2. Escolha das Variáveis
5.3. Critérios de Semelhança
5.4. Análise RFM
5.4.1. Exact quintiles
5.4.2. Hard coding
5.5. Algoritmos de Clustering
5.5.1. Algoritmos Hierárquicos
5.5.2. Algoritmo k-means
5.6. Número de Clusters
5.7. Interpretação e caracterização dos clusters
5.8. Validade da solução
6. Self-Organizing Maps
6.1. Algoritmo SOM
6.2. Parâmetros de treino
6.3. Batch
6.4. Online
6.5. Análise de resultados
6.6. Matrizes U
7. Regras de Associação
7.1. Objectivo
7.2. Tipos de Regras
7.3. Funcionamento (algoritmo apriori)
7.4. Medidas de qualidade das regras
7.5. Aspectos adicionais sobre a implementação
7.6. Extensão temporal

Bibliografia

Hand D. J., 1998, Data mining: statistics and more? The American Statistician, 52, 112--118. 11. Cap. 3, 6 e 8; A. K. Jain, M.N. Murthy and P.J. Flynn, 1999 Data Clustering: A Review, ACM Computing Review.; Han, J., Kamber, M. 2001, Data Mining ¿ Concepts and Techniques, Morgan Kaufmann, San Francisco, California; Berry, M.J.A. Linoff, G., 1997, Data Mining Techniques for marketing, sales and customer support. 2000, John Wiley & Sons. Cap. 1, 2, 3, 4, 5, 8 e 10; Course Notes Enterprise MinerTM: Applying Data Mining Techniques

Método de ensino

Aulas teóricas e sessões práticas para elaboração do projecto.

Método de avaliação

1ª Época - Exame (65%), Projecto (35%).
2ª Época - Exame (65%), Projecto (35%).

Cursos