
Data Mining I
Código
53040
Unidade Orgânica
Instituto Superior de Estatística e Gestão de Informação
Créditos
7.5
Professor responsável
Fernando José Ferreira Lucas Bação
Horas semanais
2.0
Língua de ensino
Português. No caso de existirem alunos de Erasmus, as aulas serão leccionadas em Inglês
Objectivos
Na conclusão do curso o aluno deverá:
Pré-requisitos
O curso não pressupõe familiaridade do aluno com o tema, mas é altamente recomendável que o aluno possua conhecimentos de estatística inferencial, bem como competências como utilizador informático.
Conteúdo
1. Introdução ao Data Mining
1.1. Os dados...
1.2. Os dados e as organizações
1.3. A promessa do Data Mining
1.4. Definição de Data Mining
1.5. A perspectiva empresarial
1.6. Tarefas típicas do Data Mining
1.6.1. Descoberta de Conhecimento (Clustering e Resumo)
1.6.2. Modelação Preditiva (Classificação e Regressão)
1.7. Tópicos adicionais
1.7.1. Diferentes tipos de Aprendizagem
1.7.2. A Maldição da Dimensionalidade
1.7.3. O Problema da Separabilidade
1.8. Exemplos de aplicação
2. Aspectos metodológicos do Data Mining
2.1. Definição do Problema
2.2. Recolha de dados
2.3. Metodologia de abordagem (SEMMA)
3. Visualização de dados
3.1. O papel da visualização
3.2. Lie Factor
3.3. Ferramentas de análise para dados 1d
3.4. Ferramentas de análise para dados 2d e 3d
3.5. Ferramentas de análise para dados 4d ou mais
4. Introdução às Tarefas de Preparação e Préprocessamento de Dados
4.1. Ruído vs sinal
4.2. Dados Omissos
4.3. Dados Inconsistentes
4.4. Identificação e Remoção de Outliers
4.5. Dados Temporais
4.6. Normalização de Dados
4.7. Redução da Dimensionalidade
4.8. Discretização de Valores
5. Fundamentos da Análise de Clusters
5.1. Introdução
5.2. Escolha das Variáveis
5.3. Critérios de Semelhança
5.4. Análise RFM
5.4.1. Exact quintiles
5.4.2. Hard coding
5.5. Algoritmos de Clustering
5.5.1. Algoritmos Hierárquicos
5.5.2. Algoritmo k-means
5.6. Número de Clusters
5.7. Interpretação e caracterização dos clusters
5.8. Validade da solução
6. Self-Organizing Maps
6.1. Algoritmo SOM
6.2. Parâmetros de treino
6.3. Batch
6.4. Online
6.5. Análise de resultados
6.6. Matrizes U
7. Regras de Associação
7.1. Objectivo
7.2. Tipos de Regras
7.3. Funcionamento (algoritmo apriori)
7.4. Medidas de qualidade das regras
7.5. Aspectos adicionais sobre a implementação
7.6. Extensão temporal
Bibliografia
Hand D. J., 1998, Data mining: statistics and more? The American Statistician, 52, 112--118. 11. Cap. 3, 6 e 8
A. K. Jain, M.N. Murthy and P.J. Flynn, 1999 Data Clustering: A Review, ACM Computing Review.
Han, J., Kamber, M. 2001, Data Mining – Concepts and Techniques, Morgan Kaufmann, San Francisco, California
Berry, M.J.A. Linoff, G., 1997, Data Mining Techniques for marketing, sales and customer support. 2000, John Wiley & Sons. Cap. 1, 2, 3, 4, 5, 8 e 10
Berry, M.J.A. Linoff, G., 1997, Data Mining Techniques for marketing, sales and customer support. 2000, John Wiley & Sons. Cap. 1, 2, 3, 4, 5, 8 e 10
Método de ensino
Aulas teóricas e sessões práticas para elaboração do projecto.
Método de avaliação
1ª Época - Exame (65%), Projecto (35%)
2ª Época - Exame (65%), Projecto (35%)