Faculdade de Ciências e Tecnologia

Prospeção e Análise de Dados

Código

11563

Unidade Orgânica

Faculdade de Ciências e Tecnologia

Departamento

Departamento de Informática

Créditos

6.0

Professor responsável

Joaquim Francisco Ferreira da Silva, Pedro Manuel Corrêa Calvente Barahona

Horas semanais

4

Língua de ensino

Português

Objectivos

Conhecimentos:

  • Compreender os paradigmas e desafios das áreas de Data Analytics e Text Mining
  • Aprender métodos fundamentais e suas aplicações na extracção de padrões relevantes a partir dos dados. Dados, selecção de modelos, e interpretação de resultados.
  • Compreender vantagens e limitações dos métodos de Data Analytics e Text Mining estudados.

 

Aptidões:

  • Implementar e adaptar algoritmos de Data Analytics e Text Mining.
  • Modelar experimentalmente dados reais usando esses algoritmos.
  • Interpretar e avaliar resultados experimentais.
  • Validar algoritmos de Data Analytics e Text Mining.

 

Competências:

  • Capacidade de avaliar a adequação dos métodos a dados e casos de estudo
  • Capacidade de avaliar criticamente os resultados obtidos.
  • Autonomia para aplicar e aprofundar os conhecimentos nas áreas de Data Analytics e Text Mining.

Pré-requisitos

A frequência desta UC assume a aprovação às seguintes UC’s:

  • Análise Matemática
  • Álgebra Linear e Geometria Analítica
  • Probabilidades e Estatística
  • Inteligência Artificial
  • Aprendizagem Automática

Conteúdo

Introduction

Data Analytics

Dados: exemplos de data analytics e suas perspectivas 

Visualização de dados como ferramenta dedata analytics

Text Mining

Informação estruturada ou não-estruturada? Porquê fazer mining em textos?

Que problemas podem ser resolvidos?

 

  • Modulo I

Compreender os Dados

  • Sumarização e visualização de dados unidimensionais
  • Correlação e visualização de dados bidimensionais
  • Verificação da estrutura dos dados

Pré-Processamento de Dados

  • Tratamento de valores omissos
  • Criação de atributos
  • Normalização

Modelação Descritiva I

Análise de Componentes Principais (PCA)

  • Sumarização versus Correlação
  • Decomposição em valores singulares (SVD)
  • PCA como SVD.  Abordagem convencional de PCA’s.

Aplicações de PCA’s

Modelação Descritiva II

  • K‐means, Anomalous clusters, Intelligent K‐Means
  • Clustering espectral
  • Clustering relacional (se houver tempo)

Interpretação de Modelos Descritivos

  • Abordagem conventional
  • Avaliação da tendência de clustering
  • Items de interpretação pelo método dos mínimos quadrados

Casos de Estudo de Data Analytics

 

 

Modulo II Text Mining

Extração de Informação Relevante

  • Expressões relevantes: multi‐palavras  e palavras isoladas
  • Extratores estatísticos vs simbólicos. Algoritmos e métricas
  • Independência relativamente à língua

Análise simbólica e análise estatística de textos

  • TokenizationStemming e etiquetagem morfológica (PartOfSpeech Tagging)
  • Distribuição das palavras nos textos em contexto de Big Data;  lei de  Zipf
  • Métricas para associação de termos e para recuperação (Retrieval)
  • Correlação entre documentos
  • Desambiguação do significado de palavras (Word Sense Disambiguation)

Descritores de documentos

  • Extração de palavras-chave (keywords) explícitas e implícitas, de forma independente da língua.
  • Âmbito e extensão semânticas dos Documentos
  • Sumarização de documentos

Classificação de documentos

  • Expressões relevantes como atributos caraterizadores  de documentos. Seleção e redução de atributos.
  • Semelhança entre documentos
  • Agrupamento (Clustering) supervisionado vs não-supervisionado de documentos.
  • Predição e avaliação

Casos de estudo em Text Mining (alguns exemplos)

  • Extração de Named Entities
  • Filtragem em e-mail
  • Identificação de línguas
  • Extração eficiente de multi-palavras
  • Deteção de polaridade

Bibliografia

  • D. T. Larose, C. D. Larose (2015), Data Mining and Predictive Analytics, 2nd Edition, Wiley.
  • B. Mirkin (2011), Core Concepts in Data Analysis: Summarization, Correlation, Visualization. Undergraduate Topics for Computer Science Series, Springer, London.
  • Weiss, S.M., Indurkhya, N., Zhang, T., Damerau, F. (2005), Text Mining: Predictive Methods for Analyzing

Método de avaliação

A avaliação desta UC é composta por uma componente teórica-prática (T) e uma componente laboratorial ou de projecto (P), tendo cada componente um peso de 50% na nota final.

 Para obter aprovação à disciplina um estudante necessita de: nota mínima de 10 valores em cada uma das componentes de avaliação de cada um dos dois módulos. A nota final é definida pela média ponderada das duas componentes de avaliação.

 A componente teórica-prática (T) consiste na realização de dois testes, os quais contarão em partes iguais para a nota desta componente. Em alternativa, esta componente pode ser realizada por exame de recurso.

 A componente de projecto consiste na realização de dois projectos de programação acompanhados de relatórios escritos. Os projectos serão realizados em grupo de 2 alunos no máximo e serão sujeitos a avaliação individual.

É necessária a presença a pelo menos 2/3 das aulas quer teóricas quer práticas.

Cursos