Departamento de Informática (UM)

Página de Unidade Curricular 🇬🇧

DesignaçãoCódigoCursoRegimeRegente

Análise de Dados de Grandes Dimensões

16714 [ME78ME7800007351]

Mestrado em Engenharia Informática [MEINF]

S2

António Luís Pinto Ferreira Sousa

Objetivos

Programa

1. BigData: diversidade (ampla gama de formatos de dados), velocidade (processamento de fluxos de dados em tempo real para suportar decisões em tempo real) e volume
2. Fundamentos e Abordagens essenciais para conceber, armazenar, analisar e gerir dados semi-estruturados e não estruturados: modelos de dados como tabular, árvore, grafo, multi-dimensional (cubos), texto; e armazenamento orientado à linha vs coluna
3. Componentes básicos dos pipelines de análise de dados: aquisição, integração, exploração, mineração, análise, visualização e interpretação
4. Considerações sobre escalabilidade, disponibilidade, coerência, distribuição e expressividade dos dados
5. Processamento distribuido: aboragens como MapReduce, Dataflow/DAG e Grafos para distribuir o processamento em vários nós
6. Comparação entre Processamento Batch e Stream para diferentes necessidades de análise de dados
7. Estratégias de otimização de desempenho em análise de dados para maximizar a eficiência computacional
8. Análise de grandes quantidades de dados em Python: Jupyter Notebooks, Pandas, NumPy, Dask ou PySpark

Bibliografia


Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. Martin Kleppmann. 2017. O’ Reilly Media, Inc.

High Performance Python. Micha Gorelick, Ian Ozsvald. 2020. O’ Reilly Media, Inc.

Data Science with Python and Dask. Jesse C. Daniel. 2019. Manning.

Spark: The Definitive Guide. Bill Chambers, Matei Zaharia. 2018. O’ Reilly Media, Inc.

Resultados da aprendizagem

- Perceber os desafios em análises de grandes volumes de dados;
- Resolver os desafios em análises de grandes volumes de dados;
- Analisar casos de estudo de análises de grandes volumes de dados;
- Aprender ferramentas e boas práticas para análise de dados mais eficaz, escalável, robusta e reproduzível;
- Conceber soluções eficazes de análises de grandes volumes de dados;
- Implementar soluções eficazes de análises de grandes volumes de dados.

Método de avaliação

A metodologia de avaliação do curso envolve um projeto (40-60%) e teste (40-60%). O projeto tem como objetivo ajudar os alunos a compreender e aplicar os princípios da análise de grandes volumes de dados e a resolver desafios de forma inovadora. O teste permite avaliar os conhecimentos teóricos e o espírito crítico. A avaliação contínua, incluindo teste e apresentações de projecto, garantem uma avaliação completa e diferenciadora.


Funcionamento

Turno: T 1; Docente: António Luís Pinto Ferreira Sousa; Dep.: DI; Horas: 15.
Turno: TP 1; Docente: Cláudia Vanessa Martins Brito; Dep.: DI; Horas: 30.

[ Outras UCs do Departamento ]