Banca de DEFESA: MARCUS VINICIUS SANTANA POLETTI
03/08/2023 09:36
Contexto: Os portais de dados abertos são construídos com base em processos ETL (Extract, Transform and Load), os quais aumentam a qualidade e interoperabilidade dos dados, perfazendo um subsistema crítico para estas aplicações, passível de pesquisas avaliativas para melhorias. Objetivo: Analisar publicações sobre o uso de ETL em portais de transparência, a fim de caracterizá-las quanto aos seus cenários, impactos, métodos empíricos e dados bibliométricos gerais. A partir dessa caracterização, desenvolver e avaliar um módulo ETL para um portal de transparência, comparando-o qualitativamente com módulos desenvolvidos em duas ferramentas ETL amplamente usadas no mercado. Adicionalmente, foi feita uma análise das eficiências dos procedimentos de carga gerados pelos 3 tratamentos avaliados. Método: Utilizando a estratégia PICO (População, Intervenção, Comparação e Resultado), foi realizado um mapeamento sistemático da literatura. Além disso, foi executada uma Pesquisa-Ação para construção de procedimentos ETL do Anuário Econômico de Sergipe. As ferramentas avaliadas durante o processo de desenvolvimento foram: (1) Pentaho Data Integration - Kettle, Open Source, e (2) SQL Server Integration Services - SSIS, Closed Source, contra (3) um código ETL construído na linguagem Python. Resultados: De um total de 204 publicações pesquisadas, foram selecionados 25 trabalhos, dos quais 40% apresentam, como principal impacto para os portais, a disponibilidade de suporte para construção de cargas por meio de uma interface gráfica, seguida da possibilidade de conectividade entre bases de dados heterogêneos (27%) e capacidade de monitoramento de cargas (22%). Em relação à automação real de cargas e seu controle de qualidade, respectivamente, apenas 8% e 3% dos trabalhos discutiram os impactos dessas características. No que concerne à pesquisa-ação, foram encontradas evidências de destaque da ferramenta Kettle, do ponto de vista da usabilidade e eficiência de desenvolvimento por meio de interface gráfica, bem como do ponto de vista da curva de aprendizagem. Na sequência, vieram a linguagem de programação Python e a ferramenta SSIS. Em relação à eficiência, a mensuração do tempo de carga mostrou um melhor desempenho da linguagem Python, seguida do Kettle e do SSIS. Conclusão: O trabalho mostrou que o uso de ETL em portais de transparência ainda carece de estudos comparativos e de viabilidade. Nesse sentido, um desafio existente é a escassez de pesquisas que realizem replicações para consolidar e validar os trabalhos já publicados, evidenciado pela insufuciência de experimentos controlados na área. Além disso, análises sobre o controle de qualidade das cargas foi uma importante lacuna identificada. Por fim, definidas as prioridades contextuais de portais de transparência, como por exemplo a eficiência das cargas ou a eficiência de desenvolvimento, a avaliação sistematizada de soluções disponíveis, tal como a proposta nesta dissertação, norteia situações de trade-off e seleção do melhor custo-benefício.
SIGAA | Superintendência de Tecnologia da Informação/UFS | Telefonista/UFS (79)3194-6600 | Copyright © 2009-2024 - UFRN v3.5.16 -r19142-da426f1ea9