Notícias

Banca de DEFESA: NAYARA ROSY FELIX DA SILVA
11/08/2015 16:21

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: NAYARA ROSY FELIX DA SILVA
DATA: 31/08/2015
HORA: 08:00
LOCAL: DCOMP
TÍTULO: Geração multi-parametrizada de corpora linguísticos
PALAVRAS-CHAVES: Processamento de Linguagem Natural, Linguística de Corpus, Focused Web Crawler, Twitter
PÁGINAS: 115
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
SUBÁREA: Metodologia e Técnicas da Computação
ESPECIALIDADE: Banco de Dados
RESUMO:

O desenvolvimento de software de Processamento de Linguagem Natural (PLN) é altamente dependente da boa qualidade do que chamamos de Corpus Linguístico. Um corpus é uma coleção de textos processáveis pelo computador, mas produzidos dentro de um ambiente comunicativo natural. Essa dependência advém do fato de que a maior parte do trabalho realizado com PLN hoje em dia está relacionado ao uso de técnicas de Aprendizado de Máquina para criação de modelos de linguagem. Para sistemas que permitem correção automática e previsão de palavras e sentenças, por exemplo, modelos linguísticos são gerados a partir de um corpus de texto a partir de transcrições usando N-Gram. Infelizmente, corpora linguísticos em português do Brasil não são abundantes e sua confecção não é uma tarefa trivial. Um caminho é a confecção de Crawlers Web. Focused Crawlers, em particular, têm o propósito de coletar páginas da Web que sejam relevantes a um tópico ou interesse específico do usuário. Focused Crawlers existentes ainda não atendem completamente a necessidades específicas e toda potencialidade de um sistema de PLN. Esta dissertação de mestrado se propõe a contribuir com o Estado da Arte ao propor uma ferramenta para a confecção automática de corpora bem representativos ao objetivo do usuário que possam ser balanceados em respeito a fatores tais como tipo de coleta, domínio, língua, formalidade do discurso e rotulação do texto. A ferramenta permite ainda que etapas de pós-processamento sejam realizadas, como por exemplo limpeza do corpus, construção de um modelo de linguagem e de um modelo de entidades nomeadas. Dois corpora foram criados em duas formas de coleta distintas: por dados da Web (corpus VazaBarris) ou por dados do Twitter (corpus Poxim). O corpus VazaBarris consiste de 86 milhões de palavras e o Poxim consiste de 3 milhões de palavras. Estes corpora foram avaliados por meio da criação de modelo de linguagem e comparação com dois outros corpora em Português. Os resultados mostram que Poxim alcançou o melhor valor de perplexidade. Poxim também traz maior contribuição quando interpolado com algum outro corpus. Além dos corpora, foi criado um método de coleta automática para streaming de dados, utilizando o algoritmo de Relevance Feedback. Segundo os resultados, utilizar Relevance Feedback para a coleta dos dados melhorou o valor de perplexidade com o corpus coletado inicialmente. Um terceiro corpus foi criado para rotulação de Entidades Nomeadas, o Paramopama. O Paramopama é uma versão estendida PtBR do corpus WikiNer, com inclusão das entidades Pessoa, Localização, Organização e Tempo. Os resultados mostram que o Paramopama apresentou melhoria para as métricas de Precisão, Cobertura e Medida-F na comparação com outros três corpora do Estado da Arte.

MEMBROS DA BANCA:
Presidente - 2527554 - HENDRIK TEIXEIRA MACEDO
Interno - 2662198 - TARCISIO DA ROCHA
Externo à Instituição - JOÃO BATISTA DA ROCHA JÚNIOR
Externo à Instituição - LUCIANO DE ANDRADE BARBOSA

A UFS preocupa-se com a sua privacidade

Notícias