Notícias

Banca de QUALIFICAÇÃO: NAYARA ROSY FELIX DA SILVA
11/12/2014 12:16

Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE: NAYARA ROSY FELIX DA SILVA
DATA: 16/12/2014
HORA: 09:00
LOCAL: DCOMP
TÍTULO: Geração multi-parametrizada de corpora linguísticos
PALAVRAS-CHAVES: Processamento de Linguagem Natural, Linguística de Corpus, Recuperação de Informação, Focused Web Crawler
PÁGINAS: 70
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
SUBÁREA: Metodologia e Técnicas da Computação
ESPECIALIDADE: Engenharia de Software
RESUMO:

O Processamento de Linguagem Natural (PLN) é um campo de pesquisa derivado da Linguística Computacional e que é tratado dentro da Inteligência Artificial. O objetivo do PLN é projetar e desenvolver mecanismos que permitam ao computador executar tarefas úteis envolvendo a linguagem humana, viabilizando-se, por exemplo, a comunicação natural entre humano e máquina, o auxílio à comunicação entre os próprios humanos através de sistemas de tradução automática entre diferentes línguas, correção ortográfica automática, previsão de palavras e sentenças, extração de informação da Web, e a sumarização de coleções de textos. O desenvolvimento de software de PLN de qualidade é hoje em dia altamente dependente da boa qualidade do que chamamos de Corpus Linguístico. Um corpus é uma coleção de textos processáveis pelo computador, mas produzidos dentro de um ambiente comunicativo natural. Essa dependência advém do fato de que a maior parte do trabalho realizado com PLN hoje em dia está relacionado ao uso de técnicas de Aprendizado de Máquina para criação de modelos de linguagem. Para sistemas que permitem correção automática e previsão de palavras e sentenças, por exemplo, modelos linguísticos são gerados a partir de um corpus de texto a partir de transcrições usando N-Gram. Infelizmente, corpora linguísticos em português do Brasil não são abundantes e sua confecção não é uma tarefa trivial. Um caminho é a confecção de Crawlers Web. Focused Crawlers, em particular, tem o propósito de coletar páginas da Web que sejam relevantes a um tópico ou interesse específico do usuário. Para implementação de um sistema que reconheça comandos linguísticos naturais do usuário para controle remoto de elementos presentes em uma residência (automação), por exemplo, seria importante o treinamento de um modelo a partir de um corpus formado com termos que remetem a este domínio. Focused Crawlers existentes ainda não atendem completamente a necessidades específicas e toda potencialidade de um sistema de PLN. Esta dissertação de mestrado se propõe a contribuir com o Estado da Arte da pesquisa em Linguística de Corpus ao propor uma semi-formalização para o desenvolvimento de Focused Crawlers bem representativos ao objetivo do usuário, permitindo a confecção automática de corpora que possam ser balanceados em respeito a fatores tais como domínio, contexto, língua, tamanho das sentenças, formalidade do discurso, rotulação do texto final, entre outros. Uma ferramenta que permite esta multi-parametrização deve ser confeccionada e sua aplicabilidade deve ser comprovada através da confecção de dois estudos de caso, onde os respectivos modelos linguísticos deverão ser avaliados através de métricas convencionais e já bem estabelecidas, tais como, Perplexity, Cross-Entropy, Precision, Recall, F-Measure.

MEMBROS DA BANCA:
Presidente - 2527554 - HENDRIK TEIXEIRA MACEDO
Interno - 2662198 - TARCISIO DA ROCHA
Externo à Instituição - JOÃO BATISTA DA ROCHA JÚNIOR

A UFS preocupa-se com a sua privacidade

Notícias