UFS › SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas São Cristóvão, 19 de Outubro de 2020


Notícias

Banca de DEFESA: FLÁVIO ARTHUR OLIVEIRA SANTOS
12/07/2018 19:46


Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: FLÁVIO ARTHUR OLIVEIRA SANTOS
DATA: 31/07/2018
HORA: 10:00
LOCAL: Sala de seminários do DCOMP
TÍTULO: Sobre o uso de conhecimento especialista para auxiliar no aprendizado de Word Embeddings
PALAVRAS-CHAVES: Processamento de Linguagem Natural, Word Embeddings, Conhecimento Morfológico, Paráfrase.
PÁGINAS: 55
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
SUBÁREA: Metodologia e Técnicas da Computação
RESUMO:

Representações de palavras são importantes para muitas tarefas de Processamento de Linguagem Natural (PLN). Estas representações têm como objetivo substituir a forma escrita das palavras por uma representação numérica, mais adequada para etapas de processamento. Obter boas representações é muito importante uma vez que a maioria dos métodos de aprendizado de máquina responsáveis pelas soluções dos problemas de PLN consistem de modelos matemáticos que fazem uso dessas representações numéricas capazes de incorporar as informações sintáticas e semânticas das palavras. Os chamados Word Embeddings, vetores de números reais gerados através de modelos de aprendizado de máquina, é um exemplo recente e popularizado dessa representação. GloVe e Word2Vec são modelos bastante difundidos na literatura que aprendem tais representações. Porém, ambos atribuem uma única representação vetorial para cada palavra, de forma que: (i) ignoram o conhecimento morfológico destas e (ii) representam paráfrases a nível de palavra com vetores diferentes. Não utilizar o conhecimento morfológico das palavras é considerado um problema porque este conhecimento é composto de informações muito importantes, tais como, radical, desinência de gênero e número, vogal temática e afixos. Palavras com essas características em comum devem ter representações semelhantes. As representações de paráfrases a nível de palavra devem ser semelhantes porque são palavras com escritas diferentes mas que compartilham o significado. O modelo FastText representa uma palavra como uma bag dos n-grams dos caracteres na tentativa de resolver o problema (i); assim, cada um destes n-gram é representado como um vetor de números reais e uma palavra é representada pela soma dos vetores dos seus respectivos n-grams. Entretanto, utilizar todos os n-grams possíveis dos caracteres é uma solução de força bruta, sem qualquer embasamento científico e que compromete (ou inviabiliza) a performance do treinamento dos modelos na maioria das plataformas computacionais existentes em instituições de pesquisa, por ser extremamente custoso. Além disso, alguns n-grams não apresentam qualquer relação semântica com suas respectivas palavras de referência (observe como exemplo, a palavra american e seu 5-gram, erica). Para resolver este problema, este trabalho propõe o modelo Skip-Gram Morfológico. A hipótese de pesquisa levantada é a de que ao se trocar a bag dos n-grams dos caracteres pela bag de morfemas da palavra, palavras com morfemas e contextos similares também irão ser similares. Este modelo foi avaliado com 12 tarefas diferentes: Google, MSR, SE-2012, MEN, MTurk, RG65, RW, SimLex999, WS353, AP, BLESS e BATTIG. Essas tarefas tem como finalidade avaliar o quanto os word embeddings aprendidos incorporam as informações sintáticas e semânticas das palavras. Os resultados obtidos mostraram que o modelo Skip-Gram Morfológico é competitivo se comparado ao FastText, sendo 40% mais rápido. Para tentar resolver o problema (ii), este trabalho propõe o método GloVe Paráfrase, onde uma base de dados de paráfrases a nível de palavra é utilizada para enriquecer o método GloVe original com esta informação e, assim, os vetores das paráfrases tornarem-se mais semelhantes. Os resultados da aplicação deste método mostraram que o GloVe Paráfrase necessita de menos épocas de treinamento para obter boas representações vetoriais. Por exemplo, na tarefa SimLex999, enquanto o GloVe Paráfrase atinge uma acurácia de aproximadamente 22.5 já na primeira época, o GloVe original atinge esse resultado apenas na sétima época.


MEMBROS DA BANCA:
Presidente - 2527554 - HENDRIK TEIXEIRA MACEDO
Interno - 2027113 - ANDRE BRITTO DE CARVALHO
Externo à Instituição - CLEBER ZANCHETTIN

SIGAA | Superintendência de Tecnologia da Informação/UFS | Telefonista/UFS (79)3194-6600 | Copyright © 2009-2020 - UFRN v3.5.16 -r12646-2c874e3307