UFS › SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas São Cristóvão, 19 de Outubro de 2020


Notícias

Banca de DEFESA: THIAGO DIAS BISPO
23/05/2018 08:29


Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: THIAGO DIAS BISPO
DATA: 08/06/2018
HORA: 09:00
LOCAL: Sala de seminários do DCOMP
TÍTULO: Arquitetura LSTM para classificação de discursos de ódio cross-lingual Inglês-PtBR
PALAVRAS-CHAVES: Discursos de ódio, Aprendizado de máquina, Processamento de Linguagem Natural, Redes LSTM
PÁGINAS: 60
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
RESUMO:

Uma das consequências da popularização do acesso à Internet é a disseminação de insultos e mensagens discriminatórias, os chamados discursos de ódio (do inglês, hatespeech). São comentários que visam discriminar alguém ou um conjunto de pessoas por pertencerem a um certo grupo, normalmente minoritário, ou possuírem alguma característica também comum a outras pessoas. O combate aos discursos de ódio é uma demanda crescente na vida real e virtual pois eles afetam profundamente a dignidade de suas vítimas. Detecção de discursos de ódio é uma tarefa difícil porque, além da linguagem natural ser inerentemente ambígua, ela exige certo nível de compreensão de sua estrutura linguística. Em muitos discursos, a discriminação não acontece de forma explícita ou com expressões típicas: é preciso ter conhecimento do mundo para reconhecê-las. Além disso, algumas vezes é necessário entender o contexto da frase para perceber seu teor odioso. O sarcasmo é outro desafio enorme (até para humanos) uma vez que sua presença exige conhecimento da comunidade e potencialmente do usuário responsável pelo comentário para o entendimento de sua intenção. Diversas abordagens foram propostas para reconhecimento do hatespeech. Muitos autores consideram N-grams, dentre os quais aqueles baseados em caracteres mostram-se mais efetivos que aqueles baseados em palavras. Combinadas ou não aos N-grams, features léxicas também foram estudadas, como a presença ou não de palavras negativas, classes ou expressões indicativas de insulto, sinais de pontuação, repetições de letras, presença de emojis, etc. Features linguísticas mostraram-se ineficientes quando utilizadas isoladamente, como POS tag, e a relação entre os termos da árvore de dependência resultante da análise sintática. Recentemente, a abordagem mais bem sucedida usou uma rede neural para criar uma representação distribuída das sentenças presentes em um corpus de discursos de ódio, indicando que o treinamento de word embeddings é um caminho promissor na área de detecção de discursos de ódio. A língua afeta drasticamente as tarefas de Processamento de Linguagem Natural (PLN), uma vez que a maioria das palavras, se não todas, são diferentes de uma língua para outra, além de sua sintaxe, morfologia e construções linguísticas. Por esta razão, os trabalhos em língua inglesa não são diretamente aplicáveis em corpora de língua portuguesa. Além disso, corpora em português para discursos de ódio são raros, fazendo com que pesquisadores da área precisem realizar todo o trabalho de construção. Nessa dissertação foi estudado o uso de um modelo deep cross lingual Long Short-Term Memory (LSTM), treinado com um dataset de discursos de ódio traduzido do Inglês de duas diferentes maneiras, pré-processado e vetorizado, com variadas estratégias que foram representadas em 24 cenários. As principais abordagens adotadas consideraram: o treinamento de embeddings através de vetores de índices de palavras (técnica Estado da Arte), vetores TFIDF, vetores N-grams, com ou sem vocabulário GloVe, testados com o dataset construído e rotulado neste trabalho e com outro disponível em português. O processo invertido também foi experimentado: traduzimos o nosso corpus para o Inglês e comparamos o desempenho com sua versão original. Com os embeddings resultantes do processo de treinamento em cada cenário, usamos uma Gradient Boosting Decision Tree (GBDT) como forma de seleção de features para melhorar a classificação. De fato, os resultados obtidos com a LSTM foram melhorados em muitos cenários. Alcançamos precisão de até 100% nos experimentos usando o modelo treinado com o corpus em Inglês e nosso dataset traduzido para esta língua. Alguns cenários tiveram um desempenho apenas razoável, com precisão em torno de 70%, por exemplo, e, em outros, técnicas tradicionais e bem sucedidas como vetores TFIDF associados à uma LSTM não se mostraram suficientes. Duas importantes contribuições deste trabalho são: (i) proposta de uma abordagem de pesquisa alternativa de ataque ao problema baseada na tradução de corpora e a (ii) disponibilização de um dataset de discursos de ódio em língua portuguesa para a comunidade.


MEMBROS DA BANCA:
Presidente - 2527554 - HENDRIK TEIXEIRA MACEDO
Interno - 1683105 - CARLOS ALBERTO ESTOMBELO MONTESCO
Externo à Instituição - VLÁDIA CÉLIA MONTEIRO PINHEIRO

SIGAA | Superintendência de Tecnologia da Informação/UFS | Telefonista/UFS (79)3194-6600 | Copyright © 2009-2020 - UFRN v3.5.16 -r12646-2c874e3307