A UFS preocupa-se com a sua privacidade

A UFS poderá coletar informações básicas sobre a(s) visita(s) realizada(s) para aprimorar a experiência de navegação dos visitantes deste site, segundo o que estabelece a Política de Privacidade de Dados Pessoais. Ao utilizar este site, você concorda com a coleta e tratamento de seus dados pessoais por meio de formulários e cookies.

Ciente
Notícias

Banca de DEFESA: MARTA DEYSIANE ALVES FARIA SOUSA

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE: MARTA DEYSIANE ALVES FARIA SOUSA
DATA: 27/02/2023
HORA: 14:00
LOCAL: CEPITEC
TÍTULO: Protocolo para anotação linguística, gerenciamento e arquivamento de amostras sociolinguísticas: amostra Deslocamentos 2019 do banco de dados Falares Sergipanos
PALAVRAS-CHAVES: Sociolinguística Variacionista. Ciência Aberta. Dados de fala. Anotação Linguística.
PÁGINAS: 170
GRANDE ÁREA: Lingüística, Letras e Artes
ÁREA: Lingüística
SUBÁREA: Sociolingüística e Dialetologia
RESUMO:

Bancos de dados linguísticos são ferramentas que propiciam aos pesquisadores acesso ágil a amostras de língua (textos orais ou escritos), cruzamento entre dados de diferentes regiões e um acervo linguístico de um determinado período e localidade, servindo não só a propósitos científicos, mas também didáticos (FREITAG; MARTINS; TAVARES, 2012; SILVA, 2015; GONÇALVES, 2019). Tanto no contexto brasileiro quanto internacional, a preocupação com a documentação e arquivamento de amostras sociolinguísticas pode ser explicada pela importância desses dados para o avanço das pesquisas na área (KENDALL, 2013), pelas demandas da Ciência Aberta quanto ao compartilhamento dos dados e pelos avanços tecnológicos em termos de armazenamento e anotação linguística (VANN, 2021). No entanto, assim como no exterior, no Brasil, empreendimentos nesse sentido têm-se dado no nível individual, sem padronização na metodologia, codificação e disponibilização de dados, o que dificulta a replicabilidade e consequente cotejamento de fenômenos variáveis entre diferentes bancos de dados. Ademais, não há amostras sociolinguísticas morfologicamente ou sintaticamente anotadas entre aquelas que já se encontram disponíveis online, assim como protocolos de armazenamento e gerenciamento dos dados e códigos para realização de análise estatística. Objetivamos com este trabalho, elaborar um protocolo de etiquetagem linguística nos níveis morfológico e de classe de palavras da Amostra Deslocamentos 2019 (FREITAG et. al, 2019) e descrever processos para buscas e para disponibilização da amostra em plataforma online seguindo os preceitos da Ciência Aberta. Nossa tese é a de que é possível utilizar recursos abertos e gratuitos para anotação linguística, buscas automáticas e compartilhamento de dados seguindo o paradigma da Ciência Aberta. Para defendermos essa tese: i) classificamos os erros da anotação linguística automática das ferramentas LancsBox e do spaCy em termos de erros do próprio etiquetador, erros ocasionados por transcrição e a não existência de erros, para o fenômeno linguístico variável de preenchimento de determinante antes de possessivo pré-nominal; ii) descrevemos o processo de busca e organização dos dados para o fenômeno estudado em cada um dos etiquetadores; iii) comparamos os dados do fenômeno nas ferramentas em entrevistas limpas (sem marcas contextuais e de oralidade) e sem limpeza; iv) descrevemos os procedimentos de arquivamento tanto dos dados gerados, códigos, como de procedimentos técnicos e éticos para divulgação da amostra. Pelo método de florestas aleatórias avaliamos a classificação dos erros para cada um dos etiquetadores. Os resultados evidenciaram que a acurácia do modelo para os dois etiquetadores foi maior em entrevistas com limpeza. Tanto para o contexto anterior quanto para os dados de determinantes, o modelo foi mais acurado para o spaCy. A partir do protocolo criado, adotamos ações para melhora nos procedimentos de revisão das entrevistas transcritas. Adicionalmente, criamos um padrão para o armazenamento dos dados e para a transcrição ortográfica, um organizador automático para os dados antigos e o site para a disponibilização da amostra.


MEMBROS DA BANCA:
Presidente - 1505794 - RAQUEL MEISTER KO FREITAG
Interno - 3043502 - ROANA RODRIGUES
Externo ao Programa - 1146894 - JULIANA PEREIRA SOUTO BARRETO
Externo à Instituição - ÁLISSON HUDSON VERAS LIMA
Externo à Instituição - RICARDO JOSEH LIMA

Notícia cadastrada em: 31/01/2023 09:57
SIGAA | Superintendência de Tecnologia da Informação/UFS - - | Copyright © 2009-2024 - UFRN - bigua3.bigua3 v3.5.16 -r19130-f2d2efc73e