Banca de DEFESA: Mayana Wanderley Pereira

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE : Mayana Wanderley Pereira
DATA : 26/04/2024
HORA: 10:00
LOCAL: Remota
TÍTULO:

ADVANCING FAIRNESS AND DIFFERENTIAL PRIVACY IN MACHINE LEARNING FOR SOCIALLY RELEVANT APPLICATIONS


PALAVRAS-CHAVES:

aprendizado de máquina, dados sintéticos, privacidade diferencial, mídia de abuso sexual infantil, imparcialidade algorítimica, inteligência artificial


PÁGINAS: 76
RESUMO:

Esta tese investiga técnicas de aprendizado de máquina que preservam a privacidade para aplicações socialmente relevantes, focando em duas áreas específicas: detecção e identificação de Mídia de Abuso Sexual Infantil (CSAM) e geração de conjuntos de dados sintéticos que com foco em desenvolvimento ético e privado de inteligencia artifical. Abordamos o desafio de desenvolver soluções baseadas em aprendizado de máquina para detecção de CSAM enquanto consideramos as restrições éticas e legais do uso de imagens explícitas para treinamento do modelo. Para contornar essas limitações, propomos uma nova estrutura que utiliza metadados de arquivo para identificação de CSAM. Nossa abordagem envolve o treinamento e avaliação de modelos de aprendizado de máquina prontos para implantação baseados em caminhos de arquivo, demonstrando sua eficácia em um conjunto de dados de mais de um milhão de caminhos de arquivo coletados em investigações reais. Além disso, avaliamos a robustez de nossa solução contra ataques adversáriais e exploramos o uso de privacidade diferencial para proteger o modelo de ataques de inferência de modelo sem sacrificar a utilidade. Na segunda parte desta tese, investigamos as oportunidades e desafios do uso da geração de dados sintéticos no contexto do aumento da adoção de regulamentações globais de privacidade. Dados sintéticos são dados que imitam dados reais sem replicar informações pessoais, e oferecem diversas possibilidades para análise de dados e tarefas de aprendizado de máquina. No entanto, pouco se sabe sobre os impactos do uso de conjuntos de dados sintéticos em pipelines de aprendizado de máquina, especialmente quando apenas dados sintéticos estão disponíveis para treinamento e avaliação de modelo. Este estudo examina a relação entre privacidade diferencial e viés social dos algoritmos aprendizado de máquina, explorando como diferentes métodos de geração de dados sintéticos afetam o viés social dos algoritmos e comparando o desempenho de modelos treinados e testados com dados sintéticos versus dados reais. Os resultados contribuem para uma melhor compreensão do uso de dados sintéticos em pipelines de aprendizado de máquina e seu potencial para avançar o estado da arte em diversas áreas.

Como trabalho futuro, pretendemos desenvolver protocolos para a geração de conjuntos de dados sintéticos a partir de fontes distribuídas com garantias de privacidade diferencial, sem a necessidade de uma parte confiável. O objetivo desta abordagem é permitir que detentores de dados compartilhem seus dados sem violar restrições éticas e legais.


MEMBROS DA BANCA:
Presidente - 2311780 - FABIO LUCIO LOPES DE MENDONCA
Externo ao Programa - 2556078 - GEORGES DANIEL AMVAME NZE - nullExterno à Instituição - MARIO LARANGEIRA - TITECH
Externo à Instituição - RICARDO FELIPE CUSTODIO - UFSC
Interno - 330495 - WILLIAM FERREIRA GIOZZA
Notícia cadastrada em: 24/04/2024 14:35
SIGAA | Secretaria de Tecnologia da Informação - STI - (61) 3107-0102 | Copyright © 2006-2024 - UFRN - app12_Prod.sigaa06