LGPD, Anonimização e a Privacidade Diferenciada da Apple

LGPD, Anonimização e a Privacidade Diferenciada da Apple

No mundo das healthtechs fala-se cada vez mais em LGPD – Lei Geral de Proteção de Dados. Entretanto a verdade é que nem sempre iluminamos o assunto com propriedade, e no geral, parece que todos temos apenas uma impressão do que isso realmente é, somada a uma opinião sobre o que deveria ser; ou seja, precisamos aprofundar e conversar mais sobre o assunto.

Discutir caminhos a serem seguidos é um dos desafios de quem está inovando em saúde. Quais as soluções tecnológicas disponíveis e existentes podem ser um exemplo ou despertar insights para um comportamento adequado com os dados sensíveis em saúde?

Quem está no front como a Anestech, mesmo sem homologação ou vigência de LGPD, possui no seu cotidiano a preocupação e respeito à segurança da informação e dados sensíveis de clientes e pacientes.

Isso começa bem antes da LGPD. Isso começa na alma da empresa, startup ou multi-nacional; com seu propósito somado ao compliance. Startups, em geral, precisam definir muito cedo qual o objetivo com sua atuação no mercado e qual a forma inovadora de se se executar essa ideia.

Só por definição ao ser inovadora, essa solução precisa ser mais acessível, mais eficiente, mais social, mais ecológica, mais econômica, mais ética, mais segura, mais e mais… Isso faz com que a tecnologia da informação e o empreendedorismo unam esforços para criar soluções também inovadoras para que esse alto nível exigido seja alcançado.

O esforço pela excelência é contínuo e progressivo. Parte desse esforço é a definição clara para todo o time da empresa de qual é o Compliance da organização. Do verbo “To comply”, ou seja, “Para cumprir”. A ética e consciência devem fazer parte da cultura da startup, e é desse ângulo que a segurança da informação precisa ver o processo como ponto de partida.

Mas obviamente não é só isso!

Na busca constante por melhorias que podem ser implementadas, acabamos encontrando soluções inspiradoras no mercado, geralmente protagonizadas por grandes empresas que analisam dados de seus usuários em busca de qualidade, insights e performance.

Um case interessante é o da #Apple e o que ela chama de Differential Privacy ou Privacidade Diferenciada.

Em resumo, a Apple analisa continuamente dados que têm como origem os devices dos usuários, mas de uma forma que garanta a segurança da informação e a anonimização desse dado. A ideia, segundo a própria Apple é obter insights sobre o que os seus usuários estão fazendo, ao mesmo tempo que ajudam a preservar a privacidade desses dados, ou seja, aprender com os usuários sem saber quem eles realmente são e ainda garantir a seu anonimato.

Para atingir esse objetivo a Apple altera o dado antes mesmo dele sair do device do usuário, de forma irreversível. A empresa faz isso eliminando metadados individuais (como o endereço IP) e adicionando ruído ao dado que vai ser compartilhado, em forma de um viés controlado, que será tratado estatisticamente nos seus servidores.

Caso o número de pessoas enviando o mesmo dado para a Apple seja consideravelmente grande, o ruído adicionado aparecerá acima da média durante a análise, e segundo a Apple isso por si permitirá a ela enxergar informações importantes.

O procedimento é Opt-in e transparente para o usuário. O primeiro passo da gigante da maçã é anonimizar o dado ainda no device do cliente, de forma que os servidores da Apple nunca recebam o dado de maneira clara. Os dados de identificação do device e usuário são retirados e o restante transmitido através de um canal criptografado já sem os dados de IP e outros metadados que possibilitariam a individualização da origem.

No último estágio, o sistema de análise agrega todos os dados compartilhados de forma anônima e tenta reconhecer sobre eles padrões, compartilhando o resultado dessa operação como informação com diversos times dentro da Apple. Tanto a área de captura dos dados quanto a agregação possuem acesso restrito e não está disponível para qualquer funcionário da empresa, apenas os resultados são compartilhados amplamente entre os times dependendo da afinidade com a área de cada um.

Outro conceito interessante é o de Privacy Budget que podemos traduzir como Previsão de Privacidade. De maneira simples, a Apple adiciona um indicador à cada ponto que gostaria de medir, e chama isso de Parâmetro Ipsilon, usando-o como um índice para evitar que um número grande de contribuição de dados de um único usuário, comparado à média dos outros, possa identifica-lo; o que em teoria seria possível.

Para entender esse conceito, vamos ver alguns itens monitorados pela Apple:

  • Sugestões para o QuickType
  • Uso de Emojis
  • Dicas de pesquisa
  • Sites que consomem mais energia acessados pelo Safari
  • Safari Autoplay Intent Detection
  • Domínios que provocaram fechamento do Safari
  • Tipos de parâmetros de saúde usados

Para cada um desses dados, a Apple estipula a quantidade de dados a serem coletados de cada usuário, descartando dados de origem como endereço IP, usando como indicador o Parâmetro Ipsilon.

Por exemplo, as Dicas de Pesquisa possuem um Parâmetro Ipsilon igual a 4, que limita a contribuição de um usuário a duas por dia. O Parâmetro Ipsilon de Emojis também é 4, mas o limite é a captura de apenas uma contribuição do usuário por dia. Para o QuickType, o parâmetro é 8, e o limite são quatro contribuições por dia.

Para os dados de saúde, o Parâmetro Ipsilon é 2, e limita a apenas uma contribuição de dados por usuário diariamente. Segundo a Apple, o envio do dado não compreende ao dado de saúde em si, mas ao tipo de dado de saúde que o usuário está utilizando.

Qualquer dado coletado fica três meses nos servidores da Apple depois são descartados.

Uma anotação minha aqui: Gosto do método, da descrição, da clareza e de valorizar o dado como uma genuína contribuição do usuário, com segurança, para a melhoria da entrega e assim promover a melhoria da própria experiência do usuário contribuinte. Na saúde, é um universo de coisas o que se pode medir e aprender apenas com a experiência do usuário, sem necessariamente ter acesso a dados sensíveis de pacientes.

Tecnologia B2B para saúde precisa incrementar muito a experiência do usuário, mas isso é assunto para outro papo…

Voltemos à Apple: a Técnica

Como vimos, Privacidade Diferenciada, garante que é quase impossível se identificar o usuário dono do dado em um processo de anonimização e adição de um ruído controlado ao dado. Entretanto antes de adicionar esse ruído, é necessário estipular a estrutura que terá esse conjunto de dados. A Apple usa para isso duas técnicas específicas:

Count Mean Sketch

Nessa técnica, o dado é codificado com uma série de funções matemáticas que são conhecidas como Hash, usadas para determinar dados de comprimentos variáveis em dados de comprimento fixo através de matrizes.

Após aplicada a Hash (SHA-256), a sequência é guardada como um vetor, e cada coordenada do vetor é alterada para um valor incorreto com a probabilidade de 1/(1 + e<X/2>) onde X é o parâmetro da privacidade. Apesar de cada submissão possuir muitos valores aleatórios, a contagem da média através do grande volume de informação recebida dá a Apple o significado real do dado no conjunto de dados agregados.

Hadamard Count Mean Sketch

Nessa técnica a Apple submete a hash a uma operação matemática chamada Base Hadamard (fiquei muito curioso para saber mais sobre isso), e, do resultado obtido randomiza 1 bit para enviar à Apple ao invés da linha de hash inteira. A Apple faz isso provavelmente pelo alto custo de se armazenar dados e manipulá-los em Hashes, e segundo ela com esse método alcança a mesma acurácia na análise.

A empresa revela que os usuários podem ver os dados enviados para a Apple em:Settings > Privacy > Analytics > Analytics Data.

Todo esse processo de tratamento de dados mostra um bom exemplo de um método a ser estudado de como extrair inteligência de um conjunto de dados com o cuidado de não expor pacientes ou instituições, e é nisso que devemos nos concentrar.

Afinal, como melhorar a experiência dos usuários – pacientes em busca de saúde e profissionais em busca de performance – de maneira exponencial, se não aprendermos algo de maneira contínua com a experiência?

Apontar o dedo para o problema é simples. Achar soluções práticas, aplicáveis, economicamente viáveis e eficientes é o objetivo do empreendedor de inovação em saúde na missão diária.

O resto é hype.

Conteúdo baseado no artigo original da Apple em: https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf

plugins premium WordPress