Usando o Machine Learning para soluções de segurança

As falhas na coordenação dos serviços de segurança norte-americanos têm sido amplamente divulgados após trágicos eventos como os ataques de 11 de setembro. Os conhecimentos necessários para prevenir os ataques, aliás, estavam à disposição dos funcionários, mas a falta de coordenação resultou em um fatal desencontro. Como consequência, ocorreram atrocidades que poderiam ter sido evitadas.

machine_learning-primary-idge
Um documento divulgado recentemente pela Cornell University Library examina como a inteligência artificial (AI) pode ser usada para melhorar os processos internos no Departamento de Estado dos Estados Unidos. O estudo estava particularmente centrado em como o departamento poderia obter melhor classificação para o enorme volume de emails gerados a cada ano internamente (cerca de 2 bilhão de mensagens). 

“Classificando o classificado”

Acredita-se que o departamento gere cerca de 2 bilhões de e-mails por ano, muitos dos quais contêm informações classificadas. Compreender – e, assim, classificar corretamente – o conteúdo que precisa de classificação é uma tarefa bastante trabalhosa, no entanto.

Os pesquisadores usaram o machine learning para implementar uma solução. Eles começaram treinando algoritmos em cerca de um milhão de cabos fora de uso da década de 1970 entre o Departamento de Estado e diplomatas estrangeiros. Cada mensagem tinha sido previamente marcada como secreta, confidencial, uso oficial limitado ou como “não classificada”.

Depois de terem treinado o sistema, eles o configuraram para que passasse a classificar corretamente os documentos e, especialmente, para rotular corretamente o conteúdo como merecedor do status de “classificado”.

O algoritmo mostrou-se particularmente poderoso ao fazer isso, com uma taxa de sucesso de 90% na detecção de conteúdo classificado e uma taxa de falso positivo de apenas 11%. Além do mais, a equipe acredita que o trabalho teria sido ainda melhor com dados melhores para se trabalhar.

O que torna algo “classificado”?

Além da capacidade de classificar o conteúdo, o estudo descrito acima também lança uma luz sobre os aspectos de uma mensagem que mais contribuem para o seu status de segurança. Por exemplo, a frequência de certas palavras é tomada como o melhor indicador do status de segurança da mensagem global, com o remetente e o destinatário muito menos confiáveis.

Curiosamente, alguns dos falsos positivos atribuídos à máquina se provaram como sendo erros humanos, ao final. Em outras palavras, eles deveriam ter sido classificados, mas os seres humanos os haviam marcados de outra forma.

Sugere que as máquinas podem desempenhar um papel cada vez mais importante para garantir que o conteúdo seja classificado corretamente, mas que, para que isso seja eficaz, elas precisam ter dados de boa qualidade para serem treinadas.

Além disso, o trabalho também tem o potencial de revelar padrões no compartilhamento de dados e, de fato, também na remoção de dados em serviços de segurança que podem, por si só, ter implicações de segurança. Afinal, provou-se que conteúdo classificado “tinha o hábito” de desaparecer repentinamente.

Embora seja sem dúvida interessante, também está claro que esta é uma fase muito precoce de todo o processo. No entanto, dados os bilhões gastos anualmente pelo Departamento de Estado na classificação de documentos, é um trabalho que, muito provavelmente, terá maior desenvolvimento daqui pra frente.

Fonte: DZone.com

21