Language Large Models (LLMs) estão crescendo rapidamente em popularidade, com novos paradigmas e tecnologias em evolução baseadas neles constantemente entrando em cena. Esses modelos, como o ChatGPT, geralmente são treinados em vários recursos da Internet, incluindo artigos, conteúdo de sites, livros e sites de mídia social.
Em um movimento sem precedentes, uma equipe de pesquisadores do Instituto Avançado de Ciência e Tecnologia da Coreia e da empresa de inteligência de dados S2W desenvolveram o DarkBERT, um grande modelo de linguagem (LLM) treinado em conjuntos de dados extraídos exclusivamente da dark web. Seu objetivo era criar uma ferramenta de IA que superasse os modelos de linguagem existentes e ajudasse pesquisadores de ameaças, autoridades policiais e profissionais de segurança cibernética a combater ameaças cibernéticas. Verificar O uso de inteligência artificial na segurança cibernética torna o mundo mais seguro?
Links Rápidos
O que é DarkBERT?
DarkBERT é um modelo criptográfico baseado em switch baseado na arquitetura RoBERTa. O modelo LLM foi treinado em milhões de páginas da dark web, incluindo dados de fóruns de hackers, sites fraudulentos e outras fontes online vinculadas a atividades ilegais.
O termo "dark web" refere-se a uma seção oculta da Internet que não é acessível por meio de navegadores padrão. A subdivisão é conhecida por abrigar sites e mercados anônimos conhecidos por atividades ilegais, como comércio de dados roubados, drogas e armas. Requer um aplicativo especializado como o Tor (The Onion Router) para acessá-lo. O Tor anonimiza os endereços IP dos usuários, dificultando o rastreamento de suas atividades online.
Para treinar o DarkBERT, os pesquisadores acessaram a dark web por meio da rede Tor e coletaram dados brutos. Eles filtraram cuidadosamente esses dados usando técnicas como desduplicação, balanceamento de classe e pré-processamento para criar um banco de dados otimizado da dark web, que foi então alimentado ao RoBERTa ao longo de cerca de 15 dias para criar o DarkBERT.
Esse banco de dados serve como dados de treinamento para melhorar a capacidade do modelo DarkBERT de entender e extrair informações significativas do conteúdo complexo e rico em dialetos da Dark Web. O DarkBERT foi alimentado com quase 6.1 milhões de páginas encontradas na dark web como parte de um pré-treinamento de texto em inglês em grande escala.
O DarkBERT se distingue de outros paradigmas de linguagem por sua capacidade inigualável de entender os dialetos únicos e as mensagens enigmáticas predominantes na dark web. Em vários casos de uso relacionados à segurança cibernética, o DarkBERT superou consistentemente paradigmas de linguagem bem estabelecidos, como BERT e RoBERTa. Verificar Os melhores sites dark que você não encontrará em vários mecanismos de pesquisa.
Usos potenciais do DarkBERT em segurança cibernética
DarkBERT tem uma grande compreensão da linguagem cibercriminosa e se destaca na detecção de ameaças potenciais identificadas. Ele pode pesquisar na dark web e identificar e relatar com sucesso ameaças de segurança cibernética, como vazamentos de dados e ransomware, tornando-se uma ferramenta potencialmente útil para combater ameaças cibernéticas.
Para avaliar a eficácia do DarkBERT, os pesquisadores o compararam com dois modelos populares de NLP, BERT e RoBERTa, avaliando seu desempenho em três casos de uso relacionados à segurança cibernética, pesquisa publicada na arxiv.org.
1. Monitore os fóruns da dark web em busca de discussões potencialmente prejudiciais
O monitoramento de fóruns da dark web, comumente usados para troca de informações ilegais, é crucial para identificar tópicos potencialmente perigosos. No entanto, a revisão manual desse processo pode levar muito tempo, o que torna a automatização do processo benéfica para os especialistas em segurança.
Os pesquisadores se concentraram em atividades potencialmente maliciosas em fóruns de hackers e criaram diretrizes de anotação para discussões importantes, incluindo o compartilhamento de dados confidenciais e a distribuição de malware ou vulnerabilidades críticas.
O DarkBERT superou outros modelos de linguagem em termos de precisão, recordação e pontuação F1, emergindo como uma escolha melhor para identificar discussões notáveis na dark web.
2. Detecte sites que hospedam informações confidenciais
Hackers e grupos de ransomware usam a dark web para criar sites de vazamento de dados, onde publicam dados confidenciais roubados de organizações que se recusam a cumprir as exigências de resgate. Outros cibercriminosos carregam dados confidenciais vazados, como senhas e informações financeiras, para a dark web com o objetivo de vendê-los.
Em seu estudo, os pesquisadores coletaram dados de grupos de ransomware notórios e analisaram sites de vazamento de ransomware que publicam dados para organizações. O DarkBERT superou outros modelos de linguagem na identificação e categorização desses sites e demonstrou sua compreensão da linguagem usada em fóruns de hackers clandestinos na Dark Web.
3. Identifique palavras-chave relacionadas a ameaças na dark web
O DarkBERT aproveita a função de máscara de preenchimento, um recurso inerente aos paradigmas da linguagem BERT, para identificar com precisão palavras-chave associadas a atividades ilegais, incluindo vendas de drogas na dark web.
Quando a palavra “MDMA” estava escondida em uma página de venda de drogas, o DarkBERT gerava palavras relacionadas a drogas, enquanto outros modelos sugeriam palavras genéricas e termos não relacionados a drogas, como diferentes ocupações.
A capacidade do DarkBERT de identificar palavras-chave relacionadas a atividades ilegais pode ser valiosa para rastrear e lidar com ameaças cibernéticas emergentes. Verificar Diferentes maneiras de prevenir ataques à cadeia de suprimentos.
O DarkBERT está disponível para o público em geral?
Atualmente, o DarkBERT não está disponível ao público, mas os pesquisadores estão abertos a solicitações para usá-lo para fins acadêmicos.
Aproveitando o poder da inteligência artificial para detectar e prevenir ameaças
O DarkBERT é pré-treinado em dados da dark web e supera os paradigmas de linguagem existentes em vários casos de uso de segurança cibernética, tornando-o uma ferramenta crítica para o avanço da pesquisa na dark web.
A IA treinada na dark web tem o potencial de ser usada para muitas tarefas de segurança cibernética, incluindo a identificação de sites que vendem dados confidenciais vazados, monitoramento de fóruns da dark web para detectar compartilhamento ilegal de informações e identificação de palavras-chave relacionadas a ameaças cibernéticas.
Mas você deve sempre lembrar que, como outros LLMs, o DarkBERT é um trabalho em andamento e seu desempenho pode ser aprimorado por meio de treinamento contínuo e ajuste fino. Você pode ver agora Comparação de segurança cibernética e hacking ético: qual é a diferença entre eles?