Nouvelles

Projet IA pour la détection des enregistrements de noms de domaine suspects

18 juillet 2023

DNS Belgium et SIDN collaborent à l'élaboration d'un logiciel destiné à détecter, dès l’enregistrement, les demandes de noms de domaine susceptibles de servir à des fins frauduleuses. On pense notamment aux nouveaux noms de domaines enregistrés par des acteurs malintentionnés en vue de l’hébergement de hameçonnage, de logiciels malveillants et le squatting de domaine. Pour l’instant, les deux registres utilisent leur propre système pour repérer les demandes suspectes dès l'enregistrement. Par le biais de cette collaboration, ils s’attachent à cerner les apports respectifs potentiels ainsi que l’imbrication éventuelle de leur logiciel à terme.

Le système néerlandais

Le système RegCheck développé par SIDN pour détecter les enregistrements suspects de noms de domaine est entré en service à l'été 2022. Depuis lors, toutes les nouvelles demandes (entre 2 000 et 3 000 par jour) ont été vérifiées à la lumière d’un éventail de critères (négatifs) qui génèrent une hausse plus ou moins grande du taux de risque. Dès lors que le score total franchit un seuil donné, le nom de domaine en question est transféré dans un tableau de bord pour examen manuel par les analystes ‘usages frauduleux’ de SIDN. Si l’enregistrement apparaît effectivement à haut risque, le titulaire est invité à prouver son identité. S’il omet de s’y conformer dans les trois jours ouvrables, SIDN peut déconnecter ou modifier les serveurs de noms, et le site web original devient alors inaccessible.

SIDN utilise un algorithme de Machine Learning (apprentissage automatique) pour dégager les corrélations entre les critères négatifs et le taux de risque. De l’avis de SIDN, la demande d'identification doit être légitimée. En d’autres termes, l'algorithme se construit sur la base non pas d'un réseau neuronal (‘fuzzy’ black box) mais d'une régression logistique (technique statistique).

Par ailleurs, SIDN est partisan d'un système à haute précision, d’où l’importance de la détection des enregistrements à haut risque ainsi que d’un pourcentage de faux positifs aussi faible que possible. En agissant de la sorte, SIDN évite que les titulaires de noms de domaine ne soient inutilement inondés de demandes de preuve d'identité.

Le maximum, dans les meilleurs délais

DNS Belgium suit une autre voie que SIDN. Avec son nouveau Système ML (actuellement encore en phase de test), DNS tente précisément de détecter le maximum d’enregistrements suspects dans les meilleurs délais. Dans le cadre de cette formule rigoureuse, les noms de domaine qui affichent un haut taux de critères négatifs au stade de la demande sont exclus de la zone .be tant que le titulaire ne s'est pas légitimé. "S’il faut envoyer 200 demandes de légitimation pour empêcher 20 enregistrements frauduleux, à nos yeux, c'est un bon compromis", explique Maarten Bosteels, responsable R&D chez DNS Belgium.

Alors que le système de SIDN est opérationnel depuis moins d'un an, cela fait plus de dix ans que les Belges se sont lancés dans l’évaluation des nouveaux enregistrements de noms de domaine. "Au départ, on procédait à la main et pour tous les nouveaux domaines", note M. Bosteels.

Avec environ 1.000 enregistrements par jour, il devenait compliqué de continuer à appliquer le modèle manuel. Depuis fin 2020, DNS Belgium s’est donc doté d’un système à base de règles pour dépister les demandes suspectes.

Collaboration

C’est l'an dernier qu’est née l'idée d’une coopération au niveau des systèmes ML pour la détection précoce d'enregistrements suspects. "SIDN et DNS Belgium sont confrontés aux mêmes problèmes", précise M. Bosteels, "et nous travaillons à des solutions similaires. Il va de soi qu’un tel échange d’expériences ne peut qu’être fructueux." Les deux organisations ont entretemps échangé le code source de leurs systèmes. "Nous sommes en train d'analyser le code de SIDN. La prochaine étape consistera à entraîner le logiciel de SIDN sur le même ensemble de données que notre système et voir ce que cela va donner."

De son côté, SIDN procède à un exercice similaire, et a auparavant déjà adopté certaines fonctions du système belge. "Nous avons intégré dans notre système des fonctions et astuces des Belges que nous n'avions pas encore envisagées", remarque Thijs van den Hout, Machine Learning Research Engineer, "Avec en corollaire une amélioration effective du logiciel."

La diversité des points de vue, des méthodes et des approches est d’ores et déjà source d’échanges fructueux.

Des échanges fructueux

Au-delà de la diversité des points de vue, des méthodes et des approches déjà mentionnée, il est encore d'autres différences qui rendent cet échange technique fructueux pour les deux parties. Le système RegCheck de SIDN est davantage axé sur la production, et le système belge sur la recherche. Le développement de ce dernier a donc nécessité davantage de recherche et l’exploration de nombreuses pistes pour aboutir au système actuel.

"Le nouveau logiciel de ML a été écrit par un doctorant de la KU Leuven", précise M. Bosteels. "Notre code est plus complexe, intègre plus d’éléments et de bibliothèques de tiers, et a multiplié les expériences, ce qui tend à en compliquer la mise en œuvre."

"DNS Belgium travaille sur ce logiciel depuis plusieurs années déjà", ajoute Thymen Wabeke, Machine Learning Engineer, tandis que chez SIDN, nous avons pu partir de zéro. Le but étant d’ouvrir aussi la porte à d'autres modèles, il s’ensuit que notre logiciel revêt davantage la forme d’un cadre. Nous avons essayé de proposer une solution aussi générique que possible"

Code base commun

De par cette architecture et l’approche axée production, le logiciel RegCheck de SIDN est plutôt appelé à faire éventuellement office de code base commun. L'opportunité et la faisabilité d'une telle démarche sont actuellement à l’étude auprès des deux registres.

Une étape ultérieure consistera à développer le logiciel existant pour en faire une solution susceptible d’être déployée par d’autres registres. L’idéal serait que le code soit alors pris en charge par un groupe de trois ou quatre registres intéressés. Le développement d'un logiciel open source public n’est toutefois pas envisageable dans la mesure où les acteurs malintentionnés en tireraient parti pour dégager d’éventuelles pistes de contournement de ces contrôles. Selon MM. Bosteels et Van den Hout, un partenariat sous la bannière du CENTR , qui regroupe les registres ccTLD européens, serait davantage adapté à un tel projet.

Il est trop tôt encore pour envisager la création d’une équipe de développement composée d'un groupe de registres. Compte tenu des ambitions actuelles, M. Bosteels estime qu'à l’issue de cette première phase d'évaluation, il est souhaitable que d'autres registres se manifestent qui seraient disposés à jouer le rôle de caisse de résonance des développements en cours et à y apporter leurs propres idées.