Nieuws

AI-project voor detectie van verdachte domeinnaamregistraties

18 juli 2023

DNS Belgium en SIDN werken samen aan software om frauduleuze domeinnaamaanvragen al bij de registratie te detecteren. Denk dan aan nieuwe domeinen die fraudeurs registreren voor de hosting van phishing , malware en domain squatting. Beide registry 's hebben nu een eigen systeem om verdachte aanvragen al bij de registratie te signaleren. In deze samenwerking kijken ze wat ze van elkaar kunnen leren en of ze op termijn hun software misschien in elkaar kunnen schuiven.

Het Nederlandse systeem

Het RegCheck-systeem dat SIDN voor de detectie van verdachte domeinnaamregistraties ontwikkelde, is sinds zomer 2022 in gebruik. Dat betekent dat alle nieuwe aanvragen (tussen de 2000 en 3000 per dag) sindsdien gecontroleerd worden op een hele serie aan (negatieve) eigenschappen die de risicozone in meer of mindere mate verhogen. Overschrijdt de totaalscore een ingestelde drempelwaarde, dan volgt een handmatige beoordeling door SIDN's abuse-analisten. Lijkt het inderdaad om een risicovolle registratie, dan vraagt SIDN aan de houder om zijn identiteit te bewijzen. Doet hij dat niet binnen 3 werkdagen, dan kan SIDN de nameservers ontkoppelen of aanpassen, waardoor de oorspronkelijke website onbereikbaar wordt.

SIDN gebruikt een machinelearningalgoritme (ML) om de samenhang tussen negatieve eigenschappen en de risicoscore te bepalen. Een belangrijk uitgangspunt voor SIDN is dat het identificatieverzoek uitlegbaar moet zijn. Dat betekent dat het algoritme niet is gebouwd op basis van een neuraal netwerk (een "fuzzy" black box) maar op basis van logistische regressie (een statistische techniek).

Daarnaast wil SIDN een systeem met een hoge precisie. Dit betekent dat het niet alleen belangrijk is om risicovolle registraties te detecteren. Ze willen een zo laag mogelijk percentage valspositieven. Op deze manier voorkomt SIDN dat houders onnodig worden lastiggevallen met de vraag om hun identiteit te bewijzen.

Zo veel mogelijk zo vroeg mogelijk

DNS Belgium zit er principieel anders in dan SIDN. Met hun nieuwe ML-systeem (nu nog in een testopstelling) proberen ze juist om zo veel mogelijk verdachte registraties zo vroeg mogelijk te detecteren. Deze strenge aanpak betekent dat domeinnamen die bij de aanvraag hoog scoren op negatieve eigenschappen, niet in de .be-zone komen voordat de houder zich legitimeerde. "Als we 200 legitimatieverzoeken moeten versturen om uiteindelijk 20 malafide registraties tegen te houden, dan is dat voor ons een goede trade-off," zegt Maarten Bosteels, verantwoordelijk voor R&D bij DNS Belgium.

SIDN zijn systeem is sinds een klein jaar operationeel. Wij Belgen zijn al meer dan tien jaar bezig met de beoordeling van nieuwe domeinnaamregistraties. "In eerste instantie deden wij dat met de hand en voor alle nieuwe domeinen," vertelt Bosteels. Met grofweg 1.000 registraties per dag was die handmatige aanpak natuurlijk moeilijk vol te houden. Vanaf eind 2020 gebruikt DNS Belgium dan ook een regel-gebaseerd systeem om verdachte aanvragen eruit te vissen.

Samenwerking

Het idee om samen te werken aan hun ML-systemen voor de vroegtijdige detectie van verdachte registraties ontstond vorig jaar. "SIDN en DNS Belgium hebben dezelfde problemen," zegt Bosteels, "en we werken aan vergelijkbare oplossingen. Het is duidelijk dat we van elkaar kunnen leren." De twee organisaties wisselden ondertussen de broncode van hun systemen uit. "We nemen de code van SIDN hier door. De volgende stap is om de software van SIDN op dezelfde dataset als ons eigen systeem te trainen en te zien wat dat oplevert."

SIDN doet een vergelijkbare oefening. Ze namen eerder al bepaalde functies uit het Belgische systeem over. "We namen een paar kenmerken en trucjes van de Belgen in ons eigen systeem op. Dingen waar we zelf nog niet naar hadden gekeken," vertelt Machine Learning Research Engineer Thijs van den Hout. "Dat leverde ook echt een verbetering van de software op."

Verschillende uitgangspunten, methoden en aanpak maken de uitwisseling nu al waardevol.

Waardevolle uitwisseling

Naast de verschillen in uitgangspunten, methoden en aanpak zijn er meer verschillen die deze technisch-inhoudelijke uitwisseling nu al waardevol maakt voor SIDN en DNS Belgium. Het RegCheck-systeem van SIDN is meer productieklaar, terwijl ons systeem meer onderzoeksgericht is. Dat betekent dat bij de ontwikkeling daarvan meer research is gedaan en meer paden zijn belopen om tot het huidige systeem te komen.

"De nieuwe ML-software is geschreven door een promovendus van de KU Leuven," vertelt Bosteels. "Onze code is complexer, bevat meer features en libraries van derden, en er zijn meer experimenten mee gedaan. Dat maakt onze software wel moeilijker om mee van start te gaan."

"DNS Belgium werkt al een paar jaar aan hun software," vult Machine Learning Engineer Thymen Wabeke aan, "terwijl wij bij SIDN met een schone lei startten. Omdat wij ook ruimte wilden bieden aan andere modellen, heeft onze software ook meer de vorm van een framework. We probeerden om een zo generiek mogelijke oplossing neer te zetten."

Gezamenlijke codebase

Die architectuur plus een productiegerichte insteek maken dat de RegCheck-software van SIDN eerder in aanmerking komt als basis onder een eventuele gezamenlijke codebase. De wenselijkheid en haalbaarheid daarvan is een van de zaken die SIDN en DNS Belgium nu onderzoeken.

Nog een stap verder is de doorontwikkeling van de bestaande software tot een oplossing die door veel meer registry's ingezet kan worden. Idealiter wordt de code dan door een groepje van 3 à 4 belanghebbende registry's onder de hoede genomen. Doorontwikkeling in de vorm van een publiek open-source pakket lijkt in dit geval geen optie. Dat geeft fraudeurs de gelegenheid om te onderzoeken of zij deze checks op een of andere manier kunnen omzeilen. Volgens Bosteels en Van den Hout zou een samenwerkingsverband onder de vlag van CENTR , de koepel van Europese ccTLD -registry's, beter passen bij dit project.

Voor het organiseren van een ontwikkelteam dat bestaat uit een groep van registry's, is het nu nog te vroeg. Maar met deze ambities in het achterhoofd is er volgens Bosteels na dit eerste stadium van evaluatie wel behoefte aan andere belangstellende registry's die als sparring partners meekijken met de huidige ontwikkelingen en hun ideeën inbrengen.