Forskningsprojektet omhandler indsamling fra internettet. Dette digitalt fødte materiale høstes flere gange om året som led i pligtafleveringen/bevaring af kulturarven. I loven står der, at materiale fra Internettet er under pligtafleve-ring, hvis det er på dansk eller rettet mod et dansk publi-kum. Det betyder, at websider fra sociale medier (såsom blogs, Facebook og Twitter) og fra andre nationale domæ-ner (som .se og .no) eller fra andre domæner (såsom .eu, .org og .com) kan være omfattet af loven.
I den stigende globaliserede verden finder dansk kommu-nikation i stigende grad sted uden for .dk-domænet. Dette materiale kan i praksis ikke indsamles effektivt nok med den nuværende manuelle tilgang. Dette er en stadig sti-gende udfordring.
Forskningsprojektets mål er at finde automatiske måder til at indsamle disse vigtige web-sider uden for .dk-domænet, så de kan bevares. Projektet har gode mulighe-der for succes fordi dansk er et særegent sprog, og fordi Internet Archive netop nu har tilbudt at stille vigtige res-sourcer til rådighed, som vi aldrig selv ville kunne få res-sourcer til at opbygge.
Projektet er yderst relevant for, at Netarkivet til stadighed kan opfylde pligtafleveringsloven om indsamling og beva-ring af alle relevante danske sider. Forskningsprojektet vil også få stor betydning for anden forskning såsom DigHumLab, som gerne vil basere sig på sådanne data. Endelig har projektet international bevågenhed, da dette kan bidrage til andre landes løsninger.