Nieuw onderzoek uit de Verenigde Staten en Qatar biedt een innovatieve methode om nepnieuws te identificeren zoals het daadwerkelijk door mensen geschreven wordt. Deze aanpak richt zich op het insluiten van onnauwkeurige verklaringen binnen een grotendeels waarheidsgetrouwe context en het gebruik van populaire propagandatechnieken zoals het beroep op autoriteit en geladen taal. Dit baanbrekende project heeft geleid tot de creatie van een nieuwe trainingsdataset voor het detecteren van nepnieuws, genaamd PropaNews, waarin deze technieken zijn verwerkt.
Effectiviteit van de nieuwe dataset
De auteurs van het onderzoek hebben ontdekt dat detectoren die getraind zijn op de nieuwe dataset 7.3-12% nauwkeuriger zijn in het detecteren van door mensen geschreven desinformatie dan eerdere state-of-the-art benaderingen. Voorbeelden van ‘beroep op gezag’ en ‘geladen taalgebruik’ uit het onderzoek illustreren de kracht van deze methode.
Een unieke benadering
De auteurs beweren dat, voor zover zij weten, het project het eerste is dat propagandatechnieken (in plaats van eenvoudige feitelijke onnauwkeurigheden) integreert in door machines gegenereerde tekstvoorbeelden, bedoeld om nepnieuwsdetectoren te trainen. Volgens hen is deze aanpak geschikter om te studeren hoe men zich kan verdedigen tegen door mensen geschreven nepnieuws.
De urgentie van geavanceerde detectie
Ze onderstrepen de urgentie van geavanceerde detectiemethoden met voorbeelden van de verwoestende impact van desinformatie op de Amerikaanse presidentsverkiezingen van 2016, Brexit, de COVID-19 pandemie, en de recente Russische aanval op Oekraïne. Hieruit blijkt de dringende behoefte aan een effectief verdedigingsmechanisme tegen door mensen geschreven desinformatie.
Onwaarheid definiëren
De uitdaging van het kwantificeren van propaganda is grotendeels een logistieke uitdaging. Het is duur om mensen in te huren om real-world materiaal met propaganda-achtige kenmerken te herkennen en te annoteren voor opname in een trainingsdataset. Daarom werken de onderzoekers aan een meer schaalbare oplossing.
Verzameling van data
In hun zoektocht verzamelden de onderzoekers door mensen gemaakte desinformatie-artikelen van nieuwsbronnen die als laag in feitelijke nauwkeurigheid werden beschouwd. Ze ontdekten dat 33% van de bestudeerde artikelen onoprechte propagandatechnieken gebruikte, terwijl nog eens 55% onjuiste informatie bevatte vermengd met nauwkeurige informatie.
Beroep doen op autoriteit
De beroep doen op autoriteit benadering heeft twee use-cases: het citeren van onnauwkeurige verklaringen en het citeren van volledig fictieve verklaringen. Het nieuwe project richt zich op de tweede use case, waarbij ze gebruik maken van frameworks zoals RoBERTa en BART om deze te identificeren en te veranderen in propaganda.
Geladen taal genereren
Geladen taal omvat woorden die impliciete waardeoordelen bevatten, vaak emotioneel geladen bijwoorden en bijvoeglijke naamwoorden. De auteurs gebruikten een dataset van een studie uit 2019 en SpaCy om deze taal te identificeren en te integreren in hun dataset.
PropaNews-dataset
Na grondige modeltrainingen genereerden ze de PropaNews-dataset, bestaande uit artikelen van betrouwbare bronnen die zijn aangepast met algoritmische propaganda. Deze dataset werd gevalideerd door 400 unieke werknemers van Amazon Mechanical Turk.
HumanNews-dataset
Ter evaluatie van hun aanpak verzamelden de onderzoekers 200 door mensen geschreven nieuwsartikelen en combineerden deze met aanvullende ontkrachte artikelen. Deze data werden grondig op feiten gecontroleerd om toe te voegen aan de HumanNews-dataset.
Tests en Resultaten
Het detectieproces, getest tegen bestaande frameworks, toonde aan dat varianten van Grover en RoBERTa uiterst effectief waren bij training op de PropaNews-dataset. Vooral frameworks getraind op PropaNews presteerden beter in het identificeren van door mensen geschreven desinformatie.
Verouderd? Nieuwe uitdagingen
De auteurs benadrukken dat modellen getraind op oude gegevens mogelijk niet optimaal presteren bij nieuwe gebeurtenissen. Dit toont de noodzaak aan van dynamisch leren om nieuwe vormen van desinformatie effectief te detecteren.
Paltering en context
Hoewel de studie hier niet direct op ingaat, kan dit soort diepgaand onderzoek uiteindelijk leiden tot subtiele bewapening van taal en manipulatieve contextherstructurering. Het doel is om een reactie uit te lokken die afwijkt van de feitelijke bedoeling van de informatie.
Voor meer gedetailleerde informatie, raadpleeg het originele onderzoekspaper.