fbpx
Search
Close this search box.

De waarde van data in AI

In de wereld van kunstmatige intelligentie (AI) denken veel mensen aan een futuristisch landschap waar algoritmes robots aandrijven die dagelijkse taken overnemen; waar virtuele assistenten advies geven en agenda’s beheren; waar zelfrijdende auto’s ons rondrijden terwijl we een dutje doen of een film kijken. Datawetenschappers en machine learning (ML) ingenieurs dromen vaak van het ontwikkelen van het volgende baanbrekende model of het ontdekken van een verandering in het algoritme die de prestaties zal verbeteren. Wat vaak over het hoofd wordt gezien, is het belangrijkste aspect van het bouwen van een AI- of ML-model: de data die wordt gebruikt om het te trainen. 

Data, het ondergeschoven kindje in AI-ontwikkeling 

Experts adviseren consequent dat datawetenschappers en AI-ontwikkelaars zich vanaf het begin van een project moeten richten op het verkrijgen, schoonmaken en voorbereiden van hun datasets. Toch slaan de meeste AI-teams deze stap over en gaan direct over tot het bouwen of selecteren van hun algoritme, het kiezen van hun ML-platform en het bepalen van de beste programmeertaal voor AI. De data wordt aan de kant geschoven en vaak vergeten. 

In een recent gepubliceerd paper op Google Research, stellen onderzoekers van ACM SIGCHI, een vooraanstaande internationale gemeenschap van professionals geïnteresseerd in de praktische toepassing van mens-computer interacties, dat data “het meest ondergewaardeerde aspect van AI” is. 

Data, niet het model, is vaak het probleem 

Wanneer teams voor datawetenschap problemen ondervinden met hun modellen, geven ze snel de schuld aan de rekenkracht, het gebrek aan data, een probleem met de architectuur van het algoritme of een gebrek aan tools en middelen. Hierdoor worden investeringen vaak verkeerd geplaatst, terwijl datawetenschappers sleutelen aan het algoritme en het model veranderen. 

De experts van SIGCHI merken echter twee belangrijke dingen op: 

  • Data bepaalt grotendeels de prestaties, eerlijkheid, robuustheid, veiligheid en schaalbaarheid van AI-systemen. 
  • Momenteel worden kwaliteitsproblemen met data in AI aangepakt met de verkeerde tools die zijn gemaakt voor, en aangepast aan andere technologische problemen. 

Met deze bevindingen in gedachten, zijn het meestal niet de modelproblemen die uw AI-doelen tegenhouden en de modelprestaties verminderen. Het zijn uw data die de problemen veroorzaken. 

Neem data vanaf het begin serieus of verlies kostbare tijd 

Het is essentieel om tijd te nemen om de data te analyseren en te achterhalen waarom deze slechte prestaties veroorzaakt. Dit komt vaak voor en zorgt ervoor dat tijdlijnen worden verlengd en frustraties toenemen. Experts hebben een aantal redenen voor deze problemen geïdentificeerd, waaronder “niet-op-een-lijn liggende prikkels en prioriteiten tussen beoefenaars, domeinexperts en veldpartners, en beperkte budgetten voor dataverzameling.” In sommige gevallen is de oorzaak van data problemen “slechte cross-organisatorische documentatie die leidt tot ontbrekende metadata, waardoor beoefenaars aannames moeten maken, wat uiteindelijk leidt tot kostbare afwijzing van datasets of het opnieuw verzamelen van data.”  

Met dat in gedachten, moet data, die fundamenteel is voor het succes van een model, onderdeel zijn van de initiële projectplanning. De effecten van de dataverzameling en -voorbereiding zijn verstrekkend en beïnvloeden de modelimplementatie. 

Datawetenschappers zijn misschien geen experts in datavoorbereiding 

Tal van data problemen kunnen voortkomen uit lage kwaliteit annotaties, bias in de datasets of een gebrek aan gespecialiseerde data om uw modeldoelen te bereiken. In sommige gevallen waren “AI-beoefenaars verantwoordelijk voor het interpreteren van data in sociale en wetenschappelijke contexten waarin ze geen domeinexpertise hadden.” Het is duidelijk dat het niet volledig begrijpen van de context van de data zou leiden tot kwaliteitsproblemen. Volgens een enquête onder datawetenschappers kan bovendien 80% van hun tijd worden besteed aan datavoorbereiding, wat betekent dat er veel tijd wordt besteed aan teleurstellende resultaten. 

Speel in op uw sterktes en kies de juiste leverancier 

Hoe kan een AI-ontwikkelingsteam deze problemen vermijden of oplossen? Door experten in te schakelen die met de grootste nauwkeurigheid annotaties en labelingtaken kunnen uitvoeren. Detail zorgt ervoor dat zijn annotatiediensten u de grondige data krijgt die u nodig heeft voor het succes van uw modellen. 

Breng data naar de voorgrond van uw AI-plannen 

Voor succes in uw AI-projecten is het essentieel om uw behoeften vanaf het begin te begrijpen. Het onderzoek van SIGCHI benadrukt “de noodzaak van data-excellentie bij het bouwen van AI-systemen, een verschuiving naar het proactief overwegen van zorg, integriteit en nauwkeurigheid in data als waardevolle bijdragen aan het AI-ecosysteem.” Gaandeweg, neem het advies van alle experts ter harte: stop met het onderwaarderen van data en plaats het aan de voorgrond van modelontwikkeling. 

Overweeg om Detail in te schakelen, die werkt met mensen met een Autisme Spectrum Stornis, om de hoogste kwaliteit data te leveren voor het trainen van uw modellen. Niet alleen geeft dit uw wetenschappers de vrijheid om zich te concentreren op het werk dat ze willen doen, het vermindert ook de hoeveelheid noodzakelijke herwerking en versnelt de tijd tot productie voor uw model.