Sintetiese data
term vir gegenereerde data From Wikipedia, the free encyclopedia
Remove ads
Sintetiese data is kunsmatig gegenereerde data wat nie deur werklike gebeure geproduseer word nie. Tipies geskep met behulp van algoritmes, kan sintetiese data ontplooi word om wiskundige modelle te valideer en masjienleermodelle op te lei.[1]
Data wat deur 'n rekenaarsimulasie gegenereer word, kan as sintetiese data beskou word. Dit omvat die meeste toepassings van fisiese modellering, soos musieksintetiseerders of vlugsimulators. Die uitvoer van sulke stelsels benader die werklike ding, maar word volledig algoritmies gegenereer.
Sintetiese data word in 'n verskeidenheid velde gebruik as 'n filter vir inligting wat andersins die vertroulikheid van spesifieke aspekte van die data in gevaar sou stel. In baie sensitiewe toepassings bestaan datastelle teoreties, maar kan nie aan die algemene publiek vrygestel word nie;[2] sintetiese data omseil die privaatheidskwessies wat voortspruit uit die gebruik van werklike verbruikersinligting sonder toestemming of vergoeding.
Remove ads
Nuttigheid
Sintetiese data word gegenereer om aan spesifieke behoeftes of sekere toestande te voldoen wat dalk nie in die oorspronklike, werklike data gevind word nie. Een van die struikelblokke in die toepassing van opgedateerde masjienleerbenaderings vir komplekse wetenskaplike take is die skaarste aan geëtiketteerde data, 'n gaping wat effektief oorbrug word deur die gebruik van sintetiese data, wat werklike eksperimentele data noukeurig herhaal.[3] Dit kan nuttig wees wanneer baie stelsels ontwerp word, van simulasies gebaseer op teoretiese waarde tot databasisverwerkers, ens. Dit help om onverwagte probleme soos inligtingverwerkingsbeperkings op te spoor en op te los. Sintetiese data word dikwels gegenereer om die outentieke data voor te stel en laat toe dat 'n basislyn gestel word.[4] Nog 'n voordeel van sintetiese data is om die privaatheid en vertroulikheid van outentieke data te beskerm, terwyl dit steeds gebruik in toetsstelsels moontlik maak.
'n Wetenskaplike artikel "Exploring Synthetic Data for Artificial Intelligence and Autonomous Systems: A Primer" se opsomming, beskryf sagteware wat sintetiese data genereer vir die toets van bedrogopsporingstelsels. "Dit stel ons in staat om realistiese gedragsprofiele vir gebruikers en aanvallers te skep. Die data word gebruik om die bedrogopsporingstelsel self op te lei, wat die nodige aanpassing van die stelsel aan 'n spesifieke omgewing skep."[4] In verdedigings- en militêre kontekste word sintetiese data gesien as 'n potensieel waardevolle instrument om komplekse KI-stelsels te ontwikkel en te verbeter, veral in kontekste waar hoëgehalte-regte data skaars is.[5] Terselfdertyd kan sintetiese data saam met die toetsbenadering die vermoë gee om regte scenario's te modelleer.
Remove ads
Geskiedenis
Wetenskaplike modellering van fisiese stelsels het 'n lang geskiedenis wat saamloop met die geskiedenis van fisika. Navorsing oor die sintese van klank en stem kan byvoorbeeld teruggevoer word na die 1930's en voorheen, aangedryf deur die ontwikkelings van die telefoon- en klankopnametegnologieë. Digitalisering het vanaf die 1970's aanleiding gegee tot sagteware-sintetiseerders.
In die konteks van privaatheidsbehoudende statistiese analise, is die idee van oorspronklike, volledig sintetiese data in 1993 deur Donald Rubin geskep.[6] Rubin het dit oorspronklik ontwerp om die langvorm-antwoorde van die Dekadense Sensus vir die kortvorm-huishoudings te sintetiseer. Hy het toe monsters vrygestel wat geen werklike langvorm-rekords ingesluit het nie - hierin het hy die anonimiteit van die huishouding bewaar[7] Later daardie jaar is die idee van oorspronklike, gedeeltelik sintetiese data deur Little geskep. Little het hierdie idee gebruik om die sensitiewe waardes op die openbare gebruikslêer te sintetiseer.[8]
'n Werk uit 1993[9] het 'n statistiese model op 60 000 MNIST-syfers gepas, en dit is toe gebruik om meer as 1 miljoen voorbeelde te genereer. Dié is gebruik om 'n LeNet-4 op te lei om topgehalte-prestasie te bereik.[10]
In 1994 het Stephen Fienberg 'kritiese verfyning' bekendgestel, waarin 'n parametriese posterior voorspellende verspreiding (in plaas van 'n Bayes-bootstrap) gebruik word om die steekproefneming te doen.[7] Later was ander belangrike bydraers tot die ontwikkeling van sintetiese datagenerering Trivellore Raghunathan, Jerry Reiter, Donald Rubin, John M. Abowd en Jim Woodcock. Gesamentlik het hulle 'n oplossing bedink vir hoe om gedeeltelik sintetiese data met ontbrekende data te behandel. Net so het hulle die tegniek van Sekwensiële Regressie Multivariate Imputasie ontwikkel.[7]
Remove ads
Berekeninge
Navorsers toets die raamwerk op sintetiese data, wat "die enigste bron van grondwaarheid is waarop hulle die werkverrigting van hul algoritmes objektief kan assesseer". [11]
Sintetiese data kan gegenereer word deur die gebruik van ewekansige lyne, met verskillende oriëntasies en beginposisies.[12] Datastelle kan redelik ingewikkeld raak. 'n Meer ingewikkelde datastel kan gegenereer word deur 'n sintetiseerderbou te gebruik. Om 'n sintetiseerderbou te skep, gebruik eers die oorspronklike data om 'n model of vergelyking te skep wat die beste by die data pas. Hierdie model of vergelyking sal 'n sintetiseerderbou genoem word. Hierdie bou kan gebruik word om meer data te genereer.[13] Die konstruksie van 'n sintetiseerderbou behels die konstruksie van 'n statistiese model. In 'n voorbeeld van 'n lineêre regressielyn kan die oorspronklike data geplot word, en 'n beste passende lineêre lyn kan uit die data geskep word. Hierdie lyn is 'n sintetiseerder wat uit die oorspronklike data geskep is. Die volgende stap sal wees om meer sintetiese data uit die sintetiseerderbou of uit hierdie lineêre lynvergelyking te genereer. Op hierdie manier kan die nuwe data vir studies en navorsing gebruik word, en dit beskerm die vertroulikheid van die oorspronklike data.[13]
David Jensen van die Knowledge Discovery Laboratory verduidelik hoe om sintetiese data te genereer: "Navorsers moet gereeld die effekte van sekere data-eienskappe op hul datamodel ondersoek."[13] Om te help met die konstruering van datastelle wat spesifieke eienskappe vertoon, soos outokorrelasie of graadverskil, kan nabyheid sintetiese data genereer met een van verskeie tipes grafiekstruktuur: ewekansige grafieke wat deur 'n ewekansige proses gegenereer word; roostergrafieke met 'n ringstruktuur; roostergrafieke met 'n roosterstruktuur, ens.[13] In alle gevalle volg die datagenereringsproses dieselfde proses:
- Genereer die leë grafiekstruktuur.
- Genereer attribuutwaardes gebaseer op vorige waarskynlikhede wat deur die gebruiker verskaf is.
Aangesien die attribuutwaardes van een voorwerp kan afhang van die attribuutwaardes van verwante voorwerpe, ken die attribuutgenereringsproses waardes gesamentlik toe.[13]
Remove ads
Toepassings
Bedrogopsporing en vertroulikheidstelsels
Toetsing en opleiding van bedrogopsporing- en vertroulikheidstelsels word ontwerp met behulp van sintetiese data. Spesifieke algoritmes en genereerders word ontwerp om realistiese data te skep,[14] wat dan help om 'n stelsel te leer hoe om op sekere situasies of kriteria te reageer. Byvoorbeeld, indringingsopsporingsagteware word getoets met behulp van sintetiese data. Hierdie data is 'n voorstelling van die outentieke data en kan indringingsgevalle insluit wat nie in die outentieke data gevind word nie. Die sintetiese data laat die sagteware toe om hierdie situasies te herken en dienooreenkomstig te reageer. As sintetiese data nie gebruik is nie, sou die sagteware slegs opgelei word om te reageer op die situasies wat deur die outentieke data verskaf word en dit mag dalk nie 'n ander tipe indringing herken nie.[4]
Wetenskaplike navorsing
Navorsers wat kliniese proewe of enige ander navorsing doen, kan sintetiese data genereer om te help om 'n basislyn vir toekomstige studies en toetse te skep. Ware data kan inligting bevat wat navorsers dalk nie vrygestel wil hê nie,[15] daarom word sintetiese data soms gebruik om die privaatheid en vertroulikheid van 'n datastel te beskerm. Die gebruik van sintetiese data verminder vertroulikheids- en privaatheidskwessies aangesien dit geen persoonlike inligting bevat nie en nie na enige individu teruggevoer kan word nie.
Benewens privaatheidsbeskerming, word sintetiese data ook ondersoek vir metodologiese innovasie in geneesmiddelontwikkeling. Sintetiese data kan byvoorbeeld gebruik word om sintetiese beheerelemente te konstrueer as 'n alternatief vir konvensionele eksterne beheerelemente gebaseer op werklike data (Engels:real-world data) of gerandomiseerde beheerde proewe (GBP). Gesamentlik blyk regulatoriese agentskappe soos die FDA en EMA in verskillende stadiums te wees van die erkenning en integrasie van KI-gegenereerde sintetiese data in hul metodologieë. Terwyl daar groeiende konsensus is oor die potensiaal van sulke data om modelontwikkeling en die breër lewensiklus van medisinale produkte te ondersteun, is geen geneesmiddel of mediese toestel tot op hede goedgekeur deur slegs of oorwegend sintetiese data te gebruik nie – veral nie as 'n vergelykende arm wat geheel en al via datagedrewe algoritmes gegenereer word nie. Die kwaliteit en statistiese hantering van sintetiese data sal na verwagting meer prominent word in toekomstige regulatoriese besprekings, veral in kontekste soos voorspellende modellering (bv. digitale tweelinge), waarna innoverende benaderings reeds verwys is.[16]
Masjienleer
Sintetiese data word toenemend gebruik vir masjienleertoepassings: 'n model word opgelei op 'n sinteties gegenereerde datastel met die doel om leer na werklike data oor te dra. Pogings is aangewend om meer datawetenskap-eksperimente moontlik te maak deur die konstruksie van algemene sintetiese datagenerators, soos die Sintetiese Datakluis.[17] Oor die algemeen het sintetiese data verskeie natuurlike voordele:
- sodra die sintetiese omgewing gereed is, is dit vinnig en goedkoop om soveel data as nodig te produseer;
- sintetiese data kan perfek akkurate etikette hê, insluitend etikettering wat baie duur of onmoontlik kan wees om met die hand te verkry;
- die sintetiese omgewing kan gewysig word om die model en opleiding te verbeter;
- sintetiese data kan gebruik word as 'n plaasvervanger vir sekere werklike datasegmente wat bv. sensitiewe inligting bevat.
Hierdie gebruik van sintetiese data is voorgestel vir rekenaarvisietoepassings, veral objekopsporing, waar die sintetiese omgewing 'n 3D-model van die voorwerp is,[18] en leer om omgewings te navigeer deur visuele inligting.
Terselfdertyd bly oordragleer 'n nie-triviale probleem, en sintetiese data het nog nie alomteenwoordig geword nie. Navorsingsresultate dui daarop dat die byvoeging van 'n klein hoeveelheid werklike data oordragleer met sintetiese data aansienlik verbeter. Vooruitgang in generatiewe teenstrydige netwerke (GAN) lei tot die natuurlike idee dat 'n mens data kan produseer en dit dan vir opleiding kan gebruik. Sedert ten minste 2016 is sulke teenstrydige opleiding suksesvol gebruik om sintetiese data van voldoende gehalte te produseer om moderne resultate in sommige domeine te lewer, sonder om eers werklike data met die gegenereerde sintetiese data weer te meng.[19]
Remove ads
Voorbeelde
In 1987 het 'n outonome Navlab-voertuig 1200 sintetiese padbeelde as een benadering tot opleiding gebruik.[20]
In 2021 het Microsoft 'n databasis van 100 000 sintetiese gesigte vrygestel, gebaseer op (500 regte gesigte) wat beweer dat dit "regte data in akkuraatheid ewenaar".[20][21]
In 2023 het Nature (tydskrif) 'n voorblad van hul Nature's 10-reeks gepubliseer, ontwerp deur Kim Albrecht van die projek "Artificial Worldviews".[22] Die voorblad bevat 'n kartering van meer as 18 000 sinteties gegenereerde datapunte wat deur ChatGPT oor die kategorieë van kennis aangespoor is.
Remove ads
Verwysings
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads