„ChatGPT“ citatų tyrimas leidėjams yra liūdnas


Kadangi vis daugiau leidėjų nutraukia turinio licencijavimo sutartis su „ChatGPT“ kūrėju „OpenAI“, šią savaitę Skaitmeninės žurnalistikos „Tow Center“ atliktas tyrimas, kuriame nagrinėjama, kaip AI pokalbių robotas kuria leidėjų turinio citatas (ty šaltinius), daro jį įdomų arba Na, apie tai, skaitymas.

Trumpai tariant, išvados rodo, kad leidėjai lieka priklausomi nuo generatyvaus AI įrankio polinkio sugalvoti ar kitaip klaidingai pateikti informaciją, nepaisant to, ar jie leidžia OpenAI tikrinti jų turinį, ar ne.

Kolumbijos žurnalistikos mokykloje atliktame tyrime buvo nagrinėjamos citatos, kurias parengė ChatGPT po to, kai buvo paprašyta nustatyti citatų pavyzdžių, paimtų iš įvairių leidėjų – kai kurie iš jų buvo sudaryti rašalu su OpenAI, o kiti – ne, šaltinį.

Centras paėmė blokines citatas iš 10 istorijų, kurias sukūrė iš viso 20 atsitiktinai atrinktų leidėjų (taigi iš viso 200 skirtingų citatų), įskaitant turinį iš The New York Times (kuris šiuo metu paduoda ieškinį OpenAI dėl autorių teisių); „The Washington Post“ (kuris nesusijęs su „ChatGPT“ kūrėju); „Financial Times“ (sudarė licencijos sutartį); ir kiti.

„Mes pasirinkome citatas, kurias įklijavus į Google ar Bing, šaltinio straipsnis būtų pateiktas tarp trijų geriausių rezultatų, ir įvertinome, ar naujasis OpenAI paieškos įrankis teisingai identifikuos straipsnį, kuris buvo kiekvienos citatos šaltinis“, – rašė „Tow“ tyrinėtojai Klaudia Jaźwińska ir Aisvarya Chandrasekar tinklaraščio įraše paaiškina jų požiūrį ir apibendrina išvadas.

„Tai, ką mes nustatėme, nebuvo daug žadanti naujienų leidėjams“, – tęsia jie. „Nors OpenAI pabrėžia savo gebėjimą pateikti vartotojams „laiku atsakymus su nuorodomis į atitinkamus žiniatinklio šaltinius“, bendrovė nėra aiškiai įsipareigojusi užtikrinti tų citatų tikslumą. Tai pastebima leidėjų, kurie tikisi, kad jų turinys bus nuorodos į turinį ir pateikiamas ištikimai, trūkumas.

„Mūsų bandymai parodė, kad nė vienam leidėjui, neatsižvelgiant į ryšio su OpenAI laipsnį, nebuvo išvengta netikslių turinio atvaizdų ChatGPT“, – pridūrė jie.

Nepatikimas tiekimas

Tyrėjai teigia aptikę „daug“ atvejų, kai „ChatGPT“ netiksliai citavo leidėjų turinį, taip pat rado tai, ką jie vadina „atsakymų tikslumo spektru“. Taigi, nors jie rado „kai kurias“ visiškai teisingas citatas (ty „ChatGPT“ tiksliai grąžino su juo bendrinamos blokinės citatos leidėją, datą ir URL), buvo „daug“ citatų, kurios buvo visiškai neteisingos; ir „kai kurie“, papuolę kažkur tarp jų.

Trumpai tariant, atrodo, kad „ChatGPT“ citatos yra nepatikimas mišrus. Tyrėjai taip pat nustatė labai nedaug atvejų, kai pokalbių robotas nesuteikė visiško pasitikėjimo savo (klaidingais) atsakymais.

Kai kurios citatos buvo gautos iš leidėjų, kurie aktyviai blokavo OpenAI paieškos tikrinimo programas. Tais atvejais tyrėjai sako, kad jie tikėjosi, kad kils problemų dėl teisingų citatų. Tačiau jie pastebėjo, kad šis scenarijus iškėlė kitą problemą, nes robotas „retai“ prisipažino, kad negali pateikti atsakymo. Vietoj to, jis grįžo į konfabuliaciją, kad būtų sukurtas tam tikras šaltinis (nors ir neteisingas šaltinis).

„Iš viso ChatGPT iš dalies arba visiškai neteisingus atsakymus pateikė 153 kartus, nors tik septynis kartus pripažino nesugebėjimą tiksliai atsakyti į užklausą“, – sakė tyrėjai. „Tik tuose septyniuose išvestiuose pokalbių robotas naudojo kvalifikuojančius žodžius ir frazes, pvz., „pasirodo“, „įmanoma“ arba „galbūt“, arba tokius teiginius kaip „negalėjau rasti tikslaus straipsnio“.

Jie lygina šią nelaimingą situaciją su standartine interneto paieška, kai paieškos variklis, pvz., Google ar Bing, paprastai arba suras tikslią citatą ir nukreipia vartotoją į svetainę (-es), kurioje (-es) ją rado, arba pareiškia, kad nerado jokių rezultatų su tikslia atitiktimi. .

„Dėl „ChatGPT“ nepasitikėjimo atsakymu skaidrumo stokos vartotojams gali būti sunku įvertinti pretenzijos pagrįstumą ir suprasti, kuriomis atsakymo dalimis jie gali pasitikėti arba kuriomis negali pasitikėti“, – teigia jie.

Jie teigia, kad leidėjams taip pat gali kilti pavojus reputacijai dėl neteisingų citatų, taip pat komercinės rizikos, kad skaitytojai bus nukreipti kitur.

Dekontekstualizuoti duomenys

Tyrimas taip pat pabrėžia kitą problemą. Tai rodo, kad „ChatGPT“ iš esmės gali būti naudingas plagijavimui. Tyrėjai pasakoja atvejį, kai ChatGPT klaidingai citavo svetainę, kurioje buvo nuplagijuota „giliai pranešta“ New York Times žurnalistika, ty nukopijuodama tekstą be priskyrimo, kaip NYT istorijos šaltinį – spėliodama, kad tokiu atveju , robotas galėjo sugeneruoti šį klaidingą atsakymą, kad užpildytų informacijos spragą, atsiradusią dėl nesugebėjimo tikrinti NYT svetainės.

„Tai kelia rimtų klausimų dėl OpenAI gebėjimo filtruoti ir patvirtinti savo duomenų šaltinių kokybę ir autentiškumą, ypač kai kalbama apie nelicencijuotą ar nuplagijuotą turinį“, – teigia jie.

Tolesnėse išvadose, kurios gali būti susirūpinusios leidėjams, kurie pasirašė sandorius su „OpenAI“, tyrime nustatyta, kad „ChatGPT“ citatos jų atvejais taip pat ne visada buvo patikimos, todėl, atrodo, jos tikrinimo programų įleidimas taip pat neužtikrina tikslumo.

Tyrėjai teigia, kad pagrindinė problema yra ta, kad OpenAI technologija žurnalistiką traktuoja „kaip dekontekstualizuotą turinį“, akivaizdžiai mažai atsižvelgdama į jos pradinės gamybos aplinkybes.

Kita problema, kurią pažymi tyrimas, yra „ChatGPT“ atsakymų kitimas. Tyrėjai išbandė kelis kartus užduodami robotui tą pačią užklausą ir nustatė, kad ji „paprastai kiekvieną kartą pateikia skirtingą atsakymą“. Nors tai būdinga „GenAI“ įrankiams, paprastai citavimo kontekste toks nenuoseklumas yra akivaizdžiai neoptimalus, jei tai yra tikslumas, kurio siekiate.

Nors „Tow“ tyrimas yra nedidelio masto – mokslininkai pripažįsta, kad reikia „griežtesnių“ bandymų – vis dėlto tai pastebima, atsižvelgiant į aukšto lygio sandorius, kuriuos didieji leidėjai yra užsiėmę „OpenAI“ vykdymu.

Jei žiniasklaidos įmonės tikėjosi, kad dėl šių susitarimų jų turiniui bus taikomas ypatingas požiūris, palyginti su konkurentais, bent jau kalbant apie tikslius šaltinius, šis tyrimas rodo, kad OpenAI dar nepasiūlė tokio nuoseklumo.

Nors leidėjai, kurie neturi licencijavimo sandorių, bet taip pat neturiu visiškai užblokavo OpenAI tikrinimo programas – galbūt tikėdamasis bent šiek tiek pritraukti srautą, kai ChatGPT grąžins turinį apie jų istorijas – tyrimas taip pat yra liūdnas skaitymas, nes jų atveju citatos taip pat gali būti netikslios.

Kitaip tariant, leidėjai negarantuoja „matomumo“ „OpenAI“ paieškos sistemoje, net jei jie leidžia jos tikrintuvams.

Be to, visiškai užblokavus tikrinimo programas, leidėjai gali apsisaugoti nuo žalos reputacijai, vengdami savo istorijų paminėjimo „ChatGPT“. Tyrimas parodė, kad robotas vis dar neteisingai priskyrė straipsnius „New York Times“, pavyzdžiui, nepaisant vykstančio ieškinio.

„Maža prasminga agentūra“

Tyrėjai daro išvadą, kad šiuo metu leidėjai turi „mažą prasmę“ dėl to, kas vyksta su jų turiniu ir su juo, kai „ChatGPT“ patenka į jį (tiesiogiai arba, gerai, netiesiogiai).

Tinklaraščio įraše yra OpenAI atsakymas į tyrimo išvadas, kuriuose mokslininkai kaltinami atliekant „netipinį mūsų produkto testą“.

„Palaikome leidėjus ir kūrėjus, padėdami 250 milijonų savaitinių ChatGPT naudotojų atrasti kokybišką turinį per santraukas, citatas, aiškias nuorodas ir priskyrimą“, – jiems taip pat sakė OpenAI ir pridūrė: „Bendradarbiavome su partneriais, siekdami pagerinti tiesioginių citatų tikslumą ir gerbti leidėjo nuostatas, įskaitant įgalinimą, kaip jie bus rodomi paieškoje, valdydami OAI-SearchBot faile robots.txt. Mes ir toliau tobulinsime paieškos rezultatus.



Source link

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -