Najnovija testiranja kompanije Vectara otkrivaju da novi ChatGPT-5 kompanije OpenAI značajno manje “halucinira” – tj. izmišlja netačne informacije – u poređenju sa prethodnicima.
Prema rezultatima, njegov “grounded hallucination rate” iznosi 1,4%, što je bolje od GPT-4o (1,49%) i GPT-4 (1,8%). Ipak, apsolutni lider u preciznosti je o3-mini High Reasoning sa svega 0,795%, dok GPT-4.5 Preview beleži 1,2%.
Na drugom kraju liste, konkurentski Grok-4 iz kompanije xAI pokazao se kao najproblematičniji, sa čak 4,8% halucinacija. Kritike na njegov račun posebno su pojačane zbog “Spicy” režima, za koji se tvrdi da je generisao neprimeren sadržaj i deepfake materijale, uprkos navodno ugrađenim zaštitnim filterima.
Iako je ChatGPT-5 tehnički napredniji, deo korisnika mu zamera da je “hladniji”, manje kreativan i sklon kraćim odgovorima u poređenju sa GPT-4o.
Na kritike je reagovao izvršni direktor OpenAI-ja Sam Altman, priznavši grešku što su stariji modeli uklonjeni bez najave. Najavio je privratak GPT-4o, kao i uvođenje “thinking mode” opcije za složenije zadatke i automatsko prebacivanje između verzija modela.
Ovi rezultati ponovo pokreću debatu o balansu između preciznosti i kreativnosti kod AI modela. Dok ChatGPT-5 pokazuje veću pouzdanost, Grok ostaje u centru kontroverzi – ne samo zbog visokog nivoa halucinacija, već i zbog potencijalno opasnog sadržaja koji uspeva da generiše uprkos sigurnosnim barijerama.
IZVOR: B92, FOTO: UNSPLASH