Reward Prediction Error — Amikor a valóság eltér a jóslattól

A dopamin rendszer csendes matekja minden alkalommal, amikor a világ nem pont úgy viselkedik, ahogy vártad.

Becsült olvasási idő: ~3 perc

A reward prediction error (RPE) a különbség aközött, amit jutalomként vártál, és amit valójában kaptál. Schultz kísérleteiben a VTA dopamin‑neuronjai eleinte csak akkor tüzeltek, amikor váratlanul gyümölcslevet kaptak. Amikor az állat megtanulta, hogy egy hang előrejelzi a levet, a dopamin‑csúcs a hangra tolódott át. Ha a várt lé elmaradt, az aktivitás a baseline alá esett.

Formálisan: RPE ≈ (tényleges jutalom – várt jutalom). Pozitív hiba (jobb a vártnál) megerősíti a viselkedést és a jelzést, amely oda vitt. Nulla hiba („pont erre számítottam”) jelzi, hogy a rendszer stabil, nem kell rajta sokat tanulni. Negatív hiba („ez kevesebbet ért”) gyengíti az asszociációt.

Ez a mechanizmus magyarázza, miért olyan ragadósak a kiszámíthatatlan jutalmak (slot‑gépek, social feedek), hogyan csiszolódnak ki a szokások, és miért lesz egyes étel‑, személy‑ vagy app‑jeleknek túl nagy súlya akkor is, amikor a velük járó élvezet már rég halványabb.

Miért számít?

Ha érted, hogy az agyad folyamatosan hasonlítja a „mit vártam” és a „mi lett” állapotokat, könnyebb megérteni a meglepetés eufóriáját, a csalódás fajsúlyát — és azt is, miért működik olyan erősen az intermittent jutalmazás.

Zárómondat

A reward prediction error a neurális „upszi” vagy „aha” pillanat: amikor a valóság eltér a forgatókönyvtől, a dopamin átírja a következő verziót.