Foghlaim atreisithe ó aiseolas ón duine
Cuma
I meaisínfhoghlaim, is teicníc í Foghlaim Atreisithe ó Aiseolas ón Duine (FAAD) a thraenálann "samhail luaíochta" go díreach ó aiseolas an duine agus a úsáideann é mar fheidhm luaíochta chun beartas gníomhaire a bharrfheabhsú, ag baint úsáide as foghlaim atreisithe (FA) a úsáid.[1][2] Is féidir le FAAD diongbháilteacht agus taiscéalaíocht gníomhairí FA a fheabhsú, go háirithe nuair a bhíonn an fheidhm luaíochta gann nó torannach.[3]
Féach freisin
[cuir in eagar | athraigh foinse]Tagairtí
[cuir in eagar | athraigh foinse]- ↑ Ziegler (2019). "Fine-Tuning Language Models from Human Preferences".
- ↑ Lambert. “Illustrating Reinforcement Learning from Human Feedback (RLHF)”. huggingface.co. Dáta rochtana: 4 March 2023.
- ↑ MacGlashan (6 August 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70: 2285–2294. JMLR.org.