Foghlaim atreisithe ó aiseolas ón duine

I meaisínfhoghlaim, is teicníc í Foghlaim Atreisithe ó Aiseolas ón Duine (FAAD) a thraenálann "samhail luaíochta" go díreach ó aiseolas an duine agus a úsáideann é mar fheidhm luaíochta chun beartas gníomhaire a bharrfheabhsú, ag baint úsáide as foghlaim atreisithe (FA) a úsáid.^[1]^[2] Is féidir le FAAD diongbháilteacht agus taiscéalaíocht gníomhairí FA a fheabhsú, go háirithe nuair a bhíonn an fheidhm luaíochta gann nó torannach.^[3]

Féach freisin

Tagairtí

↑ Ziegler (2019). "Fine-Tuning Language Models from Human Preferences".
↑ Lambert. “Illustrating Reinforcement Learning from Human Feedback (RLHF)”. huggingface.co. Dáta rochtana: 4 March 2023.
↑ MacGlashan (6 August 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70: 2285–2294. JMLR.org.

[1] Ziegler (2019). "Fine-Tuning Language Models from Human Preferences".

[huggingface-2] Lambert. “Illustrating Reinforcement Learning from Human Feedback (RLHF)”. huggingface.co. Dáta rochtana: 4 March 2023.

[3] MacGlashan (6 August 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70: 2285–2294. JMLR.org.

[1]

[2]

[3]