【生成式AI導論 2024】第8講：大型語言模型修練史 — 第三階段: 參與實戰，打磨技巧 (Reinforcement Learning from Human Feedback, RLHF)

Length 36:58 • 39.9K Views • 6 months ago

Hung-yi Lee 📃 My History

LikeShare

Video Terkait

【生成式AI導論 2024】第9講：以大型語言模型打造的AI Agent (14:50 教你怎麼打造芙莉蓮一級魔法使考試中出現的泥人哥列姆)

【生成式AI導論 2024】第9講：以大型語言模型打造的AI Agent (14:50 教你怎麼打造芙莉蓮一級魔法使考試中出現的泥人哥列姆)

【生成式AI導論 2024】第10講：今日的語言模型是如何做文字接龍的 — 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

【生成式AI導論 2024】第10講：今日的語言模型是如何做文字接龍的 — 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback

Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback

DPO V.S. RLHF 模型微调

DPO V.S. RLHF 模型微调

Transformer论文逐段精读

Transformer论文逐段精读

Reinforcement Learning from Human Feedback (RLHF) Explained

Reinforcement Learning from Human Feedback (RLHF) Explained

80分鐘快速了解大型語言模型 (5:30 有咒術迴戰雷)

80分鐘快速了解大型語言模型 (5:30 有咒術迴戰雷)

【生成式AI導論 2024】第1講：生成式AI是什麼？

【生成式AI導論 2024】第1講：生成式AI是什麼？

【生成式AI導論 2024】第7講：大型語言模型修練史 — 第二階段: 名師指點，發揮潛力 (兼談對 ChatGPT 做逆向工程與 LLaMA 時代的開始)

【生成式AI導論 2024】第7講：大型語言模型修練史 — 第二階段: 名師指點，發揮潛力 (兼談對 ChatGPT 做逆向工程與 LLaMA 時代的開始)

Reinforcement Learning from Human Feedback: From Zero to chatGPT

Reinforcement Learning from Human Feedback: From Zero to chatGPT

Streamed 1 year ago

【生成式AI導論 2024】第11講：大型語言模型在「想」什麼呢？ — 淺談大型語言模型的可解釋性

【生成式AI導論 2024】第11講：大型語言模型在「想」什麼呢？ — 淺談大型語言模型的可解釋性

Stanford Webinar - The Frontier of Deep Learning for Robotics, Chelsea Finn

Stanford Webinar - The Frontier of Deep Learning for Robotics, Chelsea Finn

【美国大选】特朗普 vs 哈里斯经济政策有什么不一样？

【美国大选】特朗普 vs 哈里斯经济政策有什么不一样？

【生成式AI導論 2024】第6講：大型語言模型修練史 — 第一階段: 自我學習，累積實力 (熟悉機器學習的同學從 15:00 開始看起即可)

【生成式AI導論 2024】第6講：大型語言模型修練史 — 第一階段: 自我學習，累積實力 (熟悉機器學習的同學從 15:00 開始看起即可)

Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained

Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained

【生成式AI】讓 AI 村民組成虛擬村莊會發生甚麼事？

【生成式AI】讓 AI 村民組成虛擬村莊會發生甚麼事？

台大資訊深度學習之應用 | ADL 8.1: LLM Adaptation 如何改變(洗腦?)語言模型

台大資訊深度學習之應用 | ADL 8.1: LLM Adaptation 如何改變(洗腦?)語言模型

How large language models work, a visual intro to transformers | Chapter 5, Deep Learning

How large language models work, a visual intro to transformers | Chapter 5, Deep Learning

【生成式AI導論 2024】第12講：淺談檢定大型語言模型能力的各種方式

【生成式AI導論 2024】第12講：淺談檢定大型語言模型能力的各種方式