大语言模型
大语言模型(LLM)相关的研究笔记和训练实践。
内容
| 笔记 | 说明 |
|---|---|
| Smol-Training-Playbook | HuggingFace 214 页训练手册笔记:从零训练 SmolLM3 的全过程复盘,覆盖架构设计、数据混合、Post-training、基础设施 |
| Bidding-Agent-Training | 从零把 8B 模型训成投标 Agent 全链路:数据工程(三条路径洗数据)、四阶段课程学习(SFT→DPO→ODPO→GRPO)、奖励函数三版迭代、三层拒答系统、置信度路由部署,成本 60→4 |
| GRPO-Fund-Agent | GRPO 训练基金助手 SubAgent 实战笔记:NGRPO 零梯度突破、DART 梯度分离、ReAct Agent 格式、奖励函数设计,核心教训"问题定义 > 数据质量 > 算法选择" |
| Text2SQL-GRPO | Text2SQL × GRPO 实战笔记:Ground Truth 执行奖励 vs 代理奖励、数据库路径配错、笛卡尔积炸掉 8 卡训练、Dr.GRPO KL 爆炸 38 倍,DAPO + RAG Agent 最终 zero-shot 87% |
| Hallucination | Lilian Weng 博客阅读笔记:LLM 幻觉的成因、检测方法和缓解策略 |