大语言模型

大语言模型（LLM）相关的研究笔记和训练实践。

内容

笔记	说明
Smol-Training-Playbook	HuggingFace 214 页训练手册笔记：从零训练 SmolLM3 的全过程复盘，覆盖架构设计、数据混合、Post-training、基础设施
Bidding-Agent-Training	从零把 8B 模型训成投标 Agent 全链路：数据工程（三条路径洗数据）、四阶段课程学习（SFT→DPO→ODPO→GRPO）、奖励函数三版迭代、三层拒答系统、置信度路由部署，成本 60→4
GRPO-Fund-Agent	GRPO 训练基金助手 SubAgent 实战笔记：NGRPO 零梯度突破、DART 梯度分离、ReAct Agent 格式、奖励函数设计，核心教训"问题定义 > 数据质量 > 算法选择"
Text2SQL-GRPO	Text2SQL × GRPO 实战笔记：Ground Truth 执行奖励 vs 代理奖励、数据库路径配错、笛卡尔积炸掉 8 卡训练、Dr.GRPO KL 爆炸 38 倍，DAPO + RAG Agent 最终 zero-shot 87%
Hallucination	Lilian Weng 博客阅读笔记：LLM 幻觉的成因、检测方法和缓解策略