GPT-3: Language Models are Few-Shot Learners

Published on May 28, 2020 Updated on Jan 15, 2026 LLMs LLMs, GPTs One minute

Contents

TL;DR

same model and architecture as GPT-2

GPT-3 通过对海量互联网数据（Common Crawl）进行深度清洗和去重，并提高高质量垂直语料（如书籍、维基百科）的采样比例，以“质量优先”的原则构建了 3000 亿 token 的训练集。