StarCoder 2 – BigCode推出的第二代开源代码大模型

AI工具资讯2年前 (2024)发布 SUYEONE

10.5K 0 0

StarCoder 2是什么

StarCoder 2是由BigCode项目（Hugging Face和ServiceNow支持）联合Nvidia的团队开发的新一代大型代码语言模型，使用来自 The Stack v2 数据集的 3.3 至 4.3 万亿个代码 token 进行训练，包含 600 多种编程语言，旨在为代码补全、编辑和推理任务提供强大的支持。该系列模型在前一代StarCoder模型的基础上进一步扩展和改进而来，提供了不同规模的模型，包括3B（30亿参数）、7B（70亿参数）和15B（150亿参数）参数的版本。

StarCoder 2的官网入口

Hugging Face模型集合：https://huggingface.co/collections/bigcode/starcoder2-65de6da6e87db3383572be1a
The Stack v2数据集：https://huggingface.co/datasets/bigcode/the-stack-v2
GitHub地址：https://github.com/bigcode-project/starcoder2
研究论文：https://drive.google.com/file/d/17iGn3c-sYNiLyRSY-A85QOzgzGnGiVI3/view?pli=1

StarCoder 2的主要特点

大规模训练数据集：StarCoder2的训练数据集（The Stack v2）基于Software Heritage（提供代码存档服务的非营利组织）的源代码存档，这是一个包含超过600种编程语言的庞大代码库。此外，还整合了其他高质量的数据源，如GitHub Pull Requests、Kaggle和Jupter Notebook代码文档，使得训练集比第一代StarCoder大4倍。
多样化的模型规模：StarCoder2提供了不同规模的模型，包括3B（30亿参数）、7B（70亿参数）和15B（150亿参数）参数的版本，以适应不同的应用需求和资源限制。
高性能表现：在多个代码LLM基准测试中，StarCoder 2的模型在代码补全、编辑和推理任务上表现出色，尤其是在类似规模的其他模型（如DeepSeekCoder、StableCode、CodeLlama等）中，StarCoder2-3B和StarCoder2-15B都显示出了领先的性能。
开放和透明：StarCoder 2的模型权重在OpenRAIL许可下发布，确保了训练数据的完全透明度。允许研究人员和开发者独立审计模型，并在遵守许可协议的前提下自由使用。
负责任的开发实践：StarCoder 2的开发遵循负责任的AI原则，包括对个人隐私的保护、安全性考虑，以及对潜在的社会偏见和代表性偏见的警觉。