CodeLlama-70B-Instruct – CodeLlama-70B-Instruct 编程大模型

模型全称CodeLlama-70B-Instruct

模型简称CodeLlama-70B-Instruct

模型类型编程大模型

发布日期2024-01-30

预训练文件大小140GB

是否支持中文（中文优化）否

最高支持的上下文长度100K

模型参数数量（亿）700.0

模型代码开源协议Llama 2 Community License Agreement

预训练结果开源商用情况Llama 2 Community License Agreement – 免费商用授权

模型GitHub链接https://github.com/facebookresearch/codellama

模型HuggingFace链接https://huggingface.co/codellama/CodeLlama-70b-hf

DataLearnerAI的模型介绍

发布论文名（官方博客名）Code Llama: Open Foundation Models for Code

论文地址（官方博客地址）https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

基础模型无基础模型

发布机构：Facebook AI

CodeLlama-70B-Instruct 简介

CodeLLaMA是基于Llama 2基础模型继续训练和微调得到的代码专用语言模型。相比完全从头训练，继承Llama 2的预训练带来明显提升。

CodeLlama系列最早是在2023年8月份发布的。但是不包含700亿参数规模的大模型。在2024年1月30日，MetaAI开源了700亿参数规模版本的CodeLlama-70B，包含三个版本：

CodeLlama-70B模型版本	模型简介	DataLearner模型信息卡地址
CodeLlama-70B-Base	CodeLlama-70B最基础的版本，支持不同的编程语言。	点击访问CodeLlama-70B-Base的模型信息卡
CodeLlama-70B-Python	针对Python编程语言优化的版本。	点击访问CodeLlama-70B-Python的模型信息卡地址
CodeLlama-70B-Instruct	指令优化的编程大模型，可以识别用户的文本指令生成代码。	点击访问CodeLlama-70B-Instruct模型信息卡

这里说的CodeLlama-70B-Instruct就是其中做过指令对齐优化的模型，也是最强的模型，它可以识别用户指令，基于指令生成代码，而不是一个单纯的代码补全模型。相比较基础版本的CodeLlama-70B-Base和CodeLlama-70B-Python，它的表现更好。

CodeLlama系列模型的代码表现很好，本次开源的CodeLlama-70B系列提升更加明显，其中，基础版本的CodeLlama-70B-Base在HumanEval@1得分53.0分，指令优化版本最高得分67.8，超过了GPT-4论文中的得分（GPT论文分数67分，但是在微软的论文中测试结果是82分）。

根据DataLearnerAI收集的大模型代码评测结果，我们可以看到CodeLlama-70B-Instruct成绩非常优秀。超过了了Gemini Pro：

由于CodeLlama-70B-Instruct是开源的预训练模型，相比较榜单其它模型，其优势非常明显。其他模型大多数是微调或者闭源模型。

根据官网的论文介绍，CodeLLaMA的特点如下：

通过长序列微调(long context fine-tuning)，CodeLLaMA系列模型支持高达10万个tokens的输入文本，明显优于只支持4K的Llama 2。在非常长的代码文件中仍表现稳定。
在Python代码生成基准测试数据集如HumanEval和MBPP上取得最先进的成绩，尤其是与开源模型相比，基本是最强的。同时也在多语言数据集MultiPL-E上表现强劲。
CodeLLaMA-Instruct通过自监督生成的代码数据进行指令细调，明显提高了模型的安全性、有用性和遵循指令的能力。
采用开源和允许商业用途的许可，可以让更多研究人员和企业基于CodeLLaMA进行创新，推动整个技术领域的进步。