Meta公布了 Llama 3 在多个领先基准测试中的结果， Llama 3部署到本地电脑的教程

nidongde2024-05-08 09:28:1613

在AI领域，语言模型无疑是最引人瞩目的研究方向之一。从GPT-3到ChatGPT，再到最新的Llama 3，我们见证了语言模型性能的不断突破。AI模型领域的竞争可谓已经白热化，昨天号称超过GPT-4的微软的wizardlm2可以下载，我本地部署了，性能的确还不错。

今天，我们要介绍的就是 Meta 最新发布的 Llama 3 语言模型。作为目前开源领域最强大的LLM，Llama 3不仅在基准测试中取得了领先成绩，在真实世界应用中的表现也令人惊叹。它标志着开源 AI 进入了一个新的纪元。作为普通人我们也能用到的AI最强开源模型，我们有必要全面了解 Llama 3 的关键特点和创新，以及它带来的机遇。我已经部署到本地了，看完本文你也能部署到本地体验。

Llama 3的性能优势

Performance

PART 01

首先，我们来看看 Llama 3 的整体性能表现。Meta公布了 Llama 3 在多个领先基准测试中的结果，可以看出它在各项指标上都取得了出色的成绩。

在通用能力方面，Llama 3 8B和70B模型在MMLU、AGIEval、CommonSenseQA等广泛使用的基准上，均显著超越了Llama 2以及一些同类大模型如GPT-3。以MMLU为例，Llama 3 8B和70B分别达到66.6%和79.5%的准确率，而Llama 2 13B只有53.8%。在复杂推理任务BIG-Bench Hard中，Llama 3 70B也以81.3%的准确率遥遥领先于同类模型。

在知识问答任务上，Llama 3同样展现出出色的实力。在TriviaQA-Wiki基准中，Llama 3 70B的准确率高达89.7%，大幅领先于Llama 2系列。在SQuAD和QuAC等阅读理解测试中，Llama 3 70B也取得了不错的成绩。

更令人吃惊的是，Llama 3在指令遵循(Instruction Following)等更高层次的能力上也有了大幅提升。在GPQA、HumanEval等测试中，Llama 3 70B均显著超越了同类模型如Mistral Medium和GPT-3.5。尤其在HumanEval这个编程挑战中，Llama 3 70B高达81.7%的准确率，几乎是Llama 2 70B的3倍。

Llama 3在各类基准测试中的表现都令人刮目相看，无论是通用语言能力、知识问答，还是指令追随，它都展现出了开源领域目前最强大的实力。

人类评测

Human Evaluation

PART 02

除了基准测试，Meta还针对Llama 3 进行了一系列内部人类评测，更好地反映其在实际应用中的表现。

这项评测共包含1800个测试案例，覆盖了咨询建议、创意思维、分类、问答、编码、写作等12个关键应用场景。相比机器评分，人类评价能更好地捕捉语言模型在真实世界使用中的细微差异。

在这次评测中， Llama 3 70B取得了出色的结果，在各个场景中都优于同规模的竞争对手如Claude的Sonnet和Mistral Medium。特别是在要求模型理解上下文、进行推理和生成高质量回答的任务中，Llama 3 70B的表现更是遥遥领先。

这些结果再次证明，Llama 3不仅在标准基准上领先，在贴近实际应用的人类评测中也展现出了出色的实力。这不仅得益于其强大的语言理解和生成能力，更体现了Meta在模型设计和训练上的用心。

如果你正在AI创业，你需要关注模型在真实场景中的表现，而不仅仅局限于基准测试。Llama 3的出色评测成绩无疑为我们在实际应用中使用它带来了极大的信心。

Llama3的技术亮点

Technology

PART 03

Llama 3之所以能取得如此出色的性能，得益于Meta在多个关键技术环节的创新。让我们一一探究。

1. 模型架构优化

Llama 3采用了相对标准的Transformer解码器架构，但在某些关键细节上进行了优化。

最值得关注的是，Llama 3使用了128，000个词的大型词表，相比Llama 2的50，000个词大幅增加。这不仅提升了模型的表达能力，也为未来的多语言支持奠定了基础。

此外，Llama 3还采用了Grouped Query Attention (GQA)机制，在保持模型大小不变的情况下，显著提升了推理效率。这使得8B和70B两个版本的Llama 3在实际应用中的性能都能与同规模的Llama 2相媲美。

2. 大规模预训练数据

训练高质量的语言模型，数据量是关键。Llama 3的预训练数据规模达到了15万亿tokens，是Llama 2的近7倍。这个庞大的数据集不仅覆盖了丰富的英语语料，还包括了5%的高质量非英语数据，为未来的多语言支持奠定了基础。

为了确保数据质量，Meta采用了多层次的筛选机制，包括启发式过滤、NSFW检测、语义重复数据删除等。值得一提的是，他们还利用Llama 2模型自身来训练文本质量分类器，进一步提高了数据质量。

这种对海量高质量数据的投入，无疑为Llama 3的优秀表现奠定了坚实的基础。

3. 高效的预训练Scaling

除了数据量，模型训练的效率也是决定最终性能的关键因素。在这方面，Meta也做出了不少创新。

他们开发了一系列详细的Scaling定律，能够预测模型在各类下游任务上的表现。这使得他们能够做出更加精准的模型选择和训练配置，从而大幅提高了训练效率。事实上，与Llama 2相比，Llama 3的训练效率提升了约3倍。

具体来说，Meta采用了数据并行、模型并行和管道并行等多种并行化技术，将训练过程分散到多达16,000个GPU上。同时，他们还开发了自动化的错误检测和维护机制，将有效训练时间提升到95%以上。

这些创新使得Meta能够在相对较短的时间内，训练出性能卓越的Llama 3模型。这不仅大幅缩短了开发周期，也大大降低了训练成本，为AI创业者提供了可靠的技术支持。

4. 先进的指令微调

除了强大的预训练能力，Llama 3在指令遵循等更高层次任务上的出色表现，还得益于Meta在微调技术上的创新。

具体来说，Llama 3采用了监督微调(SFT)、奖惩策略优化(PPO和DPO)等多种技术相结合的方法。这不仅提升了模型在推理、编程等任务上的性能，也通过大规模的红队测试，进一步提高了模型在安全性和可靠性方面的表现。

值得一提的是，Meta非常重视微调数据的质量。他们投入大量人力对微调数据进行审核和标注，确保每一个样本都能最大限度地发挥模型的潜力。这种对细节的极致追求，最终将Llama 3的能力推向了新的高度。

Llama 3的杰出性能，源于Meta在模型架构、预训练数据、训练效率和微调方法等关键环节的一系列创新突破。这不仅展现了Meta在AI领域的强大实力，也为Llama 3成为开源界最强大的语言模型奠定了坚实基础。

Llama 3的安全管控

AI Responsibility

PART 04

作为开源模型，Llama 3的发布不仅关乎性能，更需要兼顾安全和道德层面的责任。Meta在这一方面也做出了重大探索。

首先，在模型训练阶段，Meta就非常重视安全性。他们针对化学武器、生物武器、网络攻击等关键风险领域，进行了深入的评估和测试。通过大规模的"红队"攻击演练，以及与外部安全专家的合作，Meta最大限度地降低了Llama 3在这些方面的风险。

在模型发布后，Meta也提供了一系列开源工具，帮助开发者更好地管控Llama 3的使用风险。其中包括：

1. Llama Guard 2：这是一种基于AI的输入/输出过滤器，能够识别并拦截潜在的危险内容。它采用了最新的MLCommons分类标准，为开发者提供了可定制的安全解决方案。

2. CyberSecEval 2：这是一套用于评估语言模型在网络安全领域风险的测试套件，覆盖了代码生成安全性、网络攻击能力和prompt注入等多个方面。开发者可以利用它来审核Llama 3在关键场景下的表现。

3. Code Shield：这是一种inference时的代码过滤器，能够有效阻止Llama 3生成不安全的代码片段。这为开发者在使用Llama 3作为编程助手时，提供了额外的安全保障。

除了这些工具，Meta还发布了《负责任使用指南》，为开发者提供了全面的安全实践建议。他们强调，对于任何LLM的部署，都需要结合具体场景进行细致的安全评估和定制化的风险管控措施。

Meta的这些做法，无疑展现了他们对负责任 AI 发展的坚定决心。作为AI创业者，我们应该密切关注Llama 3及其周边工具，在享受其强大功能的同时，也要谨慎应对可能的风险，共同推动AI技术的健康发展。

Llama3的下一代

AI WRITING

PART 05

Llama 3 8B和70B版本，只是Meta Llama 3系列的开山之作。在不久的将来，我们还将迎来更多新的Llama 3模型。

Meta透露，他们正在训练一个超过400B参数的"巨无霸"Llama 3模型。尽管这个模型目前还在训练中，但从已有的测试结果来看，它的性能将会更进一步。

除了参数规模的提升，未来的Llama 3还将拥有更多新功能：

1. 多语言支持：利用Llama 3预训练数据中的5%非英语数据，未来的Llama 3有望支持更多语言。这将大幅提升其在全球市场的适用性。

2. 多模态能力：Llama 3目前仅限于文本输入输出，但Meta表示未来还将推出支持图像、视频等多模态的Llama 3版本。这将大大拓展其应用场景。

3. 更长上下文：Llama 3目前的上下文长度为8192个tokens，未来有望进一步扩大，以满足对话、写作等更复杂的应用需求。

4. 持续优化：Meta承诺会与开源社区保持紧密合作，不断改进Llama 3的性能和安全性，为开发者提供更好的AI助手。

可以预见，随着这些新功能的陆续推出，Llama 3将会越来越强大，或成为AI创业公司不可或缺的利器。

最后

Llama 3将会拥有更强大的性能、更广泛的功能，必将为AI创业者带来全新的机遇。或许，Llama 3又开启了开源 AI 新纪元的精彩序幕！

在写这篇文章时，发现Ollama也推出了GGUF格式的量化版本。

8B版本的仅有4.7G，你如果还没有下载Ollama,可以从Ollama.ai上下载这个开源软件，不管是MAC还是WIN一键安装这个可执行程序，然后打开你的命令执行窗口，输入ollama run llama3 即可拉取到模型到你本地机器上。然后就可以开始对话了，Ctrl+D退出对话。

我提醒你：如果你的机器性能不是太好，千万不要在你本地运行的Prompt中添加什么“深吸一口气（TAKE A DEEP BREATH）”之类让你感觉很棒的句子，到时机器GPU烧坏了，深吸气的可能会是你。跑这种本地模型最好打开你机器上的性能监视器，监测一下GPU内存，很多模型都会拉满你的GPU。下面的文章是关于所有开源模型本地部署的技术，也介绍了很好的应用，阅读这个指南会节省你很多时间。