【大模型】4月18日Meta 推出最先进的 Lama3

nidongde2024-05-11 09:11:2617

重要参数：

开源模型大小为 8B 和 70B 两种，分别开源基座模型和 instruct 模型发布在 huggingface 上
相比于 Llama2 的 32000 词表大小，Llama3 的词表大小来到了惊人的 128256。
训练数据集Llama 3在over 15T tokens上进行了预训练，比用于Llama 2的数据集大7倍

官方链接：

GitHub链接：
https://github.com/meta-llama/llama3
官方博客：
https://ai.meta.com/blog/meta-llama-3/
hugging face：
https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

体验地址

链接
https://meta.ai/

最先进的表演

新的8B和70B参数Llama 3模型是对Llama 2的重大飞跃。预训练和教学微调模型是目前8B和70B参数范围内最好的模型。在多个行业基准测试中，推理、代码生成和指令跟随等功能得到了极大的改进，使Llama 3更加可控。

*Please see evaluation details for setting and parameters with which these evaluations are calculated.

在Llama 3的开发过程中，研究了标准基准上的模型性能，优化了真实场景的性能。开发了一套新的高质量人类评估集。该评估集包含1800个提示，涵盖12个关键用例：征求建议、头脑风暴、分类、封闭式问题回答、编码、创造性写作、提取、角色/角色、开放式问题回答，推理、重写和总结。下表显示了我们对这些类别的人类评估的汇总结果，并针对Claude Sonnet、Mistral Medium和GPT-3.5进行提示。

模型架构（Model architecture）

Llama 3中选择了相对标准的仅限解码器的转换器架构。与Llama 2相比，做了几个关键改进。Llama 3使用了一个具有128K标记词汇表的标记器，该标记器对语言进行了更有效的编码，从而大大提高了模型性能。为了提高Llama 3模型的推理效率，在8B和70B大小上都采用了分组查询注意力（GQA）。在8192个标记的序列上训练模型，使用掩码来确保自我关注不会跨越文档边界。

训练数据集（Training data）

Llama 3在over 15T tokens上进行了预训练，这些tokens都是从公开来源收集的。训练数据集比用于Llama 2的数据集大7倍，并且它包含的代码多4倍。为了准备即将到来的多语言用例，Llama 3预训练数据集的5%以上由覆盖30多种语言的高质量非英语数据组成。

为了确保Llama 3在最高质量的数据上进行训练，开发了一系列数据过滤管道。这些管道包括使用启发式过滤器、NSFW过滤器、语义重复数据消除方法和文本分类器来预测数据质量。前几代的Llama在识别高质量数据方面出奇地出色，因此使用Llama 2为支持Llama 3的文本质量分类器生成训练数据。

还进行了广泛的实验，以评估在最终预训练数据集中混合来自不同来源的数据的最佳方式。这些实验使我们能够选择一种数据组合，确保Llama 3在用例中表现良好，包括trivia问题、STEM、编码、历史知识等。

指令微调（fine-tuning）

为了在聊天用例中充分释放我们预训练模型的潜力，还创新了指令调整方法。后训练方法是监督微调（SFT）、拒绝采样、近端策略优化（PPO）和直接策略优化（DPO）的组合。SFT中使用的提示的质量以及PPO和DPO中使用的偏好排名对对齐模型的性能有着巨大的影响。在模型质量方面的一些最大改进来自于仔细管理这些数据，并对人工注释器提供的注释执行多轮质量保证。

通过PPO和DPO从偏好排名中学习也大大提高了Llama 3在推理和编码任务上的性能。发现，如果你问一个模型一个很难回答的推理问题，模型有时会产生正确的推理痕迹：模型知道如何产生正确的答案，但不知道如何选择。偏好排名的训练使模型能够学习如何选择。

Llama 3新组件及开发套件

开发人员能够定制Llama 3，将提供新的信任和安全工具，包括Llama Guard 2和Cybersec Eval 2的更新组件，以及引入Code Shield——一种用于过滤LLM产生的不安全代码的推理时间护栏。

与torchtune共同开发了Llama 3，这是一个新的PyTorch原生库，用于轻松创作、微调和试验LLM。torchtune提供了完全用PyTorch编写的高效记忆和可破解的训练食谱。该库与流行的平台集成，如Hugging Face、Weights&Biases和EleutherAI，甚至支持Executiorch，使高效推理能够在各种移动和边缘设备上运行。从即时工程到将Llama 3与LangChain一起使用，都有一份全面的入门指南，带您从下载Llama 2一直到在生成的人工智能应用程序中大规模部署。

Llama 3的后续计划

最大的模型超过400b个参数，仍在训练中，团队对它们的趋势感到兴奋。

Over the coming months, we’ll release multiple models with new capabilities including multimodality, the ability to converse in multiple languages, a much longer context window, and stronger overall capabilities.

还将发表一份详细的研究论文Llama 3。

分享一些最大的LLM模型趋势的快照。请注意，这一数据是基于仍在训练的Llama 3早期，这些能力作为今天发布的模型的一部分不受支持。

We’re committed to the continued growth and development of an open AI ecosystem for releasing our models responsibly. We have long believed that openness leads to better, safer products, faster innovation, and a healthier overall market. This is good for Meta, and it is good for society.We’re taking a community-first approach with Llama 3, and starting today, these models are available on the leading cloud, hosting, and hardware platforms with many more to come.

Meta致力于开放人工智能生态系统的持续增长和发展，以负责任地发布我们的模型。我们长期以来一直相信，开放会带来更好、更安全的产品、更快的创新和更健康的整体市场。这对Meta有好处，对社会也有好处。我们对Llama 3采取了社区优先的方法，从今天开始，这些模型可以在领先的云、主机和硬件平台上使用。

参考英文链接：https://ai.meta.com/blog/meta-llama-3/

关注 AILinker，持续提供关于 AI、企业数字化建设相关内容！

本文链接：https://www.hzby.vip/Llama3/18.html