Llama 3官网|llama3 本地部署|llama3下载

Llama提速500%！谷歌美女程序员的84个手搓矩阵乘法内核大显威力

nidongde2024-05-11 09:28:3418

九年前以超高薪入职谷歌的天才女程序员Justine Tunney又一次用她的才华和努力，展示了程序员的魅力。

她在社交媒体上分享了自己重写Llamafile代码的消息，她重写的84个新的矩阵乘法内核，使Llamafile可以更快地读取提示和图像。

与llama.cpp相比，新的Llamafile在CPU上的推理速度提升了30%到500%。其中，ARMv8.2+（如RPI 5）、Intel（如Alderlake）和AVX512（如Zen 4）计算机的改进最为显著。

另外，对于适合L2缓存的矩阵，新的内核比MKL（数学核心函数库）快2倍！

Justine Tunney出生于1984年，14岁就开始帮别的黑客开发软件，当时的绰号是「Oogle」。

Justine Tunney表示：负责MKL的大家，你们有事做了！

英特尔数学核心函数库(Intel Math Kernel Library,MKL)是一套经过高度优化和广泛线程化的数学例程，专为需要极致性能的科学、工程及金融等领域的应用而设计。核心数学函数包括BLAS、LAPACK、ScaLAPACK1、稀疏矩阵解算器、快速傅立叶转换、矢量数学及其它函数。其可以为英特尔处理器提供性能优化，并且更出色地与 Microsoft Visual Studio相集成。Intel MKL是一套经过高度优化和线程化的函数库，并提供了C和Fortran接口。

毕竟，由微软，英特尔，TI，AMD，HPE，Oracle，Huawei，Facebook，ARM和National Science Foundation资助的BLIS，作为最强大的开源BLAS，输了就太没面子了！

Llamafile——跨平台的「羊驼」

Llamafile作为一个本地LLM项目，2023年11月由Justine Tunney与Mozilla团队合作开发。

他们使用Cosmopolitan Libc，将llama.cpp打包为一个跨平台的单个二进制文件，让「羊驼」可以在基于AMD64和ARM64的六个操作系统上运行。

而且在GPU短缺的情况下，Llamafile可以不需要昂贵的CUDA内核，——家里的旧CPU，只要性能还行，再加一点RAM就足够了，很好地保护了大家的钱包。

项目地址：https://github.com/Mozilla-Ocho/llamafile/releases

Llamafile代码可以在GitHub上找到，使用C++编写的，没有外部依赖，可以在Linux、macOS、Windows、FreeBSD，甚至SerenityOS上编译。

而且，Justine Tunney对技术的极致追求让她建立了支持新的数据格式，比如FP16和BF16，以进一步减少内存占用。

亦步亦趋的性能提升

NO.1 老式HP主机开启了Justine Tunney的开发之路

Justine Tunney最开始尝试LLM时，用的是下面这台简陋的HP主机，运行Alpine，机械硬盘、慢速RAM、AVX2处理器、没有 GPU。

HP Intel® Core™ i9-9900 ($439) w/ 2200 MT/s RAM

Justine Tunney与人合作为其引入了mmap()支持，使得权重可以立即加载，只使用原来一半的RAM，这大大优化了llama.cpp的使用效果。

之后，Justine又花了很长的时间来优化代码，让我来看一下改进后的效果：在Skylake上，llamafile实现了2倍的加速，llama.cpp也获得了50%的性能提升。

到目前为止，Justine为q8_0、f16、q4_1、q4_0和f32数据类型编写了优化的内核。

NO.2 树莓派的硬件加持

最新版的树莓派在硬件性能的提升也让llama.cpp在f16权重上实现了10倍性能提升。再加上树莓派的两个CPU都有32个矢量寄存器，Justine使用为AVX512编写的内核，使推理速度又提高了2倍。

新版的树莓派既提升了主频，又引入了对ARMv8.2 dotprod 和fp16算术ISA的支持。

NO.3 Alderlake CPU——游戏主机

在Alderlake CPU上，Justine将float16的性能提高了五倍，并且Alderlake能够在不引入舍入错误的情况下做到这一点，因为它在内部使用float32计算类型。

NO.4 AMD

虽然llamafile非常关心帮助缺乏GPU的人，但也为另外1%的人提供了一流的体验。

AMD Ryzen Threadripper PRO 7995WX，通过花费10,000美元左右，你会得到96个基于Zen4架构的AVX512内核。

尽管价格只有M2 Ultra的两倍，但7995WX x86 ISA提供的原始计算能力是M2 Ultra ARM ISA的7倍，token生成速度几乎相同，这可能要归功于384M的L3缓存。

通过Justine的优化，现在可以在Zen4上以2.8倍的速度运行LLaMA。

本文链接：https://www.hzby.vip/Llama3/20.html

Llama 3 开源模型 llama.meta.com/llama3 Llama 3开源模型 Llama 3模型下载 Llama 3官网 Ollama 地址 GGUF 版本地址 Llama-3官方模型权重地址 Llama-3-70B

相关文章

零代码本地部署一个大模型——增加WebUI
大家有看到最强开源模型llama3出来了吗，我拿着8G内存的mac在本地部署了一个llama3:8b，竟然也run起来了(但电脑主机感觉要烧了)，大家想尝试下一个，可以回看这里《零代码本地部署一个大模...
Llama3资讯2024-05-1443llama2模型是什么架构 llama 7b模型如何本地使用llama模型 llama模型文件大小 llama原模型下载 llama模型什么东西 llama2模型规模 llama大模型用的是什么框架如何部署llama2大模型 llama模型起始代码
Llama-3 120B用过的都说好，Ollama 48G显存可跑！Meta-Llama-3-120B-Instruct已经排进Huggingface热门排行Top10
Meta-Llama-3-120B-Instruct已经排进Huggingface热门排行Top10，它是一个由"Meta-Llama-3-70B-Instruct"自我合并而成的...
Llama3资讯2024-05-1111llama和alpaca模型 llama 2 大模型详解 llama模型本地部署 llama和gpt 模型结构比较 llama模型训练需要多大显存 llama原模型下载 llama 2模型版本及要求 llama 模型 llama中文模型部署 llama模型全称
使用 Ollama 快速部署本地开源大语言模型
如果你是第一次开始研究如何使用开源大语言模型(LLM)测试 GenerativeAI 时，一开始所有的信息一股脑在你的眼前，令人望而生畏。互联网上存在着来自许多不同来源的大量碎片信息，使得快速启动项目...
Llama3资讯2024-05-1115
实测：本地跑llama3:70B需要什么配置
前几天发布的开源大语言模型Llama 3 70B的能力通过测试结果的展示已经达到了一个全新的高度，甚至可以与Claude 3 Sonnet和Gemini 1.5 Pro等一众顶级模型相媲美，甚至在某些...
Llama3资讯2024-05-1155www.meta.ai Llama 3模型下载 Llama 3官网 Llama-8B Llama-3-70B llama和ChatGPT llama是啥意思 llama3 需要多大显存 llama大模型
Llama 3 官网！新一代开源大语言模型简介及体验
Llama 3是Meta公司开源的Llama系列的最新版本，Meta 公司(前身为 Facebook 公司)是一家总部位于美国加利福尼亚州的科技公司，成立于2004年。该公司由马克·扎克伯格等人创立，...
Llama3资讯2024-05-1131Llama 3官网 Llama-8B llama3 需要多大显存 llama大模型 llama 3 llama对齐算法 llama 2 微调 Llama3 大模型 llama3-Chinese-chat-8b
Llama3 70B成开源模型中性能最强的模型，而未发布的Llama3 400B着实令人期待！
近日，大模型系统组织发布旗下大模型竞技场全面测评结果，Llama3 70B成开源模型中性能最强的模型，而未发布的Llama3 400B着实令人期待！PyTorch创始人Soumith Chintala...
Llama3资讯2024-05-1129GGUF 版本地址 Llama-3官方模型权重地址 Llama-8B Llama-3-400B llama是啥意思 llama3 需要多大显存 llama大模型 llama模型 llama对齐算法
Meta AI 助手： Llama 3 为新版本的 Meta AI 提供支持
Meta 正式发布了 Llama 3，这是一个新的开源大型语言模型 (LLM) 系列，包含多项改进和功能，旨在增强各种平台上的 AI 应用。Llama 3 模型有两种规模：80 亿参数和 700 亿参...
Llama3资讯2024-05-1119Llama 3模型下载 Llama 3官网 Ollama 地址 GGUF 版本地址 Llama-3官方模型权重地址 Llama-3-70B Llama-3-400B
Llama3懒人整合包！本地运行开源AI大模型！永久免费
昨晚，Meta（也就是脸书）发布了目前最强的开源大模型Llama 3AI圈又嗨起来了它有两款不同的参数模型——Llama 3 8B与Llama 3 70B。性能再次突破，基本全面碾压同类参数...
Llama3资讯2024-05-1118Ollama 地址 GGUF 版本地址 Llama-3官方模型权重地址 Llama-3-400B llama和ChatGPT llama是啥意思 llama3 需要多大显存 llama大模型 llama 3

网友评论