部署新的 Meta Llama 3 模型,并在 M1/M2/M3 Pro MacBook 上使用 Ollama 部署 80亿参数的模型。
Ollama 是一个部署开源大型语言模型(LLM)的平台,可轻松地在您的 Mac、Windows 或 Linux 机器上本地部署。在一台配备 16GB 内存的 M1 Pro MacBook 上,整个设置过程大约需要 10 到 15 分钟。设置完成后,模型会在不到 10 秒的时间内启动。
我们下载macOS的zip文件并解压缩它。
2. 打开 Ollama 应用并找到 Ollama 应用 3. 在终端输入:如下运行一下 llama3 命令
下载和构建大约需要10到15分钟,这取决于您的网络带宽。您可以打开 http://localhost:11434/ 来检查Ollama是否正在运行。
如果浏览器显示“Ollama 正在运行中”,那就说明一切正常。
4.. 现在我们来运行Ollama,看看它的推理速度如何
最后,让我们为你的macOS添加一些常用的别名快捷方式,以便你快速启动和停止Ollama
vim ~/.zshrc #在文件中添加以下两行命令 alias ollama_stop='osascript -e "tell application \"Ollama\" to quit"' alias ollama_start='ollama run llama3' #在新的会话中运行以下命令以启动或停止Ollama, ollama_start, ollama_stop,5. 其他模型文件的下载
ollama run dolphin-llama3 ollama run mistral ollama 运行 codellama:7b-code6. 评估Llama3性能
git clone https://github.com/shadabshaukat/llm-benchmark.git cd llm-benchmark python3.11 -m venv venv source venv/bin/activate pip install -r requirements.txt # 确保运行 'ollama serve',以启动 ollama python benchmark.py --verbose --prompts "What is the sky blue?" ---------------------------------------------------- 平均性能指标: ---------------------------------------------------- dolphin-llama3:latest Prompt 评估时间: 40.44 t/s 响应时间: 30.13 t/s 总计时间: 30.45 t/s 统计: Prompt 代币数: 25 响应代币数: 576 模型加载时间: 0.00s Prompt 评估时间: 0.62s 响应时间: 19.12s 总时间: 19.75s ----------------------------------------------------
开心玩AI吧 :)