作者:Sid Premkumar
摘要:假设你的模型 100% 利用率,使用 EKS 自我托管 Llama-3 8B-Instruct 模型每处理 1 百万个 tokens 的成本大约是 17 美元,而 ChatGPT 处理相同任务的成本仅为 1 美元。如果选择自我托管硬件,成本可以降至每 1 百万个 tokens 低于 0.01 美元,但需要约 5.5 年才能收回成本。
硬件选择
背景:所有测试均在 EKS 集群上运行。每个测试节点仅运行系统必需的 pods(如 prometheus、 nvidia-daemon 等)。
作者首先尝试在单个 Nvidia Tesla T4 GPU 上运行 AWS 的 g4dn.2xlarge 实例,但无论是 8B 参数还是 70B 参数的 Llama-3 模型都无法顺利运行。出于性能考虑,作者决定切换到配置更高的 g4dn.16xlarge 实例。
初始实施
作者尝试从 hugging face 上复制和粘贴 Llama-3 的代码,最终成功将响应时间降低到 10 秒以内。初步估算使用 g5dn.12xlarge 实例每月成本为 $3.912/小时。不过,作者在 token 计算上遇到了困难,最终使用了 llama-tokenizer-js 进行大致估算。
然而,经过对 ChatGPT 3.5 的价格 ($0.5/ 百万输入 token 和 $1.5/ 百万输出 token) 对比发现,Llama-3 模型成本仍然远高于 ChatGPT ($167.17/ 百万个 tokens)。
识别问题
作者意识到问题所在,并尝试使用 vLLM 来代替 hugging face 库进行 API 服务器托管。这显著改善了结果,查询时间减少到了 2044 毫秒。
但即使这样,Llama-3 的成本仍然高于 ChatGPT,每天大约损失 $17。
非传统方法
为了降低成本,作者提出了自我托管硬件的可能性。假设配置 4 个 NVidia Tesla T4 的硬件,初始成本大约为 $3,800,月维护费约为 $100。这种情况下,每 1 百万个 tokens 的成本显著下降。
最终计算出,假设使用 ChatGPT 生成 157,075,200 tokens 的费用为 $157,075,而自我托管的情况下,每月开销为 $100,约 5.5 年可以收回成本。这种方法有管理和扩展硬件的挑战,但在理论上可以大幅度降低成本。
请注意,这些假设基于 100% 的模型利用率,实际使用情况会有所不同。
2 个帖子 - 2 位参与者