🧭 核心定位 >>>
llmfit 用来回答“这台机器到底能跑什么模型”,重点是推荐、规划和本地运行时联动。
- 输入:本机 RAM、CPU、GPU / VRAM、运行时环境
- 输出:模型适配分数、速度估计、量化建议、上下文长度建议
- 形态:默认 TUI,也支持传统 CLI 和本地 REST API
- 适合场景:本地 LLM 选型、硬件规划、Ollama / llama.cpp / MLX 运行前评估
🚀 最常用命令 >>>
高频命令集中在 system、fit、recommend、plan 和 serve 这几个入口。
# 打开 TUI
llmfit
# 传统 CLI 列表
llmfit --cli
# 查看系统硬件
llmfit system
# 推荐最适合当前机器的模型
llmfit recommend --json --limit 5
# 查看完美匹配模型
llmfit fit --perfect -n 5
# 规划某模型需要什么硬件
llmfit plan "Qwen/Qwen3-4B-MLX-4bit" --context 8192 --json
# 作为节点级 API 服务
llmfit serve --host 0.0.0.0 --port 8787
📊 推荐、筛选与查询 >>>
先用 recommend 缩小范围,再用 search/info/fit 精查,是最省时间的路径。
# 按 use case 推荐
llmfit recommend --json --use-case coding --limit 3
# 搜索模型名 / 提供商 / 尺寸
llmfit search "llama 8b"
# 查看模型详情
llmfit info "Mistral-7B"
# 只看完美适配
llmfit fit --perfect -n 5
# 看所有模型
llmfit list
常用判断
recommend:适合直接做决策fit:用info:用search:用
🧮 硬件规划 >>>
plan 模式是反向思路,不问“现在能跑什么”,而是问“想跑这个模型要补什么硬件”。
# 指定上下文长度
llmfit plan "Qwen/Qwen3-4B-MLX-4bit" --context 8192
# 固定量化
llmfit plan "Qwen/Qwen3-4B-MLX-4bit" --context 8192 --quant mlx-4bit
# 指定目标吞吐
llmfit plan "Qwen/Qwen3-4B-MLX-4bit" \
--context 8192 \
--target-tps 25 \
--json
plan 会告诉你什么
- 最低和推荐 VRAM / RAM / CPU 核数
- GPU、CPU offload、CPU-only 是否可行
- 达到目标体验还差多少硬件
🖥️ TUI 高频按键 >>>
TUI 适合探索式比较模型,按键不多,但过滤和对比很关键。
/:搜索模型f:切换 fit filtera:切换 availability filters:切换排序列m c:标记并进入 comparep:进入 Plan moded:下载当前模型r:刷新已安装模型t:切换主题q:退出
🌐 REST API >>>
当你要把 llmfit 接到调度器、节点探测器或 Agent 时,直接开 API 最方便。
# 启服务
llmfit serve --host 0.0.0.0 --port 8787
# 健康检查
curl http://localhost:8787/health
# 节点硬件信息
curl http://localhost:8787/api/v1/system
# 拉取可运行模型
curl "http://localhost:8787/api/v1/models?min_fit=good&limit=20"
# 取 top N 模型
curl "http://localhost:8787/api/v1/models/top?limit=5&use_case=coding"
常用查询参数
limitmin_fit=perfect|good|marginal|too_tightruntime=any|mlx|llamacppuse_case=coding|chat|reasoning|multimodal|embeddingsort=score|tps|params|mem|ctx|date|use_case
🔌 本地运行时联动 >>>
llmfit 不只是做理论估算,还能结合本地 provider 识别已安装模型和下载入口。
Ollama:识别已安装模型,可直接 pullllama.cpp:做 GGUF 下载与本地缓存识别MLX:面向 Apple Silicon 模型缓存和运行- 多 provider 可用时,TUI 下载会弹 provider picker
远程 Ollama
OLLAMA_HOST="http://192.168.1.100:11434" llmfit
OLLAMA_HOST="http://ollama-server:666" llmfit --cli
🧷 估算修正参数 >>>
当显存探测不准时,手动覆盖内存参数比盲信自动检测更靠谱。
# 手动覆盖 GPU 显存
llmfit --memory=24G --cli
llmfit --memory=24G recommend --json
# 限制估算上下文长度
llmfit --max-context 4096 --cli
llmfit --max-context 8192 fit --perfect -n 5
适合手动覆盖的情况
nvidia-smi- 虚拟机 / 直通环境探测不准
- Android / Termux 看不到移动 GPU
⚠️ 使用边界 >>>
llmfit 的价值在于快速决策,但它毕竟是估算系统,不等于真实 benchmark。
- 推荐结果是估算,不是最终吞吐基准
- 多 GPU、MoE、统一内存场景要重点看实际 provider 行为
--memoryrecommend --json serve