vLLM
vLLM 是一个用于快速 LLM 推理的开源库,通常用于同时服务多个用户。它也可以用于在多个 GPU 上运行大型模型:s(例如当模型无法放入单个 GPU 时)。使用 vllm serve
运行其与 OpenAI 兼容的服务器。请参阅其服务器文档和引擎参数文档。
vllm serve meta-llama/Meta-Llama-3.1-8B-Instruct
聊天模型
我们建议将 Llama3.1 8B 配置为您的聊天模型。
- YAML
- JSON
config.yaml
models:
- name: Llama3.1 8B Instruct
provider: vllm
model: meta-llama/Meta-Llama-3.1-8B-Instruct
apiBase: http://<vllm chat endpoint>/v1
config.json
{
"models": [
{
"title": "Llama3.1 8B Instruct",
"provider": "vllm",
"model": "meta-llama/Meta-Llama-3.1-8B-Instruct",
"apiBase": "http://<vllm chat endpoint>/v1"
}
]
}
自动补全模型
我们建议将 Qwen2.5-Coder 1.5B 配置为您的自动补全模型。
- YAML
- JSON
config.yaml
models:
- name: Qwen2.5-Coder 1.5B
provider: vllm
model: Qwen/Qwen2.5-Coder-1.5B
apiBase: http://<vllm autocomplete endpoint>/v1
roles:
- autocomplete
config.json
{
"tabAutocompleteModel": {
"title": "Qwen2.5-Coder 1.5B",
"provider": "vllm",
"model": "Qwen/Qwen2.5-Coder-1.5B",
"apiBase": "http://<vllm autocomplete endpoint>/v1"
}
}
嵌入模型
我们建议将 Nomic Embed Text 配置为您的嵌入模型。
- YAML
- JSON
config.yaml
models:
- name: VLLM Nomad Embed Text
provider: vllm
model: nomic-ai/nomic-embed-text-v1
apiBase: http://<vllm embed endpoint>/v1
roles:
- embed
config.json
{
"embeddingsProvider": {
"provider": "vllm",
"model": "nomic-ai/nomic-embed-text-v1",
"apiBase": "http://<vllm embed endpoint>/v1"
}
}
重排序模型
点击此处查看重排序模型提供商列表。