跳到主内容

vLLM

vLLM 是一个用于快速 LLM 推理的开源库,通常用于同时服务多个用户。它也可以用于在多个 GPU 上运行大型模型:s(例如当模型无法放入单个 GPU 时)。使用 vllm serve 运行其与 OpenAI 兼容的服务器。请参阅其服务器文档引擎参数文档

vllm serve meta-llama/Meta-Llama-3.1-8B-Instruct

聊天模型

我们建议将 Llama3.1 8B 配置为您的聊天模型。

config.yaml
models:
- name: Llama3.1 8B Instruct
provider: vllm
model: meta-llama/Meta-Llama-3.1-8B-Instruct
apiBase: http://<vllm chat endpoint>/v1

自动补全模型

我们建议将 Qwen2.5-Coder 1.5B 配置为您的自动补全模型。

config.yaml
models:
- name: Qwen2.5-Coder 1.5B
provider: vllm
model: Qwen/Qwen2.5-Coder-1.5B
apiBase: http://<vllm autocomplete endpoint>/v1
roles:
- autocomplete

嵌入模型

我们建议将 Nomic Embed Text 配置为您的嵌入模型。

config.yaml
models:
- name: VLLM Nomad Embed Text
provider: vllm
model: nomic-ai/nomic-embed-text-v1
apiBase: http://<vllm embed endpoint>/v1
roles:
- embed

重排序模型

点击此处查看重排序模型提供商列表。

Continue 的实现底层使用了 OpenAI查看源代码