vLLM

vLLM 是一个用于快速 LLM 推理的开源库，通常用于同时服务多个用户。它也可以用于在多个 GPU 上运行大型模型:s（例如当模型无法放入单个 GPU 时）。使用 vllm serve 运行其与 OpenAI 兼容的服务器。请参阅其服务器文档和引擎参数文档。

vllm serve meta-llama/Meta-Llama-3.1-8B-Instruct

聊天模型

我们建议将 Llama3.1 8B 配置为您的聊天模型。

YAML
JSON

config.yaml
models:
  - name: Llama3.1 8B Instruct
    provider: vllm
    model: meta-llama/Meta-Llama-3.1-8B-Instruct
    apiBase: http://<vllm chat endpoint>/v1

config.json
{
  "models": [
    {
      "title": "Llama3.1 8B Instruct",
      "provider": "vllm",
      "model": "meta-llama/Meta-Llama-3.1-8B-Instruct",
      "apiBase": "http://<vllm chat endpoint>/v1"
    }
  ]
}

自动补全模型

我们建议将 Qwen2.5-Coder 1.5B 配置为您的自动补全模型。

YAML
JSON

config.yaml
models:
  - name: Qwen2.5-Coder 1.5B
    provider: vllm
    model: Qwen/Qwen2.5-Coder-1.5B
    apiBase: http://<vllm autocomplete endpoint>/v1
    roles:
      - autocomplete

config.json
{
  "tabAutocompleteModel": {
     "title": "Qwen2.5-Coder 1.5B",
     "provider": "vllm",
     "model": "Qwen/Qwen2.5-Coder-1.5B",
     "apiBase": "http://<vllm autocomplete endpoint>/v1"
  }
}

嵌入模型

我们建议将 Nomic Embed Text 配置为您的嵌入模型。

YAML
JSON

config.yaml
models:
  - name: VLLM Nomad Embed Text 
    provider: vllm
    model: nomic-ai/nomic-embed-text-v1
    apiBase: http://<vllm embed endpoint>/v1
    roles:
      - embed

config.json
{
  "embeddingsProvider": {
    "provider": "vllm",
    "model": "nomic-ai/nomic-embed-text-v1",
    "apiBase": "http://<vllm embed endpoint>/v1"
  }
}

重排序模型

点击此处查看重排序模型提供商列表。

Continue 的实现底层使用了 OpenAI。查看源代码

聊天模型​

自动补全模型​

嵌入模型​

重排序模型​

聊天模型

自动补全模型

嵌入模型

重排序模型