OpenVINO™ 模型服务器

信息

OpenVINO™ 模型服务器 是一个可扩展的推理服务器，适用于使用 OpenVINO™ 为英特尔 CPU、iGPU、GPU 和 NPU 优化的模型。

OpenVINO™ 模型服务器支持通过 OpenAI Chat Completions API 进行文本生成。只需选择 OpenAI 提供商，将 apiBase 指向运行中的 OVMS 实例即可。请参阅官方 OVMS 文档中的此演示，轻松设置您自己的本地服务器。

OVMS 启动后的示例配置

config.yaml
models:
  - name: OVMS CodeLlama-7b-Instruct-hf
    provider: openai
    model: codellama/CodeLlama-7b-Instruct-hf
    apiKey: unused
    apiBase: http://:5555/v3
    roles:
      - chat
      - edit
      - apply
  - name: OVMS Qwen2.5-Coder-1.5B
    provider: openai
    model: Qwen/Qwen2.5-Coder-1.5B
    apiKey: unused
    apiBase: http://:5555/v3
    roles:
      - autocomplete