OpenVINO™ 模型服务器
信息
OpenVINO™ 模型服务器 是一个可扩展的推理服务器,适用于使用 OpenVINO™ 为英特尔 CPU、iGPU、GPU 和 NPU 优化的模型。
OpenVINO™ 模型服务器支持通过 OpenAI Chat Completions API 进行文本生成。只需选择 OpenAI 提供商,将 apiBase
指向运行中的 OVMS 实例即可。请参阅 官方 OVMS 文档中的此演示,轻松设置您自己的本地服务器。
OVMS 启动后的示例配置
config.yaml
models:
- name: OVMS CodeLlama-7b-Instruct-hf
provider: openai
model: codellama/CodeLlama-7b-Instruct-hf
apiKey: unused
apiBase: http://localhost:5555/v3
roles:
- chat
- edit
- apply
- name: OVMS Qwen2.5-Coder-1.5B
provider: openai
model: Qwen/Qwen2.5-Coder-1.5B
apiKey: unused
apiBase: http://localhost:5555/v3
roles:
- autocomplete