更多 | Continue AI 代码助手

Hugging Face 推理端点是一种在任何云上轻松设置开源语言模型实例的方法。在此处注册帐户并添加账单，在此处访问推理端点，点击“新端点”，填写表格（例如，选择 WizardCoder-Python-34B-V1.0 等模型），然后点击“创建端点”部署您的模型。将 ~/.continue/config.json 修改为如下所示

📄️ IPEX-LLM

IPEX-LLM 是一个 PyTorch 库，用于在英特尔 CPU 和 GPU（例如，带 iGPU 的本地 PC，以及 Arc A 系列、Flex 和 Max 等独立 GPU）上以非常低的延迟运行 LLM。

📄️ Kindo

Kindo 提供对组织 AI 运营的集中控制，确保数据保护和符合内部策略，同时支持各种商业和开源模型。要开始使用，请在此处注册，在“设置”>“API”>“API 密钥”中创建 API 密钥，然后从“可用模型”选项卡中的支持模型列表中选择模型，或在“插件”>“您的配置”中复制并粘贴配置。

📄️ LlamaCpp

运行 llama.cpp 服务器二进制文件以启动 API 服务器。如果在远程服务器上运行，请务必将 host 设置为 0.0.0.0

📄️ Llamafile

llamafile 是一个自包含的二进制文件，可以运行开源 LLM。您可以按如下方式在 config.json 中配置此提供商

📄️ LM Studio

LM Studio 是一款适用于 Mac、Windows 和 Linux 的应用程序，可以轻松地在本地运行开源模型并具有出色的 UI。要开始使用 LM Studio，请从网站下载，使用 UI 下载模型，然后启动本地推理服务器。然后可以配置 Continue 以使用 LMStudio LLM 类

📄️ Moonshot

Moonshot AI 提供高质量的大型语言模型服务，具有竞争力的价格和出色的性能。

📄️ Morph

Morph 提供了一个快速应用模型，可帮助您快速准确地将聊天建议中的代码更改应用到您的文件。在将生成的代码集成到现有代码库时，它针对速度和精度进行了优化。您可以在此处注册 Morph 的慷慨免费套餐。然后，按如下方式更新您的配置文件

📄️ Msty

Msty 是一款适用于 Windows、Mac 和 Linux 的应用程序，可以非常轻松地运行在线以及本地开源模型，包括 Llama-2、DeepSeek Coder 等。无需摆弄终端、运行命令或做任何事情。只需从网站下载应用程序，点击一个按钮，即可开始运行。然后可以配置 Continue 以使用 Msty LLM 类

📄️ nCompass

nCompass Technologies API 提供了一个极快的开源语言模型推理引擎。您可以在此处注册，在初始欢迎屏幕上复制您的 API 密钥，然后点击 nCompass 模型列表中的任意模型上的播放按钮。将 ~/.continue/config.json 修改为如下所示

📄️ Nebius AI Studio

您可以从 Nebius AI Studio API 密钥页面获取 API 密钥

📄️ Novita

Novita AI 提供了一个经济实惠、可靠且简单的推理平台，具有可扩展的 LLM API，赋能开发者构建 AI 应用。立即尝试 Novita AI Llama 3 API 演示！您可以在此处注册，在密钥管理中复制您的 API 密钥，然后点击 Novita AI 模型列表中的任意模型上的播放按钮。将 ~/.continue/config.json 修改为如下所示

📄️ NVIDIA

查看文档了解如何获取 API 密钥。

📄️ OpenRouter

OpenRouter 是一个商业和开源模型的统一接口，让您以最优价格访问最好的模型。您可以在此处注册，在密钥页面创建您的 API 密钥，然后从支持的模型列表中选择模型。

📄️ OpenVINO™ Model Server

OpenVINO™ Mode Server 是一个可扩展的推理服务器，适用于使用 OpenVINO™ 为英特尔 CPU、iGPU、GPU 和 NPU 优化的模型。

📄️ OVHcloud AI Endpoints

OVHcloud AI Endpoints 是一个无服务器推理 API，提供对精选模型的访问（例如，Llama、Mistral、Qwen、Deepseek）。它的设计考虑了安全和数据隐私，并符合 GDPR。

📄️ Relace

Relace 通过其 API 提供了一个快速应用模型，可帮助您可靠地、几乎即时地将聊天建议应用到您的代码库。您可以在此处注册并获取 API 密钥。然后，将您的配置文件修改为如下所示

📄️ ReplicateLLM

Replicate 是新发布的语言模型或通过其平台部署的模型的一个绝佳选择。在此处注册帐户，复制您的 API 密钥，然后从 Replicate Streaming List 中选择任意模型。将 ~/.continue/config.json 修改为如下所示

📄️ AWS SageMaker

SageMaker 可用于聊天模型和 embedding 模型。LMI 部署的端点支持聊天模型，HuggingFace TEI 部署的端点支持 embedding 模型

📄️ Scaleway

Scaleway Generative APIs 让您即时访问托管在欧洲数据中心的领先 AI 模型，非常适合需要低延迟、完整数据隐私和符合欧盟 AI 法案的开发者。

📄️ SiliconFlow

您可以从 Silicon Cloud 获取 API 密钥。

📄️ TextGenWebUI

TextGenWebUI 是一个全面的开源语言模型 UI 和本地服务器。您可以使用一个 OpenAI 兼容的服务器插件进行设置，然后按如下方式配置它

📄️ Together

Together API 是一个用于运行大型 AI 模型的云平台。您可以在此处注册，在初始欢迎屏幕上复制您的 API 密钥，然后点击 Together 模型列表中的任意模型上的播放按钮。将 ~/.continue/config.json 修改为如下所示

📄️ Venice

Venice.AI 是一个注重隐私的生成式 AI 平台，允许用户与开源 LLM 互动，而不存储任何私人用户数据。要开始使用 Venice 的 API，您可以购买 Pro 账户，质押 $VVV 以获取每日推理配额，或使用 USD 为您的账户充值，然后访问 https//venice.ai/api。

📄️ vLLM

vLLM 是一个用于快速 LLM 推理的开源库，通常用于同时服务多个用户。它也可以用于在多个 GPU 上运行大型模型（例如，当模型不适合单个 GPU 时）。使用 vllm serve 运行其 OpenAI 兼容的服务器。请参阅其服务器文档和引擎参数文档。

📄️ IBM watsonx

IBM 开发的 watsonx 提供各种预训练的 AI 基础模型，可用于自然语言处理 (NLP)、计算机视觉和语音识别任务。