模型能力

公开支持范围。

只写当前能稳定依赖的能力。

查看 API Reference 查看 SDK 页面

API 文档/模型能力

核心能力

先看稳定能力。

能依赖的写清；不能依赖的别写死。

文本聊天最稳定

优先走各供应商原生聊天路由。

流式适合实时界面

`stream=true` 适合聊天、协作写作、实时反馈。

结构化输出适合系统对接

表单、工作流、JSON 回传优先用结构化输出。

长文本要限长

长内容建议显式设置 `max_tokens`。

适用场景

先按返回模式选接法。

先分普通返回、流式、结构化输出。

客服问答 / 知识库助手

优先关注稳定响应、清晰语气和可控长度。
更建议先把 prompt 和知识来源设计好，再考虑更复杂的参数调优。

内容生成 / 文案改写

可以适当提高 `temperature`，但仍然建议加上品牌风格或字数约束。
如果结果需要审核，最好保留调用日志和响应摘要方便回看。

结构化表单 / 工作流节点

优先使用 `response_format`，不要让客户端再用正则去抠半结构化文本。
这类场景通常更适合低温度、短 prompt 和严格字段约束。

聊天产品 / 实时交互

默认建议启用 `stream=true`，让用户尽早看到内容开始生成。
如果前端暂时没做好 SSE 解析，先用普通模式跑通，再升级流式体验。

结构化输出

结构化输出和流式要单独看。

一个偏系统对接，一个偏交互体验。

结构化 JSON 输出示例

{
  "model": "your_model_id_from_/v1/models",
  "messages": [
    { "role": "system", "content": "请只返回 JSON。" },
    { "role": "user", "content": "输出一份包含 title 和 summary 的结果。" }
  ],
  "response_format": {
    "type": "json_object"
  },
  "temperature": 0.2
}

流式体验示例

{
  "model": "your_model_id_from_/v1/models",
  "messages": [
    { "role": "user", "content": "请分 3 条输出产品接入建议。" }
  ],
  "stream": true,
  "stream_options": {
    "include_usage": true
  }
}

验收矩阵

这张表才是“只换 URL”能落到什么程度的真实边界。

看 5 件事就够了：普通 JSON、SSE、multipart、二进制、备注。没写到的，不要默认支持。

路由	JSON	流式	multipart	二进制	备注
OpenAI /v1/chat/completions	是	SSE	否	否	主聊天路径。
OpenAI /v1/responses	是	增强兼容	否	否	已覆盖 created / delta / output_item / done / completed，但不是全事件面。
OpenAI /v1/embeddings	是	否	否	否	文本向量。
OpenAI /v1/fine_tuning/jobs	是	否	否	否	微调任务主路径。
OpenAI /v1/moderations	是	否	否	否	内容审核。
OpenAI /v1/realtime/sessions	是	否	否	否	只建 session，不代理 WS。
OpenAI /v1/threads/runs	是	SSE	否	否	run create 已透传流式。
OpenAI /v1/threads/{id}/runs/{run_id}/submit_tool_outputs	是	SSE	否	否	tool outputs 已透传流式。
OpenAI /v1/files	是	否	是	否	文件上传。
OpenAI /v1/files/{id}/content	否	否	否	是	原样下载文件内容。
OpenAI /v1/uploads/*	是	否	parts	否	分片上传链路。
OpenAI /v1/images/generations	是	否	否	否	图片生成主路径。
OpenAI /v1/audio/speech	否	否	否	是	返回音频二进制。
OpenAI /v1/audio/transcriptions	是	否	是	否	上传音频转写。
OpenAI /v1/audio/translations	是	否	是	否	上传音频翻译。
Anthropic /v1/messages	是	SSE	否	否	Claude 原生消息。
Anthropic /v1/messages/count_tokens	是	否	否	否	Claude token 统计。
Anthropic /v1/messages/batches*	是	否	否	结果下载	Claude 批量消息对象族，含列表、创建、详情、取消与 results 下载。
Anthropic /v1/files	是	否	是	否	Claude Files 列表与上传入口。
Anthropic /v1/files/{id}/content	否	否	否	是	Claude Files 内容下载。
OpenAI / Anthropic GET /v1/models/{id}	是	否	否	否	模型详情查询。
Gemini :generateContent	是	否	否	否	Gemini 普通生成。
Gemini GET /v1beta/models/{model}	是	否	否	否	Gemini 模型详情。
Gemini :streamGenerateContent	是	SSE	否	否	Gemini 流式生成。
Gemini :countTokens	是	否	否	否	Gemini token 统计。
Gemini :embedContent	是	否	否	否	Gemini 向量嵌入。
Gemini :batchEmbedContents	是	否	否	否	Gemini 批量向量嵌入。
Gemini /v1beta/files	是	否	否	否	Gemini 文件列表、metadata-only 创建、详情与删除。
Gemini /upload/v1beta/files	start	否	否	上传字节	Gemini resumable 文件上传入口；start 会返回重写后的 relay upload url。
Gemini /v1beta/cachedContents	是	否	否	否	Gemini context caching 列表与创建。
Gemini /v1beta/cachedContents/{id}	是	否	否	否	Gemini context caching 详情、更新与删除。
Gemini /v1beta/models/{model}:batchGenerateContent	是	异步任务	否	否	Gemini Batch API 创建入口，返回 `batches/*` 长任务。
Gemini /v1beta/batches*	是	否	否	否	Gemini Batch API 列表、详情、取消与删除。
Gemini /v1beta/tunedModels*	是	否	否	否	Gemini tunedModels 列表、创建、详情、更新、删除都已透传；但 Google 当前可能没有可 fine-tune 的 Gemini API 模型，真实可用性取决于上游。
Qwen /compatible-mode/v1/chat/completions	是	SSE	否	否	DashScope 官方兼容接口，按官方 compatible-mode 迁移。
Qwen /api/v1/services/aigc/text-generation/generation	是	SSE	否	否	DashScope 原生文本生成入口，支持 `incremental_output` 流式。
Qwen /api/v1/services/embeddings/text-embedding/text-embedding	是	否	否	否	DashScope 原生文本嵌入。
Qwen /api/v1/services/aigc/multimodal-generation/generation	是	SSE	否	否	DashScope 原生多模态生成，支持 `incremental_output` 流式。
Qwen /api/v1/services/aigc/text2image/image-synthesis	是	异步任务	否	否	DashScope 原生图像生成任务创建；结果通过 `/api/v1/tasks/{task_id}` 查询，可通过 `/api/v1/tasks/{task_id}/cancel` 取消。
Qwen /api/v1/tasks/{task_id}/cancel	是	否	否	否	DashScope 异步任务取消入口。

公开边界

把当前稳定承诺和暂不建议依赖的能力分开写，文档才不会误导人。

这部分不是在强调“我们没有”，而是在保护用户不要把未来可能变化的能力提前写死进生产系统。

当前稳定承诺

OpenAI 使用 `/v1/models`、`/v1/chat/completions`、`/v1/responses`、`/v1/responses/{id}`、`/v1/responses/{id}/cancel`、`/v1/responses/{id}/input_items`、`/v1/responses/input_tokens`、`/v1/responses/compact`、`/v1/embeddings`、`/v1/realtime/sessions`、`/v1/assistants`、`/v1/threads`、`/v1/files`、`/v1/uploads`、`/v1/batches`、`/v1/vector_stores`、`/v1/vector_stores/{id}/files/{file_id}/content`、`/v1/vector_stores/{id}/file_batches`、`/v1/vector_stores/{id}/file_batches/{batch_id}`、`/v1/vector_stores/{id}/file_batches/{batch_id}/cancel`、`/v1/vector_stores/{id}/file_batches/{batch_id}/files`、`/v1/images/generations`、`/v1/images/edits`、`/v1/images/variations`、`/v1/audio/speech`、`/v1/audio/translations`、`/v1/audio/transcriptions`。
Realtime 主站承诺 `POST /v1/realtime/sessions`；如已部署独立 `realtime-relay`，后续 WebSocket 也可走中继。
OpenAI Assistants / Threads / Runs 里，`runs` 与 `submit_tool_outputs` 的 `stream=true` 已支持原样 SSE 透传。
Anthropic 使用 `/v1/models`、`/v1/messages`、`/v1/messages/count_tokens`、`/v1/messages/batches*` 和 `/v1/files*`，其中 Messages 的普通返回和流式返回都已支持。
Gemini 使用 `/v1beta/models`、`/v1beta/files`、`/upload/v1beta/files`、`/v1beta/cachedContents`、`/v1beta/batches`、`/v1beta/tunedModels`、`/v1beta/tunedModels/{id}`、`/v1beta/models/{model}:batchGenerateContent`、`/v1beta/models/{model}:generateContent`、`/v1beta/models/{model}:streamGenerateContent`；Gemini Live 则走独立 `gemini-live-relay`。
Qwen compatible-mode 现在支持 `/compatible-mode/v1/models`、`/chat/completions`、`/embeddings`、`/files`、`/batches`、`/responses`、`/conversations` 及其 `items` 子资源；原生 `/api/v1/services/*` 长尾继续走独立原生路径。
各路由分别支持自己当前公开的普通返回、流式返回和结构化输出边界。

建议暂时不要写死的能力

OpenAI Realtime WebSocket 中继
tools / tool_choice / tool_calls
图片、音频、视频等多模态输入输出
OpenAI `images/audio` 已接主路径，但更细分的多模态能力还没补全
`n > 1` 和更复杂的多候选生成行为

模型能力

公开支持范围。

只写当前能稳定依赖的能力。

查看 API Reference 查看 SDK 页面

API 文档/模型能力

核心能力

先看稳定能力。

能依赖的写清；不能依赖的别写死。

文本聊天最稳定

优先走各供应商原生聊天路由。

流式适合实时界面

`stream=true` 适合聊天、协作写作、实时反馈。

结构化输出适合系统对接

表单、工作流、JSON 回传优先用结构化输出。

长文本要限长

长内容建议显式设置 `max_tokens`。

适用场景

先按返回模式选接法。

先分普通返回、流式、结构化输出。

客服问答 / 知识库助手

优先关注稳定响应、清晰语气和可控长度。
更建议先把 prompt 和知识来源设计好，再考虑更复杂的参数调优。

内容生成 / 文案改写

可以适当提高 `temperature`，但仍然建议加上品牌风格或字数约束。
如果结果需要审核，最好保留调用日志和响应摘要方便回看。

结构化表单 / 工作流节点

优先使用 `response_format`，不要让客户端再用正则去抠半结构化文本。
这类场景通常更适合低温度、短 prompt 和严格字段约束。

聊天产品 / 实时交互

默认建议启用 `stream=true`，让用户尽早看到内容开始生成。
如果前端暂时没做好 SSE 解析，先用普通模式跑通，再升级流式体验。

结构化输出

结构化输出和流式要单独看。

一个偏系统对接，一个偏交互体验。

结构化 JSON 输出示例

{
  "model": "your_model_id_from_/v1/models",
  "messages": [
    { "role": "system", "content": "请只返回 JSON。" },
    { "role": "user", "content": "输出一份包含 title 和 summary 的结果。" }
  ],
  "response_format": {
    "type": "json_object"
  },
  "temperature": 0.2
}

流式体验示例

{
  "model": "your_model_id_from_/v1/models",
  "messages": [
    { "role": "user", "content": "请分 3 条输出产品接入建议。" }
  ],
  "stream": true,
  "stream_options": {
    "include_usage": true
  }
}

验收矩阵

这张表才是“只换 URL”能落到什么程度的真实边界。

看 5 件事就够了：普通 JSON、SSE、multipart、二进制、备注。没写到的，不要默认支持。

路由	JSON	流式	multipart	二进制	备注
OpenAI /v1/chat/completions	是	SSE	否	否	主聊天路径。
OpenAI /v1/responses	是	增强兼容	否	否	已覆盖 created / delta / output_item / done / completed，但不是全事件面。
OpenAI /v1/embeddings	是	否	否	否	文本向量。
OpenAI /v1/fine_tuning/jobs	是	否	否	否	微调任务主路径。
OpenAI /v1/moderations	是	否	否	否	内容审核。
OpenAI /v1/realtime/sessions	是	否	否	否	只建 session，不代理 WS。
OpenAI /v1/threads/runs	是	SSE	否	否	run create 已透传流式。
OpenAI /v1/threads/{id}/runs/{run_id}/submit_tool_outputs	是	SSE	否	否	tool outputs 已透传流式。
OpenAI /v1/files	是	否	是	否	文件上传。
OpenAI /v1/files/{id}/content	否	否	否	是	原样下载文件内容。
OpenAI /v1/uploads/*	是	否	parts	否	分片上传链路。
OpenAI /v1/images/generations	是	否	否	否	图片生成主路径。
OpenAI /v1/audio/speech	否	否	否	是	返回音频二进制。
OpenAI /v1/audio/transcriptions	是	否	是	否	上传音频转写。
OpenAI /v1/audio/translations	是	否	是	否	上传音频翻译。
Anthropic /v1/messages	是	SSE	否	否	Claude 原生消息。
Anthropic /v1/messages/count_tokens	是	否	否	否	Claude token 统计。
Anthropic /v1/messages/batches*	是	否	否	结果下载	Claude 批量消息对象族，含列表、创建、详情、取消与 results 下载。
Anthropic /v1/files	是	否	是	否	Claude Files 列表与上传入口。
Anthropic /v1/files/{id}/content	否	否	否	是	Claude Files 内容下载。
OpenAI / Anthropic GET /v1/models/{id}	是	否	否	否	模型详情查询。
Gemini :generateContent	是	否	否	否	Gemini 普通生成。
Gemini GET /v1beta/models/{model}	是	否	否	否	Gemini 模型详情。
Gemini :streamGenerateContent	是	SSE	否	否	Gemini 流式生成。
Gemini :countTokens	是	否	否	否	Gemini token 统计。
Gemini :embedContent	是	否	否	否	Gemini 向量嵌入。
Gemini :batchEmbedContents	是	否	否	否	Gemini 批量向量嵌入。
Gemini /v1beta/files	是	否	否	否	Gemini 文件列表、metadata-only 创建、详情与删除。
Gemini /upload/v1beta/files	start	否	否	上传字节	Gemini resumable 文件上传入口；start 会返回重写后的 relay upload url。
Gemini /v1beta/cachedContents	是	否	否	否	Gemini context caching 列表与创建。
Gemini /v1beta/cachedContents/{id}	是	否	否	否	Gemini context caching 详情、更新与删除。
Gemini /v1beta/models/{model}:batchGenerateContent	是	异步任务	否	否	Gemini Batch API 创建入口，返回 `batches/*` 长任务。
Gemini /v1beta/batches*	是	否	否	否	Gemini Batch API 列表、详情、取消与删除。
Gemini /v1beta/tunedModels*	是	否	否	否	Gemini tunedModels 列表、创建、详情、更新、删除都已透传；但 Google 当前可能没有可 fine-tune 的 Gemini API 模型，真实可用性取决于上游。
Qwen /compatible-mode/v1/chat/completions	是	SSE	否	否	DashScope 官方兼容接口，按官方 compatible-mode 迁移。
Qwen /api/v1/services/aigc/text-generation/generation	是	SSE	否	否	DashScope 原生文本生成入口，支持 `incremental_output` 流式。
Qwen /api/v1/services/embeddings/text-embedding/text-embedding	是	否	否	否	DashScope 原生文本嵌入。
Qwen /api/v1/services/aigc/multimodal-generation/generation	是	SSE	否	否	DashScope 原生多模态生成，支持 `incremental_output` 流式。
Qwen /api/v1/services/aigc/text2image/image-synthesis	是	异步任务	否	否	DashScope 原生图像生成任务创建；结果通过 `/api/v1/tasks/{task_id}` 查询，可通过 `/api/v1/tasks/{task_id}/cancel` 取消。
Qwen /api/v1/tasks/{task_id}/cancel	是	否	否	否	DashScope 异步任务取消入口。

公开边界

把当前稳定承诺和暂不建议依赖的能力分开写，文档才不会误导人。

这部分不是在强调“我们没有”，而是在保护用户不要把未来可能变化的能力提前写死进生产系统。

当前稳定承诺

OpenAI 使用 `/v1/models`、`/v1/chat/completions`、`/v1/responses`、`/v1/responses/{id}`、`/v1/responses/{id}/cancel`、`/v1/responses/{id}/input_items`、`/v1/responses/input_tokens`、`/v1/responses/compact`、`/v1/embeddings`、`/v1/realtime/sessions`、`/v1/assistants`、`/v1/threads`、`/v1/files`、`/v1/uploads`、`/v1/batches`、`/v1/vector_stores`、`/v1/vector_stores/{id}/files/{file_id}/content`、`/v1/vector_stores/{id}/file_batches`、`/v1/vector_stores/{id}/file_batches/{batch_id}`、`/v1/vector_stores/{id}/file_batches/{batch_id}/cancel`、`/v1/vector_stores/{id}/file_batches/{batch_id}/files`、`/v1/images/generations`、`/v1/images/edits`、`/v1/images/variations`、`/v1/audio/speech`、`/v1/audio/translations`、`/v1/audio/transcriptions`。
Realtime 主站承诺 `POST /v1/realtime/sessions`；如已部署独立 `realtime-relay`，后续 WebSocket 也可走中继。
OpenAI Assistants / Threads / Runs 里，`runs` 与 `submit_tool_outputs` 的 `stream=true` 已支持原样 SSE 透传。
Anthropic 使用 `/v1/models`、`/v1/messages`、`/v1/messages/count_tokens`、`/v1/messages/batches*` 和 `/v1/files*`，其中 Messages 的普通返回和流式返回都已支持。
Gemini 使用 `/v1beta/models`、`/v1beta/files`、`/upload/v1beta/files`、`/v1beta/cachedContents`、`/v1beta/batches`、`/v1beta/tunedModels`、`/v1beta/tunedModels/{id}`、`/v1beta/models/{model}:batchGenerateContent`、`/v1beta/models/{model}:generateContent`、`/v1beta/models/{model}:streamGenerateContent`；Gemini Live 则走独立 `gemini-live-relay`。
Qwen compatible-mode 现在支持 `/compatible-mode/v1/models`、`/chat/completions`、`/embeddings`、`/files`、`/batches`、`/responses`、`/conversations` 及其 `items` 子资源；原生 `/api/v1/services/*` 长尾继续走独立原生路径。
各路由分别支持自己当前公开的普通返回、流式返回和结构化输出边界。

建议暂时不要写死的能力

OpenAI Realtime WebSocket 中继
tools / tool_choice / tool_calls
图片、音频、视频等多模态输入输出
OpenAI `images/audio` 已接主路径，但更细分的多模态能力还没补全
`n > 1` 和更复杂的多候选生成行为

页面加载中

公开支持范围。

先看稳定能力。

先按返回模式选接法。

结构化输出和流式要单独看。

这张表才是“只换 URL”能落到什么程度的真实边界。

把当前稳定承诺和暂不建议依赖的能力分开写，文档才不会误导人。

公开支持范围。

先看稳定能力。

先按返回模式选接法。

结构化输出和流式要单独看。

这张表才是“只换 URL”能落到什么程度的真实边界。

把当前稳定承诺和暂不建议依赖的能力分开写，文档才不会误导人。