1、功能说明
该指令用于构建扣子 API 接口中的ChunkStrategy类型变量,为后续上传知识库文件时提供文本分段和清洗的规则配置。它支持自动和自定义两种分段模式,并可对图片知识库设置标注方式。
2、配置参数
| 参数名 | 必填 | 说明 |
|---|---|---|
| 分段设置 | 是 | 可选值:自动分段与清洗、自定义。选择自动分段与清洗时,由系统默认规则处理文本;选择自定义时,需配置下方的分段标识符等参数。 |
| 分段标识符 | 否 | 分段设置为自定义时必选;自定义分段的分隔符,如换行符\n、标点符号等。 |
| 最大分段长度 | 否 | 分段设置为自定义时必选;单个分段的最大字符数,取值范围为 100~2000。 |
| 过滤连续空字符 | 否 | 分段设置为自定义时生效;开启后将自动清除文本中连续的空字符。 |
| 过滤 URL 和邮箱 | 否 | 分段设置为自定义时生效;开启后将自动移除文本中的 URL 链接和邮箱地址。 |
| 图片标注方式 | 否 | 仅对图片知识库生效,可选值:(默认)系统自动标注描述信息、手工标注 |
| 返回结果 | 是 | 生成的ChunkStrategy规则字典,供后续指令调用。 |
3、示例场景
场景 1:自动分段与清洗
- 在 “分段设置” 中选择
自动分段与清洗。 - 无需配置其他参数,直接运行指令。
- 生成的返回结果会包含系统默认的分段规则,适用于无特殊格式要求的普通文本。
场景 2:自定义分段规则
- 在 “分段设置” 中选择
自定义。 - 设置分段标识符为
\n\n(以空行作为分段依据)。 - 设置最大分段长度为
500。 - 勾选
过滤连续空字符和过滤URL和邮箱。 - 运行指令后,生成的规则会按空行分割文本,且每个分段不超过 500 字符,并自动清洗空字符、URL 和邮箱。
场景 3:图片知识库配置
- 在 “图片标注方式” 中选择
手工标注。 - 运行指令后,生成的规则会标记后续上传的图片需要人工添加标注信息。
4、注意事项
- 参数依赖关系:当分段设置为
自定义时,必须填写 “分段标识符” 和 “最大分段长度”,否则配置无效。 - 取值范围限制:最大分段长度必须在
100~2000之间,超出范围会导致接口调用失败。 - 图片场景专属:图片标注方式仅对图片知识库生效,文本知识库场景下无需配置。
- 返回结果类型:返回结果为字典类型,可直接作为后续 “创建知识库文件” 指令的入参。
- 接口数据类型详细信息见:https://www.coze.cn/open/docs/developer_guides/create_knowledge_files#chunkstrategy