知识库

知识库可上传垂直领域的 私有知识数据 。将内容上传到知识库中，可自动解析和处理文档，经过知识库“训练”的AI应用（将知识库与应用绑定），面对用户提问时能够检索调用相关的知识语料，以提供针对性的回答。

知识库需要和 知识库应用 绑定后才生效，绑定知识库后可以根据上传的知识数据提供定制化的智能问答服务，在一定程度上可以解决通用大模型缺乏领域数据支撑、偶尔"胡言乱语" 的短板。基于知识库，你可以上传例如产品使用手册、客服FAQ语料等来打造智能客服；可以上传你的个人简历来打造一个“数字分身”；甚至可以上传一本小说塑造一个人物角色。把知识教给一个“数字大脑”，让TA成为你的“领域专家”！

💻功能入口

1. 创建知识库

进入知识库菜单点击 "创建知识库"，输入名称和描述即可创建一个新的知识库：

点击知识库进入，选择 "配置" 页面，可以修改基础信息，以及删除知识库：

2. 导入文件

知识库创建完成后即可导入知识内容，支持导入四种类型的知识：

文档： 无需进行任何预处理的原始文档，LinkAI会帮你进行文档拆分和加工，支持 pdf、docx、md、txt 和单列CSV格式的文件
问答： 一问一答形式的语料，需要按照模板进行预处理，支持双列csv（一问一答）格式的文件
表格： 多列的Excel或csv数据表格，可设置参与索引的列，支持多列Excel 或多列csv 格式的文件
网站导入： 提交网址链接或网站地图，可自动解析网页内容并导入知识库

类型选择

文档、问答、表格和 网站导入 应该怎么选择？

选择何种知识库导入方式，取决于现有的知识沉淀情况以及应用场景。文档导入非常方便，可以直接上传pdf、word等文件，自动解析分段完成导入；导入 QA 问答格式则回答的准确度会更加高；结构化的多列表格则是一些业务场景（例如多sku、多属性的产品信息表格）常见的内容格式；网站则可以直接将博客、产品手册网站、公众号文章等在线网页解析导入。

可以根据需求结合多种文件的导入方式使用，以获得更好的效果。例如在客服场景，可以将客服 FAQs 语料整理为问答对格式导入，保证高频问题的回答精准度；如有多列的产品信息表、服务说明表等，可以将其以表格的方式导入，基于多列检索提供精准的信息查询能力；在相对开放式的对话场景，可以将公司介绍、产品介绍、使用指引等文件材料通过无结构文档的方式导入；将个人博客、公司网站等在线网址以网站解析的方式导入，以覆盖长尾问题，降低无结果率。

同一个知识库中可导入 文档、问答、表格、网站导入 四种不同类型的内容。

2.1 无结构文档

导入无结构的文档，系统会自动结合分段长度和标点符合将长文本拆分成多个段落，方便进行检索，在右侧可以看到拆分效果的预览。在左下方可以看到文件的token数量以及预估的积分价格：

解析策略

目前针对无结构文档类型支持文本解析、增强解析、智能解析三种解析模式：

解析策略

文本解析：只提取文件中的文字内容
增强解析支持提取文件中的文字、图片和表格
智能解析模式 则对于有复杂表格结构的文档，以及清晰度不佳的PDF扫描件有更好的解析效果。智能解析模式底层使用图像识别大模型进行解析，在文件导入解析时即会消耗token，价格为15积分/页，可根据需求选择是否开启该模式。

分段策略

分段策略控制文档导入过程中以何种规则对内容进行切分，目前支持以下三种分段模式：

分段策略

智能分段： 自动分段是默认的分段模式，将根据系统内置的分段规则进行拆分，用户可设置最大分段长度，系统会让切分后的每段内容在最大长度内，并尽可能保证语句的完整性及分段之间的连贯性。
自定义分段： 支持根据自定义的分隔符进行拆分，支持设置以下参数:
- 分段长度： 段落的最大长度，注意该值不要设置太大，因为AI每次回复时将会取若干个段落放在上下文中请求模型，如果段落数量太多或内容太长可能影响模型回复效果或导致成本消耗增加
- 分隔符： 可配置多个分隔符，分段时将根据分隔符顺序依次对文档进行切分，直到段落的长度小于设置的分段长度，一般情况下设置为段落或语句的结束符号
- 分段重叠度： 连续两个分段之间冗余的重复内容，用于保持上下文之间的连贯性
层级分段：按照文档层级分段，更好保留文档的层级结构，让相对独立的内容尽可能拆分到一个段落中。适用于 Markdown 类型文件、网页导入、以及开启了「智能解析」后的 Word、PDF、PPT 文件。

如需从飞书云文档导入知识库，可参考飞书导入中的说明。

2.2 QA问答对

导入QA问答需下载 CSV文件模板并按格式填写，每一行有 question 和 answer两列：

与无结构文档不同的是，QA类型文档在导入时可以选择检索策略：

默认为 "同时检索问题和答案"：检索时会同时匹配语料的问题和答案，检索范围广但相似度较低
可选择 "只检索问题"：只能根据问题中的相关文本找到这条语料，但检索的相似度更高

举例说明

假设有一条QA语料录入，问题: LinkAI有哪些应用类型答案: 轻量和知识库

此时若选择 "同时检索问题和答案" 的策略

当提问 "LinkAI有哪些应用类型"：检索相似度可能为0.9，可以找到这条语料并回复；
当提问 "什么是轻量应用"，检索相似度可能为 0.85，同样可以找到这条语料并回复

此时若选择 "只检索问题" 的策略

如果用户提问 "LinkAI有哪些应用类型"，那么相似度为1，可以精准找到这条语料并回复
但如果问题是 "什么是轻量应用"，检索相似度可能只有 0.7，有可能就无法命中语料并回复了

所以，如果你的场景更多是根据问题去找答案，而不需要根据答案中的内容反向找到这条语料，选择 "只检索问题" 的策略会更精准，反之亦然。

2.3 多列表格

表格导入支持多列的csv文件或Excel文件，为避免格式乱码，建议优先选择csv文件（csv UTF-8格式）进行导入：

导入表格时：

如Excel表格中有多个sheet，默认导入Sheet1的数据
表格的第一行数据将作为表头（即列名）
如有合并的单元格，默认将合并单元格中的数据填入左上的原始单元格中

导入表格后：

可编辑修改列名（表头），列的名称会在检索知识库并使用AI生成回复的过程中，起到重要的语义解释作用，设置一个含义清晰的列名能够让AI更好的理解该列的内容
可设置需要参与检索的列，默认所有列的内容均参与检索

提示

索引列（参与检索的列）指的是用户提问时会将用户问题和该列的内容进行语义匹配或关建词匹配。不参与检索不代表用户提问时该列的内容不会被搜索到。

以上图举例：设置“学校英文名”一列不参与检索，其余三列参与检索，当用户提问中涉及“牛津大学”时，会将用户问题与“排名”、“学校名称”、“类型”三列的内容进行检索匹配，则可检索到第三行数据“1 牛津大学 University of Oxford QS200”，那么在AI回复用户时，这一整行数据都会用于回复的生成。

如需从飞书在线表格导入知识库，可参考飞书导入中的说明。

2.4 网站导入

网站导入方便快速将网页资源导入知识库中。使用“网站导入”功能时，您提交的网站地址应为您有权支配或使用的自有或第三方网址，并对提交网址内容的合法性承担全部责任。平台仅提供网站解析导入服务，不对您使用网址数据的行为承担任何责任。建议导入博客、公众号文章、文字信息为主的官网、使用说明文档等静态资源网站，不支持导入在线文档、大部分平台型媒体网站和需要登录的网站内容。

网站导入支持粘贴 单个或批量独立的网址链接、或直接输入网站地图URL（网站地图为网站管理员方便搜索引擎抓取而设置的网页地址集合，URL一般为网站根地址后加上 /sitemap.xml），可一键获取站点下各子页面的文本内容。

与导入文件类似，系统会自动结合分段长度和标点符合将长文本拆分成多个段落，方便进行检索，在右侧可以看到拆分效果的预览：

2.4.1 独立网址导入

导入时，选择 “批量导入独立网址”，可将多个网址链接用换行分隔粘贴进输入框，点击导入，可查看导入成功的网页，并在右侧预览内容分段；如有不支持导入的网页，会在操作导入后标红提示：

在导入前可在输入框左下角开启 提取子页面 ，将自动解析页面中的子链接并访问其内容，通过多层递归的方式快速导入站点的下级子页面；开启 提取图片 ，将提取网页中的图片内容供预览，并以链接形式存储于知识库素材中。

2.4.2 网站地图导入

导入时，选择 “基于网站地图导入”，可输入网站地图URL，点击导入，可查看导入成功的该网站下的网页，并在右侧预览内容分段。如有不支持导入的网页，会在操作导入后标红提示：

知识库导入权益说明

分类	基础版	标准版	专业版
单次导入文件数量	10个	15 个	30个
单个文件大小限制	15MB	20MB	30MB
单个表格文件行数	2000行	5000行	10000行
单次导入网页的数量（含深度解析的子链接）	10个	20个	30个
网站地图导入网页数量	20个	50个	100个

3. 上传素材

知识库支持为语料段落上传附加素材（支持图片、视频、文件、小程序卡片、微信号名片），在回复时，如果使用的知识库语料包含素材，会将素材一并发出，并直接在网页或渠道端展示为对应格式（即直接发出图片、发出视频、发出小程序等）。

添加 图片、视频、文件(pdf、ppt、word、excel、csv、txt、md) 素材时，可在知识库的语料编辑页面，直接上传图片、视频、文件，系统会自动转换为链接填入语料内容中；也可在知识库-素材管理进行上传，然后复制素材的链接，再将链接粘贴进对应的知识库语料的编辑框中。
当用户提问命中该条语料时，AI机器人会将其中的素材直接发出。（为稳定实现素材发送效果，需在应用配置-“应用设定”(大模型提示词)中或工作流-大模型节点-“系统提示词”中添加指令： 将知识库信息中的图片、视频、文件链接直接发送出来，不要省略或改写，不要使用markdown格式。）

提示

如在导入文档时开启增强解析功能，从文档中提取的图片会自动上传至知识库素材管理。

添加 微信小程序卡片、微信/企微名片 素材时，需通过与托管的机器人进行指令对话完成，可联系客服获取支持。
上传后复制对应素材的链接，再将链接粘贴进对应的知识库语料中，当用户提问命中该条语料时，AI机器人会将小程序卡片或微信名片发出。

4. 编辑内容

导入成功之后可以在 "文件列表" 中看到生效的文件，点击 "查看" 可以查看文件具体内容：

同时可以在文件中对数据进行编辑、删除和单条新增。数据变更操作是异步进行，操作后可能页面上不会立即发生变化，但最多会在几秒钟内完成同步。

5. 配置检索策略并开始使用

知识库需要在应用中绑定，或在工作流 知识库节点 中使用才能发挥作用。一个应用可以绑定多个知识库，一个知识库可以被多个应用绑定。

在工作流的「知识库」节点中使用知识库能力，详见：工作流-知识库节点

点击编辑按钮可以修改默认的知识库的检索策略。检索策略中检索方式可以选择语义检索 或 增强检索。

语义检索：通过知识库语料和用户问题的语义向量相似度进行匹配检索，语义相似度越高的知识库语料越容易被检索到；在使用语义检索时，需配置语义相似度阈值、语义检索条数，前者代表知识库语料和用户问题的语义匹配相似度需高于xx才可被检索，后者代表在满足相似度阈值的前提下检索出前x条知识库语料
增强检索：增强检索可将在语义检索的基础上，使用全文关键词检索进行增强；在使用增强检索时，还需配置全文关键词检索条数，代表将检索出前x条包含用户问题关键词的知识库语料
在使用全文关键词检索时，系统会将用户的问题根据常用语义拆分成若干个关建词组，然后在知识库中检索包含这些关键词组的知识库语料。这种方法对于知识库内容和用户问题中包含姓名、字母、数字、代号（如产品型号）等内容的情形检索效果更好。

配置项说明：

相似度阈值： 只有在这个相似度以上的语料才会在对话中被使用，设置高相似度阈值时 (如0.8以上)，只会检索出与问题相关性高的知识，会更准确，同时也容易出现未命中；设置低相似度阈值时 (如0.7以下)，可能会检索出相关性低的内容，但检索范围更大。具体设置需要根据语料情况来判断，结合上一步的 检索测试 功能，模拟用户提问，根据各语料的相似度选择合适的相似度配置
语义检索条数： 单次问答从知识库中通过语义检索得到的最大段落数量，默认为3条，一般情况下条数不宜设置过大，否则可能超出模型上下文的限制，以及造成较大的模型token成本
全文检索条数： 单次问答从知识库中通过全文关键词检索得到的最大段落数量，开启增强检索后默认为1条，全文检索条数加语义检索条数之和最大为10（优先满足语义检索条数设置）。若实际使用时未匹配到关键词，则全文检索的实际结果可能为0。
未命中策略： 当没有找到知识库中内容时的策略，可以选择 自由发挥 (由AI自行推理并回复)、固定文案 (根据一段指定的文本进行回复) 和 转人工 (根据应用高级配置-转人工配置中的规则提醒人工处理)
展示知识库引用来源： 开启后，如提问命中知识库内容，将在回复中展示知识库内容出处的文件名、网站名和网址（网页端和接入渠道端对话均支持）。同时支持对引用来源单独设置相似度阈值，只有高于该阈值的知识库引用才会被展示。

举个例子

1、假设 相似度阈值 设置为0.8，语义检索条数 设置为 3，用户提问时，最终会从知识库中检索出来的内容为相似度在0.8以上的3条语料输入给模型来生成回复。

2、假设 相似度阈值 设置为0.75，语义检索条数 设置为 3，全文检索条数 设置为 1，用户提问时，最终会从知识库中检索出来的内容为相似度在0.75以上的3条语料+关键词匹配排序最高的一条语料一起输入给模型来生成回复。

注意：对于无结构文档，每条语料的长度是我们导入时设置的，默认为500字符，对于QA结构文档，语料的长度是问题+答案之和，所以这样可以大致估计出每次提问时携带的知识库内容长度了，这个长度不能超过模型的最大上下文长度设置。

查询改写： 开启后可根据 对话上下文 对用户问题进行关键信息补全，在知识库检索时能够结合上下文语义查询到预期结果，提高多轮对话中的检索准确性

说明

知识库默认会直接以原始问题进行知识库检索，举个例子，用户第一次提问的问题为 "介绍下LinkAI知识库"，第二次提问的问题为 "支持哪些文件类型"，如果直接以第二次的原始问题进行检索，很可能因为缺少主语而无法准确检索到结果，通过查询改写后会将问题补全为 "LinkAI知识库支持哪些文件类型"，实现指代消解的效果，检索到更准确的内容。

查询改写不会直接对原始问题进行修改，也不会改变最终发给大模型的问题，只会使用补充后的问题额外检索一次知识库，并将附加知识库条目添加到上下文中。注意查询改写需借助大模型来实现信息补充，所以会带来一些耗时的提升，请在需要时开启。

结果重排： 开启后将基于重排算法对知识库混合检索的结果进行再次排序，让更相关的内容排在前面

6. 检索测试

在知识库使用过程中，如对某个case的检索结果有疑问，可在知识库配置的 检索测试 页面模拟用户提问来查看知识库的检索结果，检索测试支持 语义检索 和 增强检索 两种模式：

6.1 语义检索

通过知识库语料的语义向量相似度进行检索，每条语料会展示出相似度指标，表示这条语料与问题的相关性。

6.2 增强检索

将语义检索与全文关键词检索进行混合，分别展示两种方式的检索结果及相似度指标（或相关度排序）来表示这条语料与问题的相关性。

利用知识库的检索测试结果可以辅助调整知识库的检索策略配置。

7. 定时同步

知识库中的网页以及 在线文档 (飞书文档、表格) 支持开启定时同步，在外部页面和文档发生内容变更的时候可以自动同步至知识库中，省去定期手动维护的步骤，方便知识数据统一管理。功能入口在 「知识库 - 配置」 模块：

开启定时同步开关后，系统将按 每日一次 的频率自动同步知识库内容，同时可以点击 手动同步 来人工触发知识库同步任务：

注意事项

定时同步前会对比每一个链接的内容是否发生变化，若内容未变更则不会进行更新；如果检测到发生变化则会重新进行切片、向量化、入库，会消耗一定量积分
如果源网页或在线文档发生变更，同步时会使用最新内容进行覆盖更新，所以开启了定时同步后建议不要在知识库中对网页或在线文档进行手动编辑
根据sitemap进行导入的网站，如果增加了新的页面，也会进行增量同步

知识库

1. 创建知识库​

2. 导入文件​

2.1 无结构文档​

解析策略​

分段策略​

2.2 QA问答对​

2.3 多列表格​

2.4 网站导入​

2.4.1 独立网址导入​

2.4.2 网站地图导入​

知识库导入权益说明​

3. 上传素材​

4. 编辑内容​

5. 配置检索策略并开始使用​

6. 检索测试​

6.1 语义检索​

6.2 增强检索​

7. 定时同步​

1. 创建知识库

2. 导入文件

2.1 无结构文档

解析策略

分段策略

2.2 QA问答对

2.3 多列表格

2.4 网站导入

2.4.1 独立网址导入

2.4.2 网站地图导入

知识库导入权益说明

3. 上传素材

4. 编辑内容

5. 配置检索策略并开始使用

6. 检索测试

6.1 语义检索

6.2 增强检索

7. 定时同步