Skip to main content

3.2.5

🚀 3.2.5 版本主要更新内容 (2024.11.14)

  • 语音能力升级
    • 增加语音合成模型
    • 渠道端语音条发送
    • 新增语音识别及合成API
  • 插件能力升级
    • 插件支持多级请求和响应结构
    • 支持插件在线调试
    • 新增图像识别模型
  • 数据库优化
    • 内置库支持导出为Excel表格
    • 远程库支持修改表备注和字段描述
    • 网站嵌入支持展示数据分析图表
  • 渠道接入和对话管理优化
    • 对话管理支持按账号维度筛选
    • 支持对引用对话的回复
    • 托管渠道支持发送ppt素材

一、语音能力

1.增加语音合成模型

新增百度豆包的语音合成模型,支持 100+ 种音色,更适合中文对话,覆盖了通用问答、智能助手、有声阅读、视频配音、各地方言等多个场景。在 应用配置页面 中可以切换音色配置,并在网页端进行语音对话:



工作流接入渠道使用时,可在「结束节点」中进行音色配置:


🎙 在线体验:语音对话助手

2.渠道端语音条发送

渠道接入端支持通过制定的语音模型生成语音,并通过语音条的形式进行发送,包括 企微、公众号、飞书、钉钉、微信 等托管渠道。

在客户端配置中可配置语音回复的策略,支持 仅在用户发送语音时进行语音回复默认语音回复 两种模式:



渠道端通过语音输入时,可自动识别为文字,并通过语音条的形式回复,对于较长的语音还会自动拆分成多条语音:


3.新增语音识别及合成API

该接口 标准版 及以上可用

新增 语音识别 (语音转文本) 及 语音合成 (文本转语音) 的API,聚合多种语音模型产商及音色,配合文本对话接口可以实现从语音输入到语音输出的端到端语音对话。

📖 详情查看文档:语音识别接口语音合成接口


二、插件能力

1. 自定义插件支持多级输入、输出的定义

(1) 请求参数支持多级结构

自定义插件参数新增 对象数组 类型,支持定义多级嵌套的入参结构,以适配更复杂的接口调用:



(2) 支持定义接口响应结构

新增 响应结果 配置,可定义接口返回中的各个字段的 名称、类型、描述,提升模型对接口返回数据的处理效果:



同时为了方便快速配置响应结构,提供了一键 自动填写 的功能,填入请求参数后将根据实际请求的数据自动生成响应结构,生成后可手动筛选所需的字段,并补充描述信息,保存插件后生效。

注:响应结果定义可选择是否开启,未开启时接口的全部返回数据都会交给模型处理。

说明

定义响应数据对插件效果有以下提升:

  1. 提升回答准确性: 响应结果中的字段描述会发送给大模型,增强模型对返回结果的理解,提升向用户回复的效果
  2. 减少上下文长度: 用户定义了响应字段后,结果中的其他字段信息则会被过滤,可以实现精确提取回复中的关键内容,在减少token消耗的同时也降低了无关信息对模型的干扰

2. 自定义插件支持在线调试

自定义插件新增 在线调试 功能,方便检查接口的联通性和参数填写的正确性。

点击右上角 调试 按钮,填入参数值后提交。若请求成功,则会展示接口返回的结果;若失败会输出接口的错误码以及错误信息:



3. 图像识别插件新增模型

在图像识别插件中新增了 通义千问、Claude、OCR 三种可选模型,其中通义千问模型对带有中文文本的图像识别效果更优;OCR适用于提取图片中的文字信息,且价格更低。

应用配置 - 图像识别插件 配置中可选择图像识别模型:

三、数据库

1. 内置库数据可导出 Excel

内置数据库新增导出功能,可将内置库中的数据记录以excel文件方式导出,方便将通过对话写入的数据进行导出后分析:



2. 远程库支持修改表描述和字段描述

远程数据库 支持对 表描述和字段描述 的修改,修改的内容不会直接更新到远程库中,仅在LinkAI平台中用于提升数据表选择和SQL语句生成的准确性。

3. 网页嵌入渠道支持展示数据分析图表

网页嵌入渠道支持数据库功能,网页悬浮窗、独立页面、Iframe嵌入 三种接入方式均可展示数据分析文案及图表:



数据分析图表功能详见:数据库功能

四、渠道接入和对话管理

1. 对话管理支持按托管账号筛选会话

对话管理页面客户端选择器优化,并针对私域运营渠道支持按账号维度进行对话筛选:


2. 托管渠道支持回复引用提问的消息

企微/微信渠道中,新增对引用消息的支持,在群聊或私聊中可以引用自己或他人的问题向机器人提问:


3. 托管渠道支持发送ppt文件素材

知识库新增ppt文件类型素材,可通过托管渠道以文件形式发送: