产品概述
智能语音调度系统由智能语音机器人、智能语音调度系统、系统应用服务器、虚拟数字人引擎驱动服务器、定向麦克风等组成,聚焦数智化场景语音交互与信息调度需求,打造从语音采集、指令解析到智能反馈、可视化播报的全流程能力,适配政务服务、应急指挥、企业宣讲、智能咨询等多场景,为指挥调度中心、数智大厅等场景提供高效、智能的交互调度解决方案。

模块 1:AI 能力引擎
本系统 AI 能力引擎具备语音识别、意图分析、指令理解及语音合成播报核心能力,可实现说话人实时语音到文本的精准转换,将业务讲解内容、操作执行结果通过语音合成完成反馈输出;同时支持 2D 真人标准形象的合规授权接入,为数字人全场景交互提供底层能力支撑。
模块 2:数字人能力引擎
2.1 基础能力与场景适配
支持 2D 真人标准形象的合法授权使用,从源头规避形象应用合规风险,保障业务落地安全性;
提供虚拟数字人云渲染画面输出、视频流实时推流能力,无缝适配数智大厅 LED 大屏、指挥调度中心显示终端等多类硬件载体,实现数字人画面高清呈现与稳定传输。

2.2 灵活控制与参数配置
支持播报文本自定义编辑,搭配数字人动作精准控制功能,实现播报内容与肢体动作精准协同,贴合业务表达需求;
支持场景背景快速切换,可根据政务服务、应急指挥、企业宣讲等场景灵活调整视觉呈现风格;
支持视频流分辨率、帧率、码率等核心参数自定义设置,可根据网络带宽、显示设备性能动态调优,兼顾画面输出质量与传输效率。
2.3 数字人合成技术与标准化流程
2D 虚拟人合成自然度 MOS 评分达 4.8,在神态模拟、肢体动作、语音输出等维度实现类真人表现,提升人机交互自然度与沉浸感。数字人形象视频素材制作分三步标准化执行:
AI 照片生成:按目标形象编写提示词,核心规范:全身像添加 “全身正面站立、正面全身像”;半身像添加 “正面站立半身像”;真人风格添加 “写实 / 超写实风格”;卡通风格添加 “卡通风格”;无张嘴效果规避笑相关词汇,用 “面部柔和” 替代(效果不佳可多次生成);带配饰需添加具体描述词汇。
视频素材生成:进入 “视频生成” 菜单,选首尾帧模式并选取历史首尾帧图片;复用标准化提示词(固定镜头,人物位置固定,仅允许微动作,表情不变,视线正对镜头,背景静止,光线色调恒定,整体画面稳定);点击 “立即生成”,预览后通过 “无水印” 功能下载。
数字人克隆:在 2D 数字人平台进入 “克隆数字人” 菜单,选 “自定义形象”;上传视频素材,配置数字人基础信息后点击 “开始克隆”;等待数秒,跳转至 “我的数字人” 页面即克隆成功。
2.4 数字人应用构建与管理
应用新建:多入口创建(“数字人应用” 模块按钮、“数字人广场”/“我的数字人” 目标数字人悬浮窗入口);完成命名后配置核心参数(选数字人形象;选配 holar_tts(轻量型,合成快、资源低)/holar_tts_pro 语音合成服务;从已配置智能体列表选大语言模型;选 “官方 asr (默认)” 语音识别服务(需在 “大模型管理” 中启动);输入开场白并回车保存);点击保存完成创建。
应用预览:点击 “预览” 新开标签页,进入界面后点击 “聊天”,实现与数字人实时交互测试。
应用删除:点击 “删除” 按钮,确认操作后完成应用删除。
2.5 交互播报与情感表达
支持 3 类播报模式配置(交互模式、严谨播报模式、灵动播报模式),可按业务场景灵活切换,实现合成效果与场景诉求精准匹配;
支持 3 种情感类型配置,覆盖数字人形象与语音输出的情感化表达,增强信息传递亲和力与感染力。
2.6 核心合成性能指标
网络正常时,虚拟人合成接口请求响应时间≤200ms,实现指令快速响应与画面实时生成;
合成服务全年运行稳定性达 99.99%,降低服务中断概率,保障业务连续运行;
语音合成、视频合成成功率均达 99%,确保信息播报完整性与可靠性。
模块 3:语音识别能力引擎
3.1 多维度精准识别能力
近距离拾音识别:近距离麦克风收音、中文普通话场景下,实时语音识别准确率达 99%,精准捕捉语音细节,保障指令准确采集;
中英文混合识别:支持中文语境下中英文混合输入识别,自动完成语言切换,无需人工干预,消除语言差异识别偏差;
特殊字符识别:优化数字串、字母听写专项能力,精准转写整数、小数、电话号码、编号及单个字母、英文缩写等,确保关键信息无遗漏;
方言普通话兼容:支持四川话(川普)、陕西话(陕普)、北京话等常见方言普通话识别,打破地域语言壁垒,扩大应用覆盖范围。
3.2 内容安全管控
支持用户自定义屏蔽词列表,引擎实时检测语音输入内容,匹配到敏感、不文明等违规内容时自动过滤屏蔽,保障识别结果合规性与场景适配性。
3.3 响应效率指标
实时语音识别服务响应时间≤600ms,快速返回识别结果,确保数字人及时处理指令,保障人机交互流畅性与实时性。
3.4 语音采集与全流程处理
语音预处理:支持音频流前后端点检测(可动态设超时时间或关闭,实现长音频听写);具备高效噪音消除能力,适配复杂环境语音采集;
文本后处理:基于对话语境智能分析识别结果,实现智能断句、标点自动预测,支持数字规整、自定义替换列表,优化结果可读性;
中间结果返回:支持实时听写中间结果返回,减少输出时间间隔,实现结果动态修正,提升交互视觉流畅度;
前端语音处理:通过信号处理完成语音检测、降噪,核心实现端点检测,精准判定说话起止时间,实现 “边说边识别”;
后端识别处理:支持数万条语法规模大词汇量、与说话人无关的识别,适配不同年龄、地域、信道、终端及噪声环境;返回结果同步输出置信度参数,为业务处理提供支撑;支持多候选结果按置信度降序输出,提供二次选择可能;搭载热词识别,实时检测特定关键词 / 短语,提升关键信息识别效率。
模块 4:语义理解能力引擎
4.1 四大核心支撑能力
知识编译与解析:对海量知识库标准化处理,构建结构化语义资源库;将输入文本解析为 JSON 等标准化可调用数据结构,实现与数字人执行系统无缝对接,确保指令快速转成可执行逻辑;
语音信号处理:精准提取原始语音信号特征参数,通过语音 - 音节、音节 - 字概率计算模型,构建稳定语义转换体系,从信号层面保障理解准确性;
多轮交互记忆:自动缓存交互上下文与历史数据,搭载智能匹配机制,精准关联多轮内容,避免重复提问,保障对话连贯性,适配复杂业务咨询、多步骤指令执行;
高效语义响应:通用语义理解正确率达 95%,精准识别用户潜在需求与核心指令,减少理解偏差;平均交互响应时间≤200ms,快速反馈结果,避免用户等待。
4.2 智能体管理与大模型对接
支持多大模型连接创建,仅适配 OPENAI 接口协议,实现本地大模型与第三方大模型快速对接,操作与配置规范:
核心参数配置:连接名称(自定义,无校验);接口协议(固定选 OPENAI);BaseURL(填写大模型接口官方 URL);API key(访问鉴权秘钥,本地大模型为必填);ModelName(模型唯一标识,与提供商命名完全一致);描述(填写模型功能、适用场景等说明);
第三方模型对接:在模型广场选取目标模型,复制标准名称(部分模型有免费试用次数);按参数要求填写后,点击 “测试连接”,验证通过即完成对接。
模块 5:语音合成能力引擎
5.1 核心合成技术体系
深度融合中英文语法与韵律知识,构建多算法协同合成体系:通过语法与语义分析算法,精准解析文本语言逻辑、语义关联及表达意图,确保合成语音符合语言规范;搭载最佳路径搜索 + 语音单元挑选调整算法,筛选最优语音单元组合并精细化调优,实现语音停顿、重音、语速自然化;融合语音数据编码技术,在保障质量的前提下优化数据传输与存储效率,实现质量与性能双提升。
5.2 合成效果指标
采用行业通用 MOS 评分,中文语音合成自然度 MOS 评分达 4.5,在语调、韵律、流畅度等维度实现类真人发声,消除机械感,提升用户听觉体验。
5.3 全流程交互闭环
支持日常业务讲解文本流畅合成播报,同时具备操作结果类文本语音反馈能力;数字人完成指令后,将处理结果同步推送至引擎,通过语音清晰反馈执行状态(如 “操作已完成”),构建 “指令接收 - 执行 - 反馈” 全流程闭环。
5.4 高效文本处理能力
单小时可高效处理文本量达 1500 万字,具备高并发、大批量文本合成能力,满足数字人高频率交互、连续化播报等场景需求,确保合成输出稳定高效,无延迟卡顿风险。
模块 6:文件解析平台
6.1 核心基础能力
集高效转换、精准解析、灵活管理于一体,为 AI 大模型训练、企业知识管理、自动化办公提供端到端文档预处理解决方案,支持多格式、多元素解析,兼顾高性能与企业级管理需求。
6.2 多格式解析支持
支持 PDF(含扫描件)、Word(doc、docx)、PPT(ppt、pptx)、图片(png、jpeg、jpg)向 MarkDown 格式转换;
上传规范:PDF/PPT/Word 单文档≤200M 或 600 页,图片单张≤10M,单次上传均≤20 个文件。
6.3 多元素与多模态处理
多元素精准识别:识别提取标题、正文、OCR 文本等文本类元素,图像主体 / 标题 / 脚注等图像类元素,表格主体 / 标题 / 脚注等表格类元素,行内 / 行间公式等公式类元素及页眉、页脚等废弃内容;
智能文档处理:智能内容清理(删除页眉、页脚、页码等无关内容)、阅读顺序优化(适配单 / 多栏复杂排版)、文档结构保持(完整保留标题、段落、列表);
多模态内容处理:公式自动转换为 LaTeX 格式;各类表格(有线 / 无线 / 嵌套 / 模糊)高精度解析并转换为 HTML 格式;精准提取图像、图片描述及表格附属信息。
6.4 高性能解析处理
搭载轻量级视觉模型(参数<1B),解析精度超越传统 72B 级视觉语言模型(VLM);
单张 RTX 4090 显卡实现 10000 token/s 吞吐量,支持批量文档秒级解析;
单模型集成多语言混排、潦草手写、复杂版面、表格数据、数学公式、内容阅读顺序六大解析能力,无需多模型切换。
6.5 API 集成与任务管理
支持文件 API 接口对接,树状结构实现任务组分级管理,可对解析任务增、删、改、查及启停;
解析记录可视化,支持实时预览效果,一键调用 JSON 数据接口;
开放标准化 API,支持二次开发与业务系统灵活对接。
6.6 企业级管理能力
区分本地上传与 API 对接任务记录,支持按任务名称快速筛选检索;
搭建多维度权限管理体系,实现用户角色分级管理,精准控制功能访问权限。
6.7 解析结果操作与编辑
支持解析结果实时预览,可对比 MD 格式结果与原始文档;
支持二次编辑,所有修改实时自动保存,提供自动换行、全屏预览、单独下载修改后 MD 文件等便捷功能;
可下载包含结构化文件、MD 文件、提取图像资源的压缩包,也可单独删除解析记录(删除后不可恢复)。