在当今时代,人工智能( AI )的发展日新月异,其身影已无处不在,深刻影响着我们的生活方式和生产模式。浏览器不仅充当了Web应用入口与展示平台,还承载了这些应用的交互性和运行逻辑。随着技术的进步,信息输入的方式也日益多样化,除了传统的键盘和鼠标输入外,语音输入的需求正在迅速增长。
以某国外生产线为例,员工们能够通过语音指令(采用外语形式)来操作Web应用系统,这大大提高了工作效率和便捷性。这种多样的交互方式不仅体现了技术的进步,也为用户提供了更加灵活的操作选择。尤其是在一些需要双手作业的场景下,语音输入为用户提供了一个无缝集成且高效的工作流程解决方案。因此,随着 AI 技术的不断进步,我们可以期待更多创新的人机交互方式出现,进一步丰富我们的生产和生活体验。这些变化标志着我们正朝着一个更加智能化、自动化的未来迈进。
活字格低代码开发平台当然也能实现上面的效果,通过活字格低代码开发平台打造可以在电脑浏览器端和手机浏览器端使用语音方式与 AI 进行交互的智能体。请看实现效果:
电脑浏览器端
手机浏览器端
基于浏览器的实时语音交互设计与实现
语音交互实现方式
该方案借助了第三方语音识别模型,以此作为用户端与 AI 大模型的沟通桥梁,建立交互的过程。
通过客户端(包括电脑浏览器和手机浏览器)借用浏览器提供的麦克风权限,当用户许可允许使用浏览器麦克风时,用户即可开始进行实时语音输入;
采集到的语音会实时的发送给语音转换模型,进行实时文字转写并修正;
当用户结束语音输入后,通过文本形式发送给 AI 大模型,AI 大模型会根据输入文本进行回答。
语音交互实现原理
接下来,将为大家详细介绍这一方案的基本实现原理。该方案首先通过请求获取浏览器的录音权限,一旦用户给予许可,系统便会启动浏览器的录音功能。用户可以开始进行语音输入,与此同时,语音识别模型将实时地将语音转写为文本,并在转写过程中自动进行语音输入的修正优化。语音输入完成后,优化后的文本信息即被发送至 AI 大模型以开启智能对话流程。
这一过程不仅确保了语音输入的准确性和流畅性,还通过实时处理提升了交互效率,使用户能够享受到更加自然、无缝的人机对话体验。整个机制的设计旨在最大程度上简化用户的操作步骤,同时提供高效、精准的语音交互服务。
在浏览器端实现语音录入功能,离不开对浏览器自身录音功能的依赖。由于涉及到麦克风、摄像头、地理位置等用户隐私权限的数据采集,在开始获取用户的语音输入之前,必须首先确保浏览器获得了用户对于麦克风访问权限的明确许可。
一旦用户同意了麦克风使用请求,活字格低代码开发平台即启动麦克风以16位深度和16000Hz采样率采集PCM格式的声音数据。与此同时,系统会与第三方语音识别模型建立一个安全的WebSocket连接,以便实时地将采集到的PCM声音数据传输至该模型进行即时修正及转写处理。
当用户完成语音输入并触发结束操作后,系统将停止麦克风数据采集,并把已转写的文本信息发送给预先在活字格低代码开发平台中配置好的 AI 大模型。这里我们利用了活字格低代码开发平台提供的 AI 对话单元格插件,实现了与 AI 大模型之间的智能对话交互,从而顺利完成整个语音交互过程。
这一流程不仅保障了用户隐私的安全性,还通过高效的数据处理机制提升了语音识别的准确性及响应速度,为用户提供了一个流畅且自然的语音交互体验。
如何利用低代码快速打造 AI 语音交互智能体
为了实现以上效果,首先我们需要一些简单的准备工作。准备的内容如下:
V11及以上版本活字格设计器及服务管理器;
网页录音插件(设计器安装即可);
AI 对话单元格插件(设计器安装即可);
一台带有HTTPS证书的服务器。
准备好以上环境后,我们首先新建一个普通PC页面和手机页面。普通PC页面我们使用V11版本的自由布局容器,容器中放置 AI 对话单元格。除此之外,我们需要用到网页录音单元格,放置在 AI 对话单元格中即可(自由容器中可以叠放,有层次性)。
在电脑端浏览器中,我们采用既可以键盘输入又可以语音输入的方式,因此需要在页面隐藏区域放置一个隐藏文本框,用于触发将语音输入的内容投喂给 AI 大模型。
手机端的实现思路类似,同样也支持此效果。在手机页面上,放置 AI 命令单元格和网页录音命令,在隐藏区域中放置一个辅助文本框,用于将文本发送给 AI 大模型。
详细见下图:
最后,只需将设计完成的活字格应用部署在配置了 HTTPS 证书的服务器上,即可实现视频中展示的效果,大功告成。通过上述简洁的页面布局和配置步骤,您就能轻松集成 AI 与语音交互功能。整个过程简单直观,充分展现了活字格低代码开发平台的强大与易用性,让您的应用快速具备先进的交互能力,显著提升用户体验。
智能体应用场景
实际上,这种智能体的应用场景非常广泛,许多系统都可以集成该智能体以提升交互效率和用户体验。例如:
出入库管理系统:用户可以通过语音指令进行货物的出入库操作、库存盘点等,无需手动输入信息,极大提高了工作效率和便捷性。
医院智能导诊系统:患者可以使用语音描述自己的症状,系统通过 AI 分析后反馈相应的科室信息及就诊建议,为患者提供更加便捷的服务体验。
这里我们引入一个具体的示例场景——会议室预定系统。假设有一个会议预定系统,其使用者来自不同的国家。借助语音交互技术,不同语言背景的用户能够使用自己的母语与系统进行交互,完成会议室的预订、查询等操作。无论是哪个国家的用户,只需通过语音指令,就能方便快捷地与系统互动,享受无缝且高效的会议预定体验。
通过这些应用场景可以看出,集成语音交互功能的智能体不仅提升了系统的易用性和灵活性,还使得跨语言、跨文化的用户交流变得更加顺畅自然。这无疑为企业管理和公共服务等领域带来了极大的便利和创新机遇。
如下图,当我们输入英文语音时,借助 AI 对会议上预定信息进行填写:
请看实现效果:
智能体发展与展望
技术进步与发展趋势
语音识别:随着 AI 技术的不断进步,未来的语音识别模型将更加准确且资源消耗更低,使得实时语音转文本在各种设备上都能流畅运行。
多端支持:该方案能实现多端语音交互,从而带来更多样的指令方式,适应更多、更全面的实际场景。
潜在应用场景扩展
智能家居和物联网(IoT):用户可以在浏览器端,可以通过语音命令控制家中的智能设备,实现真正的“免手操作”生活体验。
医疗健康领域:医生可以通过语音记录病历,减少手动输入的时间成本;患者也可以利用语音助手查询医疗信息或提醒服药。
教育和培训:语音交互可用于创建互动式学习环境,使在线课程和培训项目更加生动有趣。
面临的挑战
隐私保护:随着语音数据的增长,如何确保用户的语音数据安全和个人隐私不被侵犯是一个重要议题。
准确性与适应性:尽管当前技术已经取得了很大进展,但在嘈杂环境下或者对于特定群体(如儿童或老年人)的语音识别仍有待提高。
无障碍访问:为了让所有人都能享受到这项技术带来的便利,需要考虑到不同能力水平用户的需求,包括但不限于听力障碍者和视觉障碍者。
葡萄城热门产品


