电子发烧友网报道(文/黄山明)在AI大模型的加持下,AI玩具的最重要的功能便是语音交互,而要做到较好的语音交互,少不了语音前端处理芯片的加持。
因为玩具麦克风拾到的声音里混有喇叭回声、环境噪声、混响,而主控SoC的算力/功耗/实时性都扛不住这些7×24的AEC+NR+Beamforming+唤醒运算;前端芯片把“干净的人声”先截出来,再送给主控或云端,才能保证打断唤醒、低误触发、低功耗三样同时成立。
因此,目前AI玩具中,一款好的语音前端处理芯片,带来的用户使用体验的提升是非常明显的。
以今年市场中已量产的AI玩具为例,如Haivivi BubblePal、字节“显眼包”挂件,采用的是启英泰伦CI1302/1303,这两款都是针对智能语音交互场景设计的专用芯片,尤其适合AI玩具、智能家电等轻量化语音交互设备。
这两款新品均采用220 MHz 32-bit CPU以及第三代BNPU(脑神经网络处理器),在语音交互上,内置128ms频域回声消除,喇叭→MIC回采衰减≥45dB。与BNPU联合做“DNN残差降噪”,70dB环境噪声下实测识别率仍≥85 %,唤醒率≥90%。
启英泰伦还有一款CI1306用在儿童陪护机器人上,这是其第三代高性能神经网络智能语音芯片的旗舰型号,专为高复杂度离线语音交互场景设计,尤其适合对语音识别精度、抗噪能力、自然对话能力要求较高的产品。
相比CI1302/1303的单麦方案,CI1306则采用双麦克风深度语音增强,也是CI130X 系列中唯一明确支持完整双麦算法栈的型号,因此拥有波束成形、声源定位、深度人声分离、AEC、混响抑制等功能。
汤姆猫AI童伴机器人采用的是全志R128-S3,采用RISC-V XuanTie C906与Arm M33 Star MCU双核异构架构,搭配HiFi5 DSP。集成1个24位音频编解码器DAC通道,3个ADC通道,DAC播放路径中的信噪比高达119dB,ADC记录路径期间的信噪比高达98dB,可提供高质量的语音输入输出处理,确保语音信号的清晰和准确。
简单来说,全志的这款R128-S3,单芯片就可以让200元以内的AI玩具实现5米远场打断唤醒、本地500命令词、云端大模型连续对话,是目前市场上把性能-功耗-BOM平衡得极为出色的中端陪护机器人的语音SoC方案。
还有如使用在一些绘本机器人的炬芯ATS3703,这是一颗定位中端AI玩具+早教机器人的多媒体SoC,官方把语音交互做成硬加速模块,而不是外挂DSP。参数上拥有双路24-bit ADC,SNR 98 dB,可直接接2×差分模拟MIC或4×PDM数字麦,内置128 ms硬件频域AEC,回声消除深度≥45 dB,芯片级DNN降噪加速单元(10 GOPS INT8),60 dB环境噪声下唤醒率保持≥ 90%。
炬芯ATS3703单芯片即可让200-400元的早教机器人实现3-5米远场打断唤醒、本地自然说、视频聊天、人脸识别,是目前中端陪护类AI玩具出货量靠前的多媒体语音方案。
一些能够看向人再进行交互的AI玩具采用了泰芯TXW81x,这是一枚Wi-Fi+蓝牙双模、音视频All-in-One的2.4 GHz SoC,官方把语音前端和声学前处理做成硬加速IP,主打50–300元价位带屏AI玩具。
参数上,Audio Codec采用双路24-bit ADC,SNR 98 dB;DAC SNR 95 dB,采样率8–48 kHz可配。PDM接口上内置4× PDM 通道,可直接接4路数字MEMS麦。硬件AEC拥有128ms频域回声消除,回声抑制≥45 dB,喇叭90dB播放时仍可打断唤醒。还具有啸叫抑制功能,片内自适应Howling-suppression,增益> 40 dB无自激,适合喇叭-麦克风同腔玩具。
该芯片可以让带屏AI玩具实现5 米远场打断、本地 500 命令词、云端大模型连续对话、妈妈音色克隆,是目前中高端陪护类玩具出货量增长最快的音视频无线SoC方案。
小结
AI玩具的对话体验不是由大模型单独决定;一颗成本占比可能极低的语音前端处理芯片先把声学环境打扫干净,后面的云端/端侧大模型才能听得清、答得快、功耗低。