
·聚焦:人工智能、芯片等行业
欢迎各位客官关注、转发


多模态融合,拓展感知边界
2025年上半年,大模型在多模态技术上取得了重大突破,实现了从单一文本交互到“图文音视频”全模态融合的跨越。
这一进展使得大模型能够更全面、准确地理解和处理信息,为用户提供更加丰富、直观的交互体验。
Gartner预计,到2027年,40%的生成式AI解决方案将采用多模态技术,较2023年的1%显著提升。
在国内,火山引擎于今年6月发布豆包大模型1.6、视频生成模型Seedance1.0pro等新模型,其中豆包1.6系列模型支持多模态理解和图形界面操作,让用户能够通过图像、语音等多种方式与模型进行交互,极大地拓展了应用场景。
商汤日日新大模型从1月推出原生融合模态版本,到4月升级V6实现多模态推理突破,不断迭代技术,提升模型的多模态处理能力。
快手可灵AI构建多模态创意生产力平台,上线一年多以来,已累计生成1.68亿个视频和3.44亿张图片,为内容创作领域带来了新的活力。

在大模型技术蓬勃发展的当下,离线大模型凭借独特优势成为行业新焦点。
其最大特点是能在无网络连接的情况下独立运行,这有效规避了网络不稳定或断网导致的服务中断问题。
在野外探险、偏远地区作业以及网络信号差的场所,离线大模型设备能稳定提供智能服务。
从技术层面来看,离线大模型实现了模型的本地化部署,数据处理和计算都在本地设备完成,极大提升了隐私安全性。
像医疗、金融等对数据保密性要求极高的行业,使用离线大模型可确保敏感数据不出本地,降低数据泄露风险。

RockAI推出的最新版非Transformer架构大模型Yan 2.0 Preview,在离线和记忆功能方面表现亮眼。
它打破传统,将离线大模型部署边界下探到“千元机”级别,让低配置设备也能实现离线实时AI运算。
新增的“记忆模块”是一大突破,如同人类大脑海马体,能存储学习过程中的关键信息并在新场景快速调用。
现场演示中,搭载该模型的机器狗,无需预设程序,通过记忆模块学习工作人员展示的自定义新动作后成功执行,这种持续进化和自主决策能力,是传统大模型难以企及的。

Google DeepMind推出的Gemini Robotics On-Device模型也备受瞩目,作为专为双臂机器人设计的VLA基础模型,它能直接解析自然语言指令并驱动机器人执行相应动作。
核心优势在于能在机器人本地离线运行,同时处理视觉识别、语言理解与动作执行任务,在医疗操作、灾难救援、工厂自动化等对实时性和稳定性要求高的场景中,有效避免了云端传输的延迟和潜在风险。
另外,谷歌开源的AI Edge Gallery,允许用户在手机上本地运行大模型,完全离线且免费,支持从Hugging Face下载各种大模型,实现不联网状态下的聊天、识图、代码生成和文本推理等功能,满足了用户在隐私保护、本地算力利用以及弱网环境下使用AI的需求 。
英特尔展示的基于本地的大语言模型采用三合一模型,可离线运行。中文语料库搭载62亿参数的GIM2 - 6B模型,拥有32K的上下文支持能力,通过超1.4万亿的英文和中文令牌进行预训练,模型性能和推理能力较强。
还本地化部署了专门处理编程语言的starcolder - 15.5B模型,方便程序员在离线环境下进行代码生成和理解 。
这些企业的成果展示,不仅体现了离线大模型在技术上的创新突破,也预示着其在未来智能设备、工业生产、个人隐私保护等多领域的广阔应用前景。

当一个拥有自主行动能力的智能体,可以在我们的物理世界中离线活动时,它所带来的想象空间是巨大的。从能够照顾老人的家庭伴侣,到可以进行精细操作的外科手术助手,再到能够深入险境的救援队员,机器人的应用边界被前所未有地拓宽了。
然而,这也带来了新的思考。当机器的决策过程完全在本地完成,变得不再那么透明和可控时,我们如何确保其行为的安全性与可靠性?当一个机器人能够在没有外部监督的情况下自主学习和行动,我们又该如何界定责任的边界?
Google DeepMind实验室的这一步,无疑是迈向通用人工智能的重要一步,它叩响了物理世界智能化的大门。但这扇门背后,既有前所未见的机遇,也有需要我们审慎面对的挑战。这不仅仅是工程师和科学家的议题,更是我们每一个人都需要开始思考的未来。
内容来源于:36氪:离线+记忆,大模型进化的分水岭;尕燚龙科技茶馆:Google机器人离线模型,从“云端智者”走向“地面实干家”;医械笔记本:断网没关系,谷歌发布具身智能离线模型,可本地化部署
本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。
推荐阅读:



商务合作请加微信勾搭:
18948782064
请务必注明:
「姓名 + 公司 + 合作需求」