> 作者:yanbo
新闻资讯
1. DeepSeek再开源:发布3B混合专家OCR模型“DeepSeek-OCR”

DeepSeek正式推出视觉文本压缩模型 DeepSeek-OCR,参数量仅3B,却采用 混合专家(MoE)架构,实现视觉token数量 减少20倍、压缩比达 20倍。在 Foxbenchmark 测试中,各文本长度区间准确率均超85%,20个节点可日处理3300万页文档。模型支持多语言、多分辨率、复杂图表解析及多模态任务,在多轮交互中实现 10倍压缩效率,标志着OCR进入“超轻量高效”新阶段。
https://github.com/deepseek-ai/DeepSeek-OCR
2. 百度PaddleOCR-VL登顶全球榜首:16小时拿下HuggingFace Trending第一

百度最新自研的多模态文档解析模型 PaddleOCR-VL 上线仅16小时,即登上 HuggingFace Trending全球榜首。
模型参数仅0.9B,具备极强的轻量化与识别精度,能处理文本、手写汉字、表格等多种复杂文档结构,支持 109种语言。该成果进一步夯实百度在多模态视觉理解领域的领先地位。
https://arxiv.org/abs/2510.14528
3. 智谱 AI 推出企业级“GLM Coding Plan”:最强Agent化编程平台

智谱AI发布 GLM Coding Plan 企业版,基于GLM-4.6模型,面向企业场景提供 全链条智能编程解决方案。
该版本融合 多模态理解、联网搜索与智能编排 能力,支持从代码生成到协同开发的完整流程,并在 OpenRouter API趋势榜 中名列第一。企业版具备 高性能、低成本、高安全性 等特性,兼容10余款主流编程工具,全面赋能AI软件研发体系。
https://www.bigmodel.cn/online-book/glmCodingPlan
4. 通义Qwen3-VL系列扩容:2B与32B版本全面覆盖多模态场景

阿里云通义实验室推出 Qwen3-VL 家族新成员 —— 2B与32B两款模型。
两者分别定位于轻量级与高性能多模态理解任务:
Qwen3-VL-2B 可在边缘端设备高效运行; Qwen3-VL-32B 在多项视觉语言基准上超越GPTmini等同类模型,仅用32B参数即可匹敌235B模型。 两种版本均提供 Instruct(对话/工具调用) 与 Thinking(长链推理/复杂视觉理解) 模式,进一步完善通义AI的多模态生态布局。
https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
生产工具
1. 面多多上线:鱼皮团队推出沉浸式AI模拟面试平台,打造求职新体验

由知名程序员 鱼皮团队 打造的 面多多(MianDuoDuo) 正式发布,这是一款基于前沿 AI面试官技术 的沉浸式模拟面试平台,旨在帮助求职者在真实面试中脱颖而出。
面多多采用 数字人面试官 与 智能语义理解模型,支持全流程互动式视频面试,能够模拟真实面试场景与语气反馈,让用户如临其境。平台可针对 技术面试、行为面试、案例分析 等多维度进行精准训练,并根据用户背景与目标岗位自动生成 个性化训练方案。
AI面试官不仅会对回答进行 实时分析与评分,还可提供 专业改进建议 与 能力曲线追踪,帮助用户持续优化表达与思维逻辑。平台同时提供 1V1专业指导,对标顶级互联网公司面试标准,让用户获得系统化提升。
在隐私与安全方面,面多多构建了完善的数据保护体系,所有面试内容均在加密环境中运行,并支持 24×7全天候练习服务。面多多的推出,标志着 AI教育与求职训练赛道进入沉浸式智能交互新阶段,也为求职者带来更高效、更真实、更具针对性的面试准备体验。
https://ai.mianshiya.com/