
2025年,在一所加拿大高校的图书馆里,沉睡数十年的法律文件正在被重新“唤醒”。
依托百度飞桨与文心大模型,Sigtica 公司打造的法律文档智能系统可在数秒内完成跨语种合同的条款解析与语义检索,使研究者能够从海量档案中迅速获取所需信息。曾经困扰学术界的“数据黑箱”,如今正在被人工智能一点点打破。作为一家源自创始人个人科研挫折经历的创新企业,Sigtica 正以 AI 为钥匙,将复杂的法律文本转化为结构化知识,为法律行业转型以及文档智能化勾勒出更清晰的演进路径。
9月9日,WAVE SUMMIT 深度学习开发者大会2025的主论坛灯光聚焦在一位来自加拿大的开发者身上。他是 AI 公司 Sigtica 的创始人 Guenther Lomas,他现场讲述了自己如何借力百度飞桨与文心大模型创立 Sigtica,并成长为能够解决全球复杂文档挑战的技术创新者。


大会现场
不谈技术参数,也没有罗列产品成果,他从一段曾经在科研领域受挫的“至暗时刻”讲起。在加拿大多伦多大学攻读博士期间,Guenther 被困在了6万份合同格式混乱、中英混杂、条款层层嵌套的扫描版法律合同里。
“我90%的时间都耗在准备数据,只有10%的时间在分析。”Guenther 坦言,“这完全颠倒了科研的初衷。”
正是这种痛点,催生了 Sigtica 的使命:“Codify Complexity”。他希望能够通过 AI 技术,处理世界上最复杂的信息并使其变得简单、结构化和有价值,用 AI 让最复杂的文档真正“开口说话”。
01
AI 破解难题
助力法律文档数字化与智能检索
▎非结构化数据的清洗与结构化提取
处理非结构化数据的核心挑战是如何将包含大量文本和表格的文档转化为学术界标准的干净、结构化数据集。而传统 OCR 工具在面对跨页表格、条款嵌套和脚注混排时往往效果有限,尤其在双语环境中错误率极高,通常存在无法进行跨文档分析、耗时且易出错、双语复杂性、数据点无法访问等问题。
在尝试了诸多开源项目仍未取得理想效果后,2021年,Guenther 开始使用 PaddleOCR,在处理英语与法语混合的加拿大法律文件时表现显著优于传统工具。随后,他以 PaddleOCR 为基础创立了 Sigtica,带领团队逐步完成复杂文档版式解析,实现精准检测标题、段落、表格区域并进行层级划分。
版面分析:使用飞桨 PP-DocLayout-L 模块,精准检测合同文档中的标题、段落、表格区域,划分内容区块。
文本识别:通过飞桨 PP-OCRv4模型,实现英语与法语文本的同步识别,准确率超96%。
文档解构:通过飞桨 PP-Structure 解构文档的层级结构,识别章节和条款。
▎从“识别”到“理解”的跨越
2024年,Sigtica 引入 ERNIE-4.5-VL 多模态大模型,探索并实现了文档的深度理解,完成了从“识别”到“理解”的跨越。其中,ERNIE 能完成命名实体识别,自动标注合同中的当事方、义务、责任、期限等关键信息,将原始文本转化为丰富且可搜索的“数据库”,这让研究人员能够在数秒内完成过去需耗费数周的人工作业:
语义检索:跨文档查找语义相近的条款,而非仅靠编号比对;
趋势分析:追踪某一条款在数十年、多个行业中的演变轨迹;
可视化呈现:生成条款演变时间轴和数据趋势图,辅助研究和决策;
可分析数据:形成“干净”的数据集,节省数百小时的研究时间。

02
案例落地
携手加拿大高校打造法律合同数据库
作为一家全球知名的 AI 公司,Sigtica 专注于为全球合作伙伴提供量身定制的文档智能解决方案。目前,其业务范围涵盖金融、法律服务和文化保护等多个领域,并在全球享有盛誉,曾受邀在多伦多大学和哈佛大学等世界顶尖学府进行客座讲座,分享其行业经验。
在近期与加拿大顶尖高校的合作中,Sigtica 正基于近7万份跨越近60年、涵盖127个工业领域的加拿大安大略省公开合同,构建智能化法律研究门户。从人工翻查到智能推演,析提加基于飞桨文字识别开发套件 PaddleOCR,成功为加拿大高校打造了一个高效、精准的法律合同数字化数据库。
基于飞桨与文心双开源技术,该项目目前正在加拿大各地的教师和学生中测试使用,帮助研究人员在几分钟内完成以往需耗时数月的比对和检索,已经颠覆性改变了他们进行研究的方式。正如一位法律研究员所说:“这就像给法律资料库装上了 CT 扫描仪。”一个可搜索、智能化的全国性研究人员平台也正在被全面搭建。多伦多大学研究中心主任 Rafael Gomez 对此评价道:“它能即时搜索和分析数万条法律条款,未来的研究生产力将依赖这样的新技术。”
这一成果既印证了飞桨、文心大模型在 AI 技术领域的深厚积淀,也通过技术赋能助力析提加在文档智能化赛道构建差异化竞争优势,为行业数字化转型提供了可复用的技术标杆与实践范式。
法律文档处理效率跃升的背后,是 AI 技术与行业场景深度融合的缩影。从扫描件“数字化”到内容“知识化”,析提加的解决方案展现了 AI 在垂直领域的精细化落地能力,这种以技术迭代驱动价值延伸的模式也正在为法律行业智能化转型勾勒出清晰的演进路径。
03
生态共赢
与开源社区共同成长
Guenther 强调,Sigtica 的成功深深根植于百度 AI 技术开放的技术沃土及其生态协同的力量。
在技术层,百度飞桨全栈工具链以“即插即用”的开源范式,为 Sigtica 注入了 PaddleOCR 精准识别、PP-Structure 文档结构解析、ERNIE 大模型的语义理解等核心组件,构建起团队的技术主心骨,让复杂文档的“数字手术刀”得以成型。
在开源社区协作层,飞桨 AI Studio 平台更成为创新加速器——通过开放、共享的代码、模型与数据集等,Sigtica 团队得以在真实场景中快速迭代模型,将原本需数年攻克的文档解析难题压缩至数周实现,这种技术成果的背后,正是开源生态的协同效应。
在 WAVE SUMMIT 深度学习开发者大会2025现场,Lomas 特别指出:“开源社区不是简单的工具库,而是创新的‘催化剂’。正是飞桨和文心生态的开放基因与协作网络,让我们这样的小团队也能共享头部企业的技术红利,以‘中国速度’完成从0到1的突破。”
长期以来,Sigtica 也积极回馈着生态合作:向飞桨社区贡献高价值法律文档数据集、开源关键项目代码;通过国际讲座与案例库分享,将自身经验转化为行业通用解决方案等等。如今,Sigtica 已深度融入百度 AI 技术生态,正式成为百度 AI 技术生态优选级合作伙伴,这不仅是技术赋能的有力见证,更是生态共生、价值共创的典范。


Guenther 参与百度 AI 系列活动
从博士求学期间的学术困境,到全球 AI 解决方案提供商的成长轨迹,Guenther 的故事是大模型生态赋能开发者的缩影。
未来,Sigtica 还将继续携手百度 AI,在小语言模型微调(SLMs)、FastDeploy 加速部署、Agentic RAG 增强检索等技术方向持续推进,致力于为金融、法律等行业提供更智能的文档处理解决方案,打造更强大、更智能的行业解决方案,帮助企业释放数据价值,实现数字化转型。
正如 Guenther 在结语中所说:“基于飞桨和文心大模型,百度 AI 正在赋能更多开发者从研究者迅速成长为行业领导者。”
