百度开源多模态模型PaddleOCR-VL,登顶HuggingFace全球趋势榜
创始人
2025-10-17 21:20:38
0

近日,百度自主研发的多模态文档解析模型PaddleOCR-VL在开源后20小时内迅速登顶HuggingFace全球趋势榜单首位,引发全球开发者社区的广泛关注。该模型基于文心大模型4.5架构衍生而来,以0.9B的轻量化参数量实现多类复杂文档元素的精准识别与结构化解析,被誉为当前最具实用性的OCR-VL(视觉-语言)模型之一。

PaddleOCR-VL可高效处理包括印刷文本、手写汉字、表格、数学公式、图表等在内的多种文档元素,并支持包括中文、英文、法语、西班牙语等在内的109种语言。在权威多模态文档理解评测集OmniBenchDocV1.5中,该模型以92.6的综合得分位列全球第一,在文本识别、版面分析、手写体处理、公式还原等四大核心能力上全面实现SOTA(State-of-the-Art),性能表现超越GPT-4o等其他主流模型。

技术架构上,PaddleOCR-VL融合了百度多项自研技术。其视觉模块采用NaViT(Native Vision Transformer)动态分辨率编码器,能够自适应不同尺寸和长宽比的图像输入,显著提升对不同版式文档的泛化能力。语言模型部分则选用轻量级ERNIE-4.5-0.3B作为基座,在控制计算开销的同时维持了强大的语义理解与生成能力。

尤其值得注意的是,该模型在保持高精度的同时大幅降低计算资源需求,使其可在普通GPU甚至部分终端设备运行,为OCR与多模态技术的普及化应用提供了可能。分析认为,PaddleOCR-VL的开源将极大促进智能文档处理、教育数字化、金融票据识别、多语言翻译等多个行业的技术迭代。

业界专家表示,PaddleOCR-VL的推出不仅体现了百度在预训练模型轻量化与多模态融合领域的技术领先性,也为全球开发者社区提供了高性能、易使用的文档解析工具,预计将推动更多实际场景的规模化落地。

截至目前,该模型已在HuggingFace平台开源,用户可免费下载并使用。百度方面表示,将继续推进PaddleOCR-VL在多语言、低资源环境以及复杂场景下的性能优化,并计划于年底前发布更多衍生版本。

相关内容

最新资讯

千万35+职场人迎来曙光,公务... 最近刷到国考新政的人都在说,这简直是给 35 岁以上职场人递了把 “破局钥匙”。 2026 年度中央...
“国考”明起报名!计划招录3.... 中央机关及其直属机构2026年度考试录用公务员报名即将开始,共计划招录3.81万人。考生可于10月1...
吸引项目投资87亿元 咸宁“... 湖北日报讯(记者张进、通讯员陈立新、王智斌、熊纠)10月17日,以“咸创无忧、宁赢未来”为主题的咸宁...
19岁已塌房,混沌少年与爱无能 “男星塌房新闻”终于轮到刚成年的昔日童星。荣梓杉,2020年因为出演《隐秘的角落》中朱朝阳一角而一举...
赵露思《许我耀眼》女主造型被1... 赵露思《许我耀眼》女主造型被100%抄袭?内娱最好干的职业就是造型师了吧前段时间,赵露思与其经纪公司...
今年秋冬最美的搭配:毛衣+裙子... 终于到了穿毛衣的季节......每年这个时候的毛衣搭配,最不能没有的,就是毛衣配裙子~软糯的毛衣藏起...
吴石:抗战英雄与谍战剧《沉默的... 作品声明:内容取材于网络前言近期,《沉默的荣耀》开播,又一部高质量谍战剧,这是国内第一部关于台湾隐蔽...
大连艺术学院客人来校参观交流 10月15-16日, 大连艺术学院党委书记王晶、董事王震桓一行五人来校参观交流。我校执行董事、校长杨...
@准兽医,执业兽医资格申请10... 根据《执业兽医管理办法》《执业兽医资格考试管理办法》《全国执业兽医资格考试委员会公告》(农医考公告第...