DeepSeek开源3B OCR模型:长文本识别达97%精度
创始人
2025-10-22 07:15:35
0

站长之家(ChinaZ.com) 10月21日 消息:DeepSeek近日在GitHub平台开源其最新成果——DeepSeek-OCR模型,该模型通过创新的光学二维映射压缩技术,在长文本识别场景中实现97%的识别精度,为OCR领域树立新的技术标杆。

据技术文档披露,该模型采用双模块架构设计,由DeepEncoder视觉编码器与DeepSeek3B-MoE-A570M混合专家解码器构成。其中,DeepEncoder可在处理高分辨率图像时自动维持低激活状态,通过动态压缩生成最优数量的视觉特征令牌(visual tokens),较传统方法减少60%的计算冗余。

实验表明,当视觉令牌与文本令牌的比例控制在1:10时,模型识别准确率达97%;即便将压缩率提升至1:20,准确率仍保持60%以上,显著优于同类模型在极端压缩条件下的表现。

研究团队特别指出,这项突破性成果源于对"光学二维映射压缩"技术的深度探索。通过将图像特征转化为离散令牌序列,模型成功解决了长文本场景中视觉信息与语义输出的匹配难题。

该技术路径不仅为OCR系统的小型化提供可行方案,更对大语言模型的记忆管理机制研究具有重要启示——其动态压缩策略可类比为人工智能的"选择性遗忘"能力,为构建更高效的持续学习系统奠定基础。

项目地址:https://github.com/deepseek-ai/DeepSeek-OCR

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR

相关内容

最新资讯

OPPO智慧服务吹起AI之风,... 2025-10-22 16:10:50 作者:狼叫兽 移动应用服务的爆炸式增长,我们的生活需求几乎...
放学抽30分钟先干这个,再写作... 这里是超实用的二条 每篇解决一个育儿小问题,当好妈妈,更当好自己~ 都知道阅读重要,但每天光写完...
裕安学校:儿童心理讲座《与查理... 深圳商报•读创客户端记者 刘娥 近日,作为深圳市保利剧院 “艺术进校园” 系列活动首秀,教育部艺术领...
安卓系统手机无线充电,安卓手机... 你有没有发现,现在手机充电的方式越来越酷炫了?没错,我要说的就是那让人眼前一亮的安卓系统手机无线充电...
2026苏州大学电子信息学院通... 苏州大学电子信息学院:信息与通信工程、 新一代电子信息技术(含量子技术等)(专业学位)、通信工程(含...
污水治理提效能 民生工程暖民心 荆楚网(湖北日报网)讯(通讯员 童辉 孙国严)10月22日,在湖北省老河口市住房和城乡建设局获悉,...
吉利神盾金砖电池获得中国汽车工... 10月22日,吉利汽车“车用动力电池安全与防护关键技术及应用”项目,获得2025年度“中国汽车工程学...
新车拆出“隐藏盲盒”?小米YU... 近日,浙江金华车主@水中望月购买的小米YU7新车发生的质量问题引发广泛关注。该车主于10月12日提车...
如果不是日媒披露,我都不敢相信... 文丨编辑 来科点谱 «——【·前言·】——» 中国和日本是只有一海之隔的邻居,历史上两国纠葛不断,日...