DeepSeek团队开源OCR新模型:少量视觉token完成海量文本压缩
创始人
2025-10-20 16:44:36
0

IT之家 10 月 20 日消息,今天上午,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。Hugging Face 页面显示,该模型的参数量为 3B。

根据介绍,此次开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。DeepEncoder 专为在高分辨率输入下保持低计算激活而设计,同时实现高压缩比,以控制视觉 token 数量在可管理的范围内。实验显示,当文本 token 数量不超过视觉 token 的 10 倍(压缩比低于 10×)时,模型的 OCR 精度可达 97%;即便压缩比提高到 20×,准确率仍保持约 60%,展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力。DeepSeek-OCR 同时具备较高的实际应用价值。

在 OmniDocBench 测试中,DeepSeek-OCR 使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token),而使用不到 800 个视觉 token 便优于 MinerU2.0(平均每页超过 6000 个 token)。

在实际生产中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

IT之家附有关页面如下:

  • GitHub:https://github.com/deepseek-ai/DeepSeek-OCR
  • Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR

相关内容

最新资讯

泽连斯基是否会参加美俄元首峰会... 俄新社10月20日报道,俄罗斯总统新闻秘书佩斯科夫在被问及“泽连斯基是否会参加在布达佩斯举行的美俄元...
中国人“25万移民日本”的时代... 靴子飞了2个多月,终于落地。10月10日,日本出入国在留管理厅正式公布“经营管理”签证最新规定,将申...
多款知名进口药告别国内市场 界面新闻记者 | 黄华 界面新闻编辑 | 谢欣 10月15日晚,国家药监局公众号显示,注销费卡华...
各省份专升本公办招生院校名单! 之前给大家整理各省份专升本的招生院校名单,很多同学在问:哪些是公办本科?专升本可以报哪些公办院校? ...
国网荆州公司城区供电中心构建立... 荆楚网(湖北日报网)讯(通讯员 陈春梅)近日,国网荆州供电公司城区供电公司主动作为,开展一系列形式新...
“总找各种借口用我手机”,女子... 近日,CCTV《一线》节目报道了一起案件,案件中的受害者被同事用手机在几年间转走17万工资。 202...
六年级上册语文文言文阅读真题1... 亲爱的同学们好,这里是小学课堂秘籍 今天为大家分享:六年级(上)语文文言文阅读真题。题目类型丰富,有...
上千吨粮食遭盗卖,警方侦破盗运... 并不是说合同约定的某些条款你是可以利用的一旦你利用了就会触犯到法律长江是横贯我国东西的水运大动脉,货...
悦读筑梦,书香致远——2025... 初秋的清风翻动书页,思想的微光点亮校园。10月14日上午,邵阳县白仓完小墨香盈袖,一场以阅读为名、以...
击船、停援、加税,美国盯上哥伦... 新华社波哥大10月19日电 热点问答|击船、停援、加税,美国盯上哥伦比亚?新华社记者李子健美国与哥伦...