LangExtract：Google 开源的长文本结构化抽取工具_科技资讯_新闻资讯

LangExtract：Google 开源的长文本结构化抽取工具

创始人

2025-12-25 06:15:56

0次

Max大郭（备注：郭佰鑫）

一位运营着公众号体育科学和AI大模型爱好者，喜欢刷科技资讯的大学生

联系我：MaxGBX （欢迎科研、产品、自媒体合作交流）

我的微信留在上方了↑我郭佰鑫回来啦！！！（也可以看看我的视频号/抖音/小红书/知乎）

▲想合作的，欢迎您联系我

有任何想法欢迎您私信或评论，有问题可以联系MaxGBX（我的微信）

文章比较长，希望各位有耐心阅读！我的文章以及相关资讯同时也会发表到Linkedin和X欢迎你们也关注一下哈哈！（欢迎Github互关）

最近正在筹备以下几个(2025.12)

1.尝试在Github贡献一些

2.体育分析论文（发表见刊之后会放公众号）

3.动捕论文（这个得26年能看到）

4.体育心理咨询大模型尝试开发

5.视频/推文/报告制作推广

6.X/Titok/Youtube/LinkedIn频道

7.谈一些海外的体育科技设备品牌代理

8.做一些远程的实习(sports&tech&AI)

自我感觉这个紫色还挺好看的...（作者本人很喜欢蓝紫色）你们要是有好的体育科学/心理学书籍推荐可以私信作者，或者你们最近看到了什么好的大模型也可以分享。我也愿意分享你们的研究/产品/书籍（如果合适的话）

如果您认可我的内容的话，我非常希望您可以帮我转载/传播一下，让更多人了解前沿的文献/产品相关资讯！大郭在这里抱拳了

我联系方式放在文末了！

欢迎大家到腾讯元宝首页或公众号后台与我个人创建的AI智能体对话！（知识库是使用的我的公众号文章）

Github上Trending前几名的

LangExtract：聚焦核心功能与特色的深度解析

LangExtract作为Google开源的非结构化文本结构化提取工具，其核心竞争力源于一系列针对性解决行业痛点的功能与特色。这些设计不仅贴合实际业务场景需求，更通过模块化的源码架构保障了易用性与扩展性。本文将围绕LangExtract的核心功能与特色展开深度剖析，结合技术实现、使用价值与实操示例，全面呈现其差异化优势。

一、精准到字符级的源文本定位（Source Grounding）功能核心

这是LangExtract最核心的特色之一，也是区别于普通LLM文本提取工具的关键——将每一条提取结果精准映射到源文本的字符级位置，实现提取结果的“可溯源、可验证”。

技术实现：源码中langextract/resolver/word_aligner.py的WordAligner类是核心载体，通过计算提取文本与源文本的token重叠率、编辑距离实现精准匹配；即使提取文本与源文本存在格式差异（如大小写、缩写、同义词），也能通过模糊匹配算法找到最优对齐位置。例如提取“Macbeth”时，可精准定位源文本中“MACBETH”的起止字符索引；
核心能力：返回的Extraction对象包含start_char_index（起始字符位置）、end_char_index（结束字符位置）、score（匹配分数）三个关键字段，完整标注提取结果的来源依据；
使用价值：

杜绝LLM“幻觉”：可直接验证提取内容是否真实存在于源文本中，避免模型生成无依据的信息；
满足合规要求：医疗、法律等领域对数据溯源性要求极高，字符级定位可作为提取结果的合规佐证；
支撑人工审查：用户可快速跳转到提取内容的上下文，判断提取逻辑是否合理。

实操示例 import langextract as lx

fromlangextract.core importdata

# 定义示例与提取任务

examples = [

data.ExampleData(

text="Patient presents with fever (38.5°C) and cough.",

extractions=[data.Extraction(extraction_text="fever", extraction_class="Symptom")]

)

]

result = lx.extract(

text_or_documents="The patient has a high fever (39°C) and persistent cough.",

prompt_deion="Extract symptoms from medical text.",

examples=examples,

model_id="gemini-2.5-flash"

)

# 查看定位结果

forextraction inresult.extractions:

print(f"提取内容：{extraction.extraction_text}")

print(f"源文本起始位置：{extraction.start_char_index}")

print(f"源文本结束位置：{extraction.end_char_index}")

print(f"匹配分数：{extraction.score}")

输出示例：

提取内容：fever

源文本起始位置：18

源文本结束位置：23

匹配分数：0.98

二、强约束的结构化输出能力功能核心

普通LLM提取易出现格式混乱、字段缺失等问题，LangExtract通过“示例引导+Schema约束”双重机制，强制生成标准化、可复用的结构化结果。

技术实现：

源码core/data.py中定义了Extraction（提取结果）、ExampleData（示例数据）、AnnotatedDocument（标注文档）等标准化数据结构，从底层限定输出格式；
对Gemini等支持“受控生成”的模型，会自动传入Schema约束（如JSON Schema），强制模型按指定格式输出；
无需编写复杂解析逻辑，提取结果直接映射为Python对象，可直接遍历、筛选、存储。

核心能力：

支持多维度结构化标注：除核心提取文本外，可标注提取类别（extraction_class）、匹配分数、源文本位置等；
示例驱动的格式学习：仅需1-2个示例，模型即可理解提取规则，无需编写复杂提示词；
格式容错处理：若模型输出格式轻微偏离，内置解析器会自动修正，保证结果可用性。

使用价值：

避免格式适配成本：提取结果可直接接入数据库、BI工具、EHR系统等下游应用；
提升结果一致性：批量提取时，不同文本的输出格式完全统一，便于后续统计分析。

实操示例# 定义法律文本提取示例（多类别结构化）

legal_examples = [

data.ExampleData(

text="Contract term: Payment due within 30 days of invoice date. Party A: XYZ Corp.",

extractions=[

data.Extraction(extraction_text="30 days", extraction_class="PaymentTerm"),

data.Extraction(extraction_text="XYZ Corp", extraction_class="ContractParty"),

data.Extraction(extraction_text="invoice date", extraction_class="ReferenceDate")

]

)

]

# 提取法律合同文本

legal_text = "Agreement: Payment due within 45 days of delivery date. Party B: ABC Ltd."

legal_result = lx.extract(

text_or_documents=legal_text,

prompt_deion="Extract payment terms, contract parties and reference dates from legal text.",

examples=legal_examples,

model_id="gemini-2.5-pro"

)

# 按类别筛选结构化结果

payment_terms = [e fore inlegal_result.extractions ife.extraction_class == "PaymentTerm"]

contract_parties = [e fore inlegal_result.extractions ife.extraction_class == "ContractParty"]

print(f"付款条款：{payment_terms[0].extraction_text}")

print(f"合同主体：{contract_parties[0].extraction_text}")

输出示例：

付款条款：45 days

合同主体：ABC Ltd

三、针对长文档的极致优化功能核心

面对万字级以上的长文本（如整本书籍、医疗报告、法律合同），LangExtract解决了LLM上下文窗口有限、处理效率低、提取召回率低的问题，实现高效、高召回的长文档提取。

技术实现：

智能分块（core/chunking.py）：按LLM上下文窗口大小自动拆分长文本，同时设置chunk_overlap（分块重叠区），避免因分块割裂导致语义丢失；
并行处理：通过max_workers参数启用多进程并行处理分块文本，处理速度随进程数线性提升；
多轮提取（extraction_passes）：多轮独立提取同一文本，合并非重叠结果（首轮结果优先），大幅提升召回率；
缓冲区控制（max_char_buffer）：可自定义分块的最大字符数，平衡提取精度与效率。

核心能力：

支持直接加载URL/本地文件：无需手动下载长文本，可直接传入网页URL、本地TXT/PDF路径（内置文本加载逻辑）；
性能可量化：处理《罗密欧与朱丽叶》全文（约14万字）时，3轮提取+20进程并行，仅需数分钟完成，召回率比单轮提取提升30%以上；
资源可控：可通过max_workers限制CPU使用，避免服务器资源耗尽。

使用价值：

无需拆分长文本：告别手动拆分、逐段处理的繁琐流程；
兼顾效率与精度：并行处理提升速度，多轮提取保证不遗漏关键信息。
▲ 图片标题

实操示例# 处理长篇医疗报告（从URL加载）

long_report_url = "https://example.com/long_medical_report.txt"

long_result = lx.extract(

text_or_documents=long_report_url,

prompt_deion="Extract all symptoms, medications and diagnoses from the medical report.",

examples=medical_examples,

model_id="gemini-2.5-flash",

extraction_passes=3, # 3轮提取提升召回率

max_workers=20, # 20进程并行

chunk_overlap=200, # 分块重叠200字符，避免语义割裂

max_char_buffer=1500# 每块最大1500字符，保证提取精度

)

# 统计提取结果

symptoms = [e fore inlong_result.extractions ife.extraction_class == "Symptom"]

medications = [e fore inlong_result.extractions ife.extraction_class == "Medication"]

print(f"提取症状数量：{len(symptoms)}")

print(f"提取用药数量：{len(medications)}")

四、无门槛的交互式可视化审查功能核心

提取结果的人工审查是落地关键，LangExtract提供无需后端、可离线运行的交互式可视化功能，大幅降低审查成本。

技术实现：

源码langextract/visualize/html.py生成纯静态HTML文件，依赖原生JS/CSS实现交互，无需部署服务器；
内置高亮渲染逻辑：将提取结果按类别（extraction_class）用不同颜色高亮标注在源文本中；
筛选与导航：支持按提取类别、匹配分数筛选结果，点击结果可直接跳转到源文本对应位置。

核心能力：

多维度审查：可查看提取文本、类别、匹配分数、源文本上下文；
批量结果支持：可加载多个文档的提取结果（JSONL文件），统一审查；
跨平台兼容：生成的HTML可在任意浏览器打开，支持分享给团队成员协作审查。

使用价值：

替代人工逐行核对：可视化高亮直接定位提取内容，审查效率提升80%以上；
便于团队协作：可将HTML文件发送给非技术人员（如医生、律师）进行结果确认。

实操示例# 保存长文档提取结果

lx.io.save_annotated_documents(

[long_result],

output_name="long_medical_extraction.jsonl",

output_dir="./results"

)

# 生成交互式可视化HTML

html_content = lx.visualize("./results/long_medical_extraction.jsonl")

withopen("./results/medical_visualization.html", "w", encoding="utf-8") asf:

f.write(html_content)

打开生成的HTML文件后，可实现：

左侧筛选栏按“Symptom/Medication/Diagnosis”筛选提取结果；
右侧源文本中不同类别提取内容以不同颜色高亮；
点击筛选结果，右侧自动跳转到对应位置并高亮上下文。

五、全场景的模型兼容与扩展功能核心

LangExtract不绑定特定LLM，支持云端模型+本地开源模型的全场景适配，兼顾效率、成本与数据隐私。

技术实现：

providers/gemini.py：适配Google Gemini系列（2.5 Flash/Pro）；
providers/openai.py：适配OpenAI GPT-4o/GPT-3.5 Turbo；
providers/ollama.py：适配Ollama部署的本地模型（Gemma2、Llama 3、Mistral等）。

定义LanguageModel抽象类（core/models.py），统一模型调用接口（仅需实现generate方法）；
内置三大模型适配层：

核心能力：

无缝切换模型：仅需修改model_id或传入自定义模型对象，无需调整提取逻辑；
本地模型隐私保护：敏感文本（如医疗/法律数据）可通过Ollama调用本地模型，数据不联网；
自定义模型扩展：新增模型仅需实现LanguageModel抽象类，无需修改核心代码。

使用价值：

成本可控：简单任务用Gemini 2.5 Flash/Ollama本地模型，复杂任务用Gemini 2.5 Pro/GPT-4o；
隐私合规：敏感数据无需上传至第三方云端，满足数据本地化要求；
无供应商锁定：可根据模型效果、成本灵活切换LLM服务商。

实操示例1. 调用OpenAI GPT-4ofromlangextract.providers.openai importOpenAILanguageModel

# 配置OpenAI模型

openai_model = OpenAILanguageModel(

model_id="gpt-4o",

api_key="your-openai-api-key"

)

# 使用OpenAI模型提取

openai_result = lx.extract(

text_or_documents=legal_text,

prompt_deion="Extract contract terms from legal text.",

examples=legal_examples,

model=openai_model # 传入自定义模型对象

)

2. 调用Ollama本地Gemma2模型# 先安装Ollama并拉取模型

ollama pull gemma2:2b

# 调用本地模型（数据不联网）

ollama_result = lx.extract(

text_or_documents=medical_text,

prompt_deion="Extract symptoms from medical text.",

examples=medical_examples,

model_id="gemma2:2b",

model_url="http://localhost:11434"# Ollama默认地址

)

六、防错的提示词验证与对齐检查功能核心

提示词和示例的质量直接决定提取效果，LangExtract内置自动化的提示词验证功能，提前发现示例错误，避免提取偏差。

技术实现：

源码langextract/prompt_validation.py的validate_prompt_alignment函数，通过WordAligner检查示例中提取结果是否能在源文本中找到对应位置；
支持两种验证级别：WARNING（仅日志提示）、ERROR（抛出异常）。

核心能力：

检测示例对齐错误：如示例中提取“fever”但源文本无该词，或提取文本与源文本完全不匹配；
量化对齐质量：返回匹配分数，提示示例的可靠性；
提前规避提取偏差：在执行提取前发现示例问题，避免因示例错误导致整体提取失效。

使用价值：

降低调试成本：无需运行完整提取流程即可发现示例问题；
保证提取基线：示例的准确性是提取效果的基础，验证功能可守住这一基线。

实操示例fromlangextract importprompt_validation aspv

# 定义存在错误的示例（提取文本与源文本不匹配）

bad_examples = [

data.ExampleData(

text="Patient has cough and headache.",

extractions=[data.Extraction(extraction_text="fever", extraction_class="Symptom")]

)

]

# 验证示例对齐

alignment_report = pv.validate_prompt_alignment(

examples=bad_examples,

aligner=lx.resolver.WordAligner

)

# 处理验证结果（ERROR级别会抛出异常）

pv.handle_alignment_report(

report=alignment_report,

level=pv.PromptValidationLevel.ERROR

)

执行后会抛出异常并提示：

PromptValidati: Extraction 'fever'inexample 0 has no alignment insourcetext 'Patient has cough and headache.'

七、零适配成本的跨领域能力功能核心

LangExtract无需对LLM进行微调，仅需少量示例即可适配任意领域的提取任务，实现“开箱即用”的跨领域提取。

技术实现：

基于示例的少样本学习（Few-shot Learning）：利用LLM的上下文学习能力，通过1-2个示例让模型理解提取规则；
领域无关的核心逻辑：提取流程不依赖特定领域的词典/规则，仅通过示例定义提取目标。

核心能力：

适配周期短：新增领域提取任务仅需编写对应示例，无需开发新规则/微调模型；
覆盖全领域：医疗、法律、文学、商业、人文等领域均适用；
学习成本低：非技术人员也可通过编写示例定义提取任务。

使用价值：

降低领域迁移成本：无需为每个领域单独开发提取工具；
快速响应业务需求：业务方提出新的提取需求后，可在分钟级完成适配。

典型领域适配示例

领域	提取目标	示例编写难度	提取效果
医疗	症状、用药、诊断结果	低	高
法律	合同主体、付款条款、时效	低	高
文学	角色、地点、事件	极低	高
商业	用户评论中的产品缺陷、需求	低	中高
人文研究	历史文献中的人物、时间	极低	高

总结

LangExtract的功能与特色围绕“精准、可控、高效、灵活”四大核心展开：精准的源文本定位解决了“可验证”的问题，可控的结构化输出解决了“可复用”的问题，长文档优化解决了“高效率”的问题，多模型兼容解决了“全场景”的问题，而提示词验证、跨领域适配、可视化审查则进一步降低了使用门槛与落地成本。这些功能并非孤立存在，而是形成了“提取-验证-审查-集成”的完整闭环，使其成为非结构化文本结构化提取场景下的一站式解决方案。无论是个人开发者快速实现文本提取需求，还是企业级落地医疗、法律等合规要求高的提取场景，LangExtract都能通过其功能特性满足多样化的需求。

作者介绍Max大郭

Google 公众字符体育结果核心模型 fever 文本结构化 py text 示例

上一篇：奇瑞瑞虎 9：鲲鹏动力，智能驾驶辅助全面

下一篇：让组织AI追上物理AI，前20畅销新能源车企八成这么做

LangExtract：Google 开源的长文本结构化抽取工具

相关内容

最新资讯