面向所有文字严谨的工作场景,包括但不限于直接对标法律、政务、出版、跨国商务等对文字准确性、一致性和逻辑性要求极高的专业领域。不只是“发现新知识”,而是“风控(一致性、合规性)”与“提效(术语统一、逻辑自洽)”。
基现有的 CoPaw 架构(HanLP Sidecar + Pipeline + MDXEditor),我们针对性地扩展出以下几个杀手级能力:
🛡️ 核心能力扩展:从“挖掘”转向“审校”
在严谨的文字工作中,用户最痛的点往往不是“这篇文章讲了什么”,而是“这份 200 页的合同里,甲乙方的权利义务有没有写反?”或者“这本 30 万字的书稿,前后人名和术语是不是统一的?”。
1. 全局术语与实体一致性校验(Terminologies & Entity Consistency)
- 场景: 翻译、书稿审校、合同编制。
- 实现逻辑:
- 利用 HanLP 的 NER(命名实体识别)能力,在
.knowledge中建立项目级的“术语/实体词典”。 - 在 MDXEditor 中开发一个**“一致性检查插件”**。当用户编辑文档时,插件实时扫描全文。如果发现同一个实体有多种表述(例如合同里一会写“腾讯科技”,一会写“腾讯公司”;或者翻译稿里“Neural Network”一会翻成“神经网络”一会翻成“类神经网络”),直接在编辑器里标红预警。
- 进阶: 允许用户建立“强制术语表”(Glossary),一旦正文偏离术语表,立刻提示。
- 利用 HanLP 的 NER(命名实体识别)能力,在
2. 跨文档逻辑与事实核查(Cross-document Fact Checking)
- 场景: 标书制作、大型公文写作、长篇系列小说。
- 实现逻辑:
- 利用 Pipeline 提取出的结构化信息(时间、地点、人物、金额)。
- 逻辑冲突检测: 比如在合同项目中,提取出“付款日期”和“交付日期”。如果 NLP 识别出“付款日期”早于“交付日期”(而合同条款规定是先交付后付款),系统可以提示潜在的逻辑风险。
- 人物/剧情连贯性: 在书稿审校中,如果第一章写主角是“左撇子”,第十章却写他“右手持剑”,系统可以通过跨文档的实体属性比对,发现这种“人设崩塌”的漏洞。
3. 敏感词与合规性风控(Compliance & Risk Control)
- 场景: 公文写作、对外公关稿、跨境合同。
- 实现逻辑:
- 在
.knowledge中增加rules(规则库)文件夹。 - 结合 HanLP 的句法分析和自定义的敏感词库(比如某些公文中的禁用词汇、合同中的霸王条款特征、涉外文稿中的政治敏感表述)。
- 在 MDXEditor 中实现**“合规性侧边栏”**,实时给出修改建议,而不仅仅是简单的关键词匹配,而是基于上下文的语义合规判断。
- 在
4. 辅助翻译与双语对齐(Translation & Alignment)
- 场景: 专业文献翻译、合同双语审校。
- 实现逻辑:
- 利用 MDXEditor 的特性,实现**“段落级双语对照视图”**。
- 利用 HanLP 的分词和词性标注,为译者提供“鼠标悬停即看词义/词性”的辅助功能。
- 提取源文和目标文的实体,自动检测是否有漏翻、错翻(比如源文是“甲方”,译文写成了“Party B”)。
🛠️ 架构层面的微调
为了支撑这些严谨场景,在现有的架构上做以下微调:
- 引入“规则引擎(Rule Engine)”: 在现有的 NLP Pipeline 旁边,增加一个轻量级的规则引擎。科研讲究“概率”(这个词大概率是实体),但严谨文字工作讲究“绝对”(这个词必须是甲方)。规则引擎负责处理这些硬性的逻辑约束。
- 增强
.knowledge的索引能力: 除了按文件夹落盘,建议引入一个轻量级的全文检索引擎(如Whoosh或SQLite FTS5),让用户能毫秒级地检索整个项目空间(比如几百份合同)中某个条款的所有出现位置。 - MDXEditor 的“修订模式(Track Changes)”: 严谨的文字工作往往涉及多人协作和审校。在 MDXEditor 中集成类似 Word 的“修订模式”或“批注系统”,让 AI 的预警(比如术语不一致)可以以“批注”的形式存在,由人工来决定是否采纳,而不是 AI 直接篡改原文。