兼顾古籍与现代中文文本的通用层级 Schema(结构模型),既尊重历史文献的原生结构,又兼容现代写作与数字处理需求。该模型可用于数字人文项目、古籍数据库、NLP标注、知识图谱构建等场景。
📘 通用中文文本层级 Schema(v1.0)
核心原则
- “篇”为最小独立语义单元(可独立引用、标题化、主题完整)。
- 下层结构依文体弹性展开,不强制所有层级都存在。
- 区分“原生结构”与“后设分析”(如自动分段)。
- 支持嵌套与跨层级引用(如某句属于某段,某段属于某篇)。
层级定义(由大到小)
表格
| 层级 | 名称 | 类型 | 是否必选 | 说明 | 示例 |
|---|---|---|---|---|---|
| L0 | Work(作品) | 逻辑/集合 | ❌ | 可选的最高层,用于多篇合集 | 《杜甫全集》《毛泽东选集》 |
| L1 | Volume(卷) | 逻辑/物理 | ❌ | 按内容或时间划分的大单元 | 《资治通鉴》卷215;期刊第45卷 |
| L2 | Chapter(章 / 回 / 篇组) | 逻辑 | ❌ | 小说用“回”,经书用“章”,文集可用“上篇/下篇” | 《论语·学而第一》;《水浒传》第三回 |
| L3 | TextUnit(篇) | 核心单元 | ✅ | 最小独立完整文本,必须存在 | 一首诗、一篇奏表、一篇论文、一篇新闻 |
| L4 | Section(节 / 片 / 段组) | 逻辑 | ⚠️ 条件性 | 仅在特定文体中存在: • 词:上片/下片 • 现代文:节(1.1, 1.2) • 长赋:分段标题 | 《水调歌头·明月几时有》上片;论文“2.1 数据来源” |
| L5 | Paragraph(段) | 语义 | ⚠️ 条件性 | • 古文:隐性,可后设标注 • 现代文:显性结构 • 诗歌:通常无 | 散文中“嗟夫!”起新段;新闻导语段 |
| L6 | Sentence(句) | 语法 | ✅(推荐) | 完整语义单位,可带标点或断句 | “床前明月光。” |
| L7 | Word(词) | 语言 | ✅(NLP场景) | 分词结果,支持词性、实体标注 | “人工智能”/NN |
🧩 文体适配规则(决定哪些层级激活)
表格
| 文体类型 | 激活层级(从 L3 向下) | 说明 |
|---|---|---|
| 古典诗歌(五言、七言) | L3 → L6 → L7 | 无段、无节;一首诗 = 一篇 |
| 词 / 骚体 / 长赋 | L3 → L4(片) → L6 → L7 | “片”作为 L4 |
| 语录体(《论语》《朱子语类》) | L3(每条语录为一篇) → L6 → L7 | 或将整章视为 L3,条目为 L5(需统一策略) |
| 史传 / 编年体 | L1(卷) → L2(篇章) → L3(事件段) → L6 | 可将“本纪”“世家”视为 L2,“事件叙述”为 L3 |
| 章回小说 | L2(回) → L5(段) → L6 | 每“回”为 L2,因不可独立,L3 可省略或等于 L2 |
| 现代论文 / 新闻 | L3 → L4(节) → L5 → L6 → L7 | 完整层级 |
| 社交媒体 / 碎片文本 | L3(单条) → L6 | 一条微博 = 一篇 |
💡 建议:在数据库或 XML/TEI 标注中,未使用的层级可省略,避免空节点。
📄 示例:不同文本的结构映射
1. 李白《静夜思》
xml
编辑
1<TextUnit type="poem" title="静夜思"> 2 <Sentence>床前明月光,</Sentence> 3 <Sentence>疑是地上霜。</Sentence> 4 <Sentence>举头望明月,</Sentence> 5 <Sentence>低头思故乡。</Sentence> 6</TextUnit>
- 无 L4、L5
2. 苏轼《水调歌头》
xml
编辑
1<TextUnit type="ci" title="水调歌头·明月几时有"> 2 <Section type="part" label="上片"> 3 <Sentence>明月几时有?把酒问青天。</Sentence> 4 <!-- ... --> 5 </Section> 6 <Section type="part" label="下片"> 7 <Sentence>转朱阁,低绮户,照无眠。</Sentence> 8 <!-- ... --> 9 </Section> 10</TextUnit>
3. 现代学术论文节选
xml
编辑
1<TextUnit type="article" title="基于BERT的古籍命名实体识别"> 2 <Section label="3.2 实验设置"> 3 <Paragraph> 4 <Sentence>本文采用...</Sentence> 5 <Sentence>数据来自...</Sentence> 6 </Paragraph> 7 <Paragraph> 8 <Sentence>预处理包括...</Sentence> 9 </Paragraph> 10 </Section> 11</TextUnit>
🛠 技术实现建议
- 格式:推荐使用 TEI(Text Encoding Initiative) 或 自定义 JSON Schema
- 字段:每个层级可包含:
@id(唯一标识)@type(文体类型)@label(标题/回目/编号)@langmetadata(作者、年代、出处等)
- NLP扩展:在
Sentence和Word层支持 POS、NER、依存句法等标注。
✅ 优势总结
表格
| 优势 | 说明 |
|---|---|
| 历史兼容 | 能准确表达《诗经》“篇”与《红楼梦》“回”的差异 |
| 现代适用 | 支持论文、网页、社交媒体等新文体 |
| 计算友好 | 层级清晰,便于切分、索引、向量化 |
| 弹性灵活 | 不强制所有层级存在,避免“为了分段而分段” |
以上为推演设计,实践中,最好是非弹性结构,空缺的层,可以用单一元素填充。