兼顾古籍与现代中文文本的通用层级 Schema（结构模型）

兼顾古籍与现代中文文本的通用层级 Schema（结构模型），既尊重历史文献的原生结构，又兼容现代写作与数字处理需求。该模型可用于数字人文项目、古籍数据库、NLP标注、知识图谱构建等场景。

📘 通用中文文本层级 Schema（v1.0）

核心原则

“篇”为最小独立语义单元（可独立引用、标题化、主题完整）。
下层结构依文体弹性展开，不强制所有层级都存在。
区分“原生结构”与“后设分析”（如自动分段）。
支持嵌套与跨层级引用（如某句属于某段，某段属于某篇）。

层级定义（由大到小）

表格

层级	名称	类型	是否必选	说明	示例
L0	Work（作品）	逻辑/集合	❌	可选的最高层，用于多篇合集	《杜甫全集》《毛泽东选集》
L1	Volume（卷）	逻辑/物理	❌	按内容或时间划分的大单元	《资治通鉴》卷215；期刊第45卷
L2	Chapter（章 / 回 / 篇组）	逻辑	❌	小说用“回”，经书用“章”，文集可用“上篇/下篇”	《论语·学而第一》；《水浒传》第三回
L3	TextUnit（篇）	核心单元	✅	最小独立完整文本，必须存在	一首诗、一篇奏表、一篇论文、一篇新闻
L4	Section（节 / 片 / 段组）	逻辑	⚠️ 条件性	仅在特定文体中存在： • 词：上片/下片 • 现代文：节（1.1, 1.2） • 长赋：分段标题	《水调歌头·明月几时有》上片；论文“2.1 数据来源”
L5	Paragraph（段）	语义	⚠️ 条件性	• 古文：隐性，可后设标注 • 现代文：显性结构 • 诗歌：通常无	散文中“嗟夫！”起新段；新闻导语段
L6	Sentence（句）	语法	✅（推荐）	完整语义单位，可带标点或断句	“床前明月光。”
L7	Word（词）	语言	✅（NLP场景）	分词结果，支持词性、实体标注	“人工智能”/NN

🧩 文体适配规则（决定哪些层级激活）

表格

文体类型	激活层级（从 L3 向下）	说明
古典诗歌（五言、七言）	L3 → L6 → L7	无段、无节；一首诗 = 一篇
词 / 骚体 / 长赋	L3 → L4（片） → L6 → L7	“片”作为 L4
语录体（《论语》《朱子语类》）	L3（每条语录为一篇） → L6 → L7	或将整章视为 L3，条目为 L5（需统一策略）
史传 / 编年体	L1（卷） → L2（篇章） → L3（事件段） → L6	可将“本纪”“世家”视为 L2，“事件叙述”为 L3
章回小说	L2（回） → L5（段） → L6	每“回”为 L2，因不可独立，L3 可省略或等于 L2
现代论文 / 新闻	L3 → L4（节） → L5 → L6 → L7	完整层级
社交媒体 / 碎片文本	L3（单条） → L6	一条微博 = 一篇

💡 建议：在数据库或 XML/TEI 标注中，未使用的层级可省略，避免空节点。

📄 示例：不同文本的结构映射

1. 李白《静夜思》

xml

编辑

1<TextUnit type="poem" title="静夜思">
2  <Sentence>床前明月光，</Sentence>
3  <Sentence>疑是地上霜。</Sentence>
4  <Sentence>举头望明月，</Sentence>
5  <Sentence>低头思故乡。</Sentence>
6</TextUnit>

无 L4、L5

2. 苏轼《水调歌头》

xml

编辑

1<TextUnit type="ci" title="水调歌头·明月几时有">
2  <Section type="part" label="上片">
3    <Sentence>明月几时有？把酒问青天。</Sentence>
4    <!-- ... -->
5  </Section>
6  <Section type="part" label="下片">
7    <Sentence>转朱阁，低绮户，照无眠。</Sentence>
8    <!-- ... -->
9  </Section>
10</TextUnit>

3. 现代学术论文节选

xml

编辑

1<TextUnit type="article" title="基于BERT的古籍命名实体识别">
2  <Section label="3.2 实验设置">
3    <Paragraph>
4      <Sentence>本文采用...</Sentence>
5      <Sentence>数据来自...</Sentence>
6    </Paragraph>
7    <Paragraph>
8      <Sentence>预处理包括...</Sentence>
9    </Paragraph>
10  </Section>
11</TextUnit>

🛠 技术实现建议

格式：推荐使用 TEI（Text Encoding Initiative） 或 自定义 JSON Schema
字段：每个层级可包含：
- @id（唯一标识）
- @type（文体类型）
- @label（标题/回目/编号）
- @lang
- metadata（作者、年代、出处等）
NLP扩展：在 Sentence 和 Word 层支持 POS、NER、依存句法等标注。

✅ 优势总结

表格

优势	说明
历史兼容	能准确表达《诗经》“篇”与《红楼梦》“回”的差异
现代适用	支持论文、网页、社交媒体等新文体
计算友好	层级清晰，便于切分、索引、向量化
弹性灵活	不强制所有层级存在，避免“为了分段而分段”

以上为推演设计，实践中，最好是非弹性结构，空缺的层，可以用单一元素填充。

北京九录科技有限公司

兼顾古籍与现代中文文本的通用层级 Schema（结构模型）

📘 通用中文文本层级 Schema（v1.0）

核心原则

层级定义（由大到小）

🧩 文体适配规则（决定哪些层级激活）

📄 示例：不同文本的结构映射

1. 李白《静夜思》

2. 苏轼《水调歌头》

3. 现代学术论文节选

🛠 技术实现建议

✅ 优势总结

发表回复取消回复

探索未来出版

兼顾古籍与现代中文文本的通用层级 Schema（结构模型）

📘 通用中文文本层级 Schema（v1.0）

核心原则

层级定义（由大到小）

🧩 文体适配规则（决定哪些层级激活）

📄 示例：不同文本的结构映射

1. 李白《静夜思》

2. 苏轼《水调歌头》

3. 现代学术论文节选

🛠 技术实现建议

✅ 优势总结

发表回复 取消回复

探索未来出版

发表回复取消回复