兼顾古籍与现代中文文本的通用层级 Schema(结构模型)


兼顾古籍与现代中文文本的通用层级 Schema(结构模型),既尊重历史文献的原生结构,又兼容现代写作与数字处理需求。该模型可用于数字人文项目、古籍数据库、NLP标注、知识图谱构建等场景。


📘 通用中文文本层级 Schema(v1.0)

核心原则

  1. “篇”为最小独立语义单元(可独立引用、标题化、主题完整)。
  2. 下层结构依文体弹性展开,不强制所有层级都存在。
  3. 区分“原生结构”与“后设分析”(如自动分段)。
  4. 支持嵌套与跨层级引用(如某句属于某段,某段属于某篇)。

层级定义(由大到小)

表格

层级名称类型是否必选说明示例
L0Work(作品)逻辑/集合可选的最高层,用于多篇合集《杜甫全集》《毛泽东选集》
L1Volume(卷)逻辑/物理按内容或时间划分的大单元《资治通鉴》卷215;期刊第45卷
L2Chapter(章 / 回 / 篇组)逻辑小说用“回”,经书用“章”,文集可用“上篇/下篇”《论语·学而第一》;《水浒传》第三回
L3TextUnit(篇)核心单元最小独立完整文本,必须存在一首诗、一篇奏表、一篇论文、一篇新闻
L4Section(节 / 片 / 段组)逻辑⚠️ 条件性仅在特定文体中存在:
• 词:上片/下片
• 现代文:节(1.1, 1.2)
• 长赋:分段标题
《水调歌头·明月几时有》上片;论文“2.1 数据来源”
L5Paragraph(段)语义⚠️ 条件性• 古文:隐性,可后设标注
• 现代文:显性结构
• 诗歌:通常无
散文中“嗟夫!”起新段;新闻导语段
L6Sentence(句)语法✅(推荐)完整语义单位,可带标点或断句“床前明月光。”
L7Word(词)语言✅(NLP场景)分词结果,支持词性、实体标注“人工智能”/NN

🧩 文体适配规则(决定哪些层级激活)

表格

文体类型激活层级(从 L3 向下)说明
古典诗歌(五言、七言)L3 → L6 → L7无段、无节;一首诗 = 一篇
词 / 骚体 / 长赋L3 → L4(片) → L6 → L7“片”作为 L4
语录体(《论语》《朱子语类》)L3(每条语录为一篇) → L6 → L7或将整章视为 L3,条目为 L5(需统一策略)
史传 / 编年体L1(卷) → L2(篇章) → L3(事件段) → L6可将“本纪”“世家”视为 L2,“事件叙述”为 L3
章回小说L2(回) → L5(段) → L6每“回”为 L2,因不可独立,L3 可省略或等于 L2
现代论文 / 新闻L3 → L4(节) → L5 → L6 → L7完整层级
社交媒体 / 碎片文本L3(单条) → L6一条微博 = 一篇

💡 建议:在数据库或 XML/TEI 标注中,未使用的层级可省略,避免空节点。


📄 示例:不同文本的结构映射

1. 李白《静夜思》

xml

编辑

1<TextUnit type="poem" title="静夜思">
2  <Sentence>床前明月光,</Sentence>
3  <Sentence>疑是地上霜。</Sentence>
4  <Sentence>举头望明月,</Sentence>
5  <Sentence>低头思故乡。</Sentence>
6</TextUnit>
  • 无 L4、L5

2. 苏轼《水调歌头》

xml

编辑

1<TextUnit type="ci" title="水调歌头·明月几时有">
2  <Section type="part" label="上片">
3    <Sentence>明月几时有?把酒问青天。</Sentence>
4    <!-- ... -->
5  </Section>
6  <Section type="part" label="下片">
7    <Sentence>转朱阁,低绮户,照无眠。</Sentence>
8    <!-- ... -->
9  </Section>
10</TextUnit>

3. 现代学术论文节选

xml

编辑

1<TextUnit type="article" title="基于BERT的古籍命名实体识别">
2  <Section label="3.2 实验设置">
3    <Paragraph>
4      <Sentence>本文采用...</Sentence>
5      <Sentence>数据来自...</Sentence>
6    </Paragraph>
7    <Paragraph>
8      <Sentence>预处理包括...</Sentence>
9    </Paragraph>
10  </Section>
11</TextUnit>

🛠 技术实现建议

  • 格式:推荐使用 TEI(Text Encoding Initiative) 或 自定义 JSON Schema
  • 字段:每个层级可包含:
    • @id(唯一标识)
    • @type(文体类型)
    • @label(标题/回目/编号)
    • @lang
    • metadata(作者、年代、出处等)
  • NLP扩展:在 Sentence 和 Word 层支持 POS、NER、依存句法等标注。

✅ 优势总结

表格

优势说明
历史兼容能准确表达《诗经》“篇”与《红楼梦》“回”的差异
现代适用支持论文、网页、社交媒体等新文体
计算友好层级清晰,便于切分、索引、向量化
弹性灵活不强制所有层级存在,避免“为了分段而分段”

以上为推演设计,实践中,最好是非弹性结构,空缺的层,可以用单一元素填充。


发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

探索未来出版

九录科技愿意通过最前沿的技术和深厚的行业理解,为您的数字业务提供架构简单但很灵活的从创作到发布的全方位支持。

本站内容部分由AI生成,仅供参考,具体业务可随时电话/微信咨询(18610359982)。