I. 绪论:项目背景、OSF价值与合规基线确立
1.1 项目背景与目标定位
预印本平台作为加速学术成果交流和提高研究透明度的关键基础设施,在中国科研生态系统中占据了战略地位。国内已存在按国际通行模式规范运营的预印本平台(例如 ChinaXiv),该平台提供中英文论文提交、检索、评论和快速发布登记等服务功能,以开放获取的方式促进科学交流 。
引入开放科学框架(Open Science Framework, OSF)的价值在于,该平台由开放科学中心(COS)提供,是一个免费、开源的项目管理工具 。OSF具备丰富的功能集,支持研究人员在整个项目生命周期中进行高效、有组织的管理 。其核心能力包括:提供项目仪表盘(将所有研究和数据集中管理)、强大的版本控制、详细的项目日志、以及预印本和预注册功能 。借鉴OSF的成熟经验和技术架构,能够有效提升学科领域预印本平台的组织化和国际化水平。
然而,任何国际技术框架在中华人民共和国境内的落地和运营,均必须以遵守中国各项强制性法律法规为最高优先级。因此,本项目需要确立一个合规基线,确保平台在利用OSF开放科学优势的同时,完全符合中国关于网络出版服务、数据安全、网络内容管理及跨境数据传输的各项要求。
1.2 OSF框架的技术基础与许可分析
OSF Preprints 服务是基于核心 OSF 平台构建的,旨在促进跨学科的学术交流新模式,提高学术成果的可及性、及时性和透明度 。该平台通过上传文件和添加关键元数据,实现研究共享,并集成了 OSF 的项目基础设施,允许研究人员附加补充数据、材料和代码 。
从技术许可层面看,OSF代码库采用了LGPL和MIT许可证 。LGPL(GNU Lesser General Public License)允许对内容进行复制、分发和修改,但要求任何修改版本必须免费授权并遵循LGPL。MIT许可证则更为灵活,允许分发或创建修改版本,但需保留原始版权声明 。
这种开源许可证的战略意义在于,它为规避中国对外资从事网络出版服务的严格管制提供了技术跳板。根据相关规定,外资机构或中外合资机构被禁止提供网络出版服务 。若采用专有商业软件,外方将控制核心知识产权。而OSF的LGPL许可允许本地机构获取、修改和分发代码。这使得本地运营机构可以建立一个独立的、100%内资拥有的代码分支和运营实体,从技术上保障了软件主权和代码控制权,从而满足网络出版服务对主体资格的严格要求。
1.3 中国网络出版与数据安全法律框架概要
在中国建设和运营学科预印本平台,需全面遵循由多部法律法规构成的复杂合规体系,主要包括:
- 《网络安全法》及《数据安全法》: 确立了数据分类分级保护制度 ,对核心数据、重要数据实行严格管理,并对关键信息基础设施运营者(CIIO)和重要数据的跨境传输提出了强制性安全评估要求 。
- 《个人信息保护法》: 对个人信息的收集、使用、存储和跨境传输建立了严格的保护框架。
- 《网络出版服务管理规定》: 对在中国境内从事网络出版活动的主体、资质、内容审核和年度核验提出了明确的行政许可要求 。
平台落地改造的核心工作,即是将OSF的开放技术架构与上述中国强制性监管要求进行系统性的对标和融合。
II. 运营主体合规与网络出版许可适配:法律准入门槛与运营成本
2.1 运营主体与资质限制:外资与许可审查
在中国提供预印本平台服务,本质上属于提供“网络出版服务”。根据中国法规,任何外资单位和中外合资单位都不得从事网络出版服务 。因此,用于建设和运营OSF本地化预印本平台的机构,必须是符合规定的内资单位。
主体确定至关重要。鉴于学科预印本平台的定位及其战略意义,运营主体通常需要是具备政府背景或行业权威性的机构,例如国家科学数据中心、大型研究院所或教育部直属高校,以确保获得必要的主管和主办单位支持。
2.2 《网络出版服务许可证》的硬性要求与合规成本
国家对电子出版物出版活动实行许可制度,未经许可,任何单位和个人不得从事电子出版物的出版活动 。根据《电子出版物出版管理规定》,设立电子出版物出版单位需要满足一系列硬性要求,包括:
- 注册资本: 200万元人民币以上 。
- 工作场所: 适应业务范围需要的设备和工作场所,固定工作场所面积不得少于200平方米 。
- 专业人员: 拥有适应业务范围需要的组织机构,以及2人以上具有中级以上出版专业职业资格的人员 。
这些对物理条件和资本的要求,使得将项目性质从“IT建设”转变为**“机构运营”。虽然OSF的核心代码是免费开源的 ,但在中国落地所需的网络出版服务许可(NPL)资质,意味着运营方必须承担高昂的行政和人力资本投入。这一事实明确表明,该平台必须是一个有国家或学科战略意义**的、能够获得官方授权和长期财政支持的项目,而非简单的技术部署。获得许可后,运营单位还需要应对省级行政部门的年度核验,确保内部管理制度健全,未发生侵犯著作权或违反出版法规的情况 。
2.3 内容审核机制的本地化与责任制
内容安全是中国网络出版服务的核心要求。预印本平台必须建立符合中国内容审查标准的行政管理审核机制。
OSF Preprints 的现有模式是在社区运行的服务器上,通过预审核策略运作,即投稿在审核员接受或拒绝之前处于私密的“待审”状态 。本地化平台必须严格采纳并强化这一“先审后发”流程,并在技术上保证:
- 所有提交的稿件(包括论文本身及补充文件)在正式发布前,必须进入由专业人员或合规AI系统管理的审核队列。
- 审核通过后,稿件方可获得DOI和持久URL ,并向公众开放。
- 平台必须有完善的内部管理,能够有效跟踪内容状态,并记录审核日志,以应对行政部门对出版物内容的监督管理 。
III. 数据安全与跨境流动合规:科学数据治理的核心挑战
3.1 科学数据分类分级体系的强制应用
依据《数据安全法》的规定,国家建立数据分类分级保护制度 。对于科学研究领域,平台必须全面实施《科学数据安全分类分级指南》等国家标准,这些标准旨在规范科学数据的管理与保护,确保在保障安全的基础上最大程度提升开放共享水平 。
数据分类在预印本中的实施是关键:
- 数据资产识别: 平台处理的数据包括预印本稿件、补充材料(如研究数据、实验协议、代码 )、以及用户元数据(如ORCID iD、机构ROR、评论内容 )。
- 重要数据识别: 运营方必须在投稿流程中嵌入分类分级标签,根据数据的敏感程度、对国家安全和公共利益的潜在危害程度,识别其中是否包含“重要数据” 。重要数据是指关系国家安全、国民经济命脉、重要民生、重大公共利益等数据 。虽然《指南》排除了涉及国家秘密的数据,但对于高价值、未公开或具有潜在军事/经济影响力的科学数据仍需审慎评估 。
- 重要数据备案: 数据处理者一旦识别出内部的重要数据目录,必须在15个工作日内向设区的市级网信部门备案,备案内容包括数据处理的目的、规模、方式、范围等信息 。
3.2 数据本地化存储与OSF架构的调整
中国法律对数据本地化存储有刚性要求:所有在境内运营中收集和产生的个人信息和重要数据必须存储在中华人民共和国境内。
OSF的存储组件必须进行深度改造:
- 核心存储替换: OSF提供了原生存储(限制为单个文件5GB,公共项目50GB)以及连接外部云存储的Add-ons功能 。这些存储功能必须被强制替换或封装,确保所有预印本稿件、数据集和用户数据流向本地服务器,并符合境内数据加密和备份要求。
- Add-ons控制: 必须严格审查和控制可能连接境外服务的Add-ons。例如,如果研究人员试图使用Add-ons连接到境外的云代码库或数据仓库 ,该操作必须经过数据出境安全审计,或默认禁用,优先引导用户采用国产或本地化的替代方案。
3.3 跨境数据传输(CBT)风险评估与豁免策略
预印本平台的服务特性决定了其难以完全避免数据跨境传输(Cross-Border Transfer, CBT)的需求,特别是为了实现全球学术交流和引用发现。
尽管《促进和规范数据跨境流动规定》第三条为学术合作提供了豁免,即国际贸易、跨境运输、学术合作等活动中向境外提供的数据,如不包含个人信息或重要数据,则免予申报数据出境安全评估、订立标准合同或通过保护认证 。
合规风险推演: 预印本平台必须处理用户的身份标识(ORCID iD、机构信息)和其在平台的行为数据(评论、上传记录)。这些都属于个人信息(PII)。如果平台收集和传输的个人信息存量达到或超过10万人的阈值(非CIIO)或者包含敏感个人信息,即会触发强制安全评估、标准合同或认证要求 。考虑到学科平台的规模,达到这一阈值的可能性很高。
全球发现机制与国内安全要求的根本冲突:OSF Preprints的核心价值在于“改进可发现性” ,依赖于向Crossref、DataCite等国际机构传输元数据,用于注册DOI和全球索引 。这一元数据的传输,如果包含被认定为“重要数据”的科研成果信息,或涉及超过阈值的PII,则构成CBT。该传输行为必须接受严格的安全评估 。
本地平台必须建立出境数据审计防火墙。平台应将DOI注册、国际索引等功能,限制为仅传输经过严格脱敏和分类审查的公共元数据,例如仅传输论文标题、摘要和匿名化的作者名称,而排除重要数据的详细内容或未脱敏的PII。
以下表格详述了平台关键数据类型在跨境传输时的合规要求:
Table 1: 关键数据类型与跨境数据传输(CBT)合规要求对比
| 数据类型 (Data Type) | 预印本平台常见示例 (Preprint Platform Examples) | 涉及法规风险 (Regulatory Risk Area) | 合规路径 (Compliance Path) |
| 核心数据 (Core Data) | 涉及国家战略、核心技术、重大敏感未公开科研成果 | 国家安全、数据本地化 | 严格禁止出境;境内最高等级保护 |
| 重要数据 (Important Data) | 涉及重大公共利益、未公开高价值的科学数据/成果 | 数据出境安全评估;备案要求 | 强制安全评估 ;境内存储和备案 |
| 个人信息 (PII) 存量 ≥ 10万人或含敏感信息 | 用户的实名注册信息、评论区交流内容、ORCID iD | 个人信息保护;CBT高风险 | 强制安全评估/标准合同/认证 |
| 学术合作豁免数据(不含 PII/重要数据) | 论文标题、摘要、作者公开姓名(非ID)、公开链接 | 跨境数据流动 | 豁免申报 (免评估) |
| 一般数据 (General Data) | 已公开且无敏感信息的论文全文、通用协议 | 无特殊限制 | 法律允许下自由流动 |
IV. OSF平台技术架构的本地化工程:关键组件替换与集成
基于上述法律要求,对OSF科学出版框架进行本地化落地的改造,需要深入到代码层,对核心功能组件进行替换和集成。
4.1 身份认证与用户管理系统改造
OSF通过收集ORCID iDs和机构ROR标识来识别用户和贡献者 。然而,中国法规对网络用户实名制有严格要求。
- 国内实名制集成: 必须替换或封装OSF原生的用户认证系统,集成国内机构统一认证机制(如中国科学院文献情报中心 ChinaXiv 模式中使用的院邮箱认证 )或国家级别的科研人员身份验证系统。
- 国际身份标识处理策略: OSF为所有对象使用全局唯一标识符(GUIDs),这可作为内部对象标识保留 。但ORCID/ROR的收集和跨境验证过程必须谨慎处理。应将其降级为辅助信息,并确保用户个人信息和身份验证的核心逻辑全部在境内完成。
4.2 元数据标准与检索发现机制适配
为确保本地预印本平台能够高效融入国家科技文献检索体系,元数据必须进行本地化适配。
- 元数据规范: 平台输出的元数据格式需适配国内学术数据库和信息机构的要求,例如参考国内已发布的标准文献元数据规范 ,以确保与国内CNKI等主要检索平台的兼容性。
- 持久链接与引用: 必须确保预印本获得持久的URL和DOI,OSF支持DataCite和Crossref注册DOI 。但如第 III 节所述,DOI注册过程涉及元数据出境,必须通过合规的CBT路径,由本地机构作为代理,对出境数据进行严格审查。
4.3 内容审核与项目组件定制化
OSF的开放和模块化设计为定制化内容管理提供了基础。OSF允许通过添加组件或文件夹来组织项目,并利用项目Wiki和日志来记录流程 。
- 定制化的预审核流程: 利用OSF的灵活架构 ,必须定制一个强制性的工作流,确保所有提交(包括论文稿件、数据、协议 )在被赋予DOI并公开可读之前,经过人工审核队列。这种定制化的流程必须满足行政监管对内容安全和质量控制的要求。
- 可审计的项目管理: 平台应充分利用OSF的版本控制和项目日志功能 ,记录所有内容修改、审核意见和发布历史。这不仅有助于科研透明度,也为行政监管和合规审计提供了完整的追溯链条。
V. 综合风险评估与实施路线图
OSF框架在中国落地的本质是利用其开源代码基础建立一个具有中国特色的、学科领域的科研信息基础设施,而非简单的“套牌”服务 。平台必须具备独立的数据主权和内容控制能力,才能在法律框架下可持续运营。
5.1 合规风险优先级矩阵
鉴于中国法律体系的刚性要求,合规风险可分为以下优先级:
- P1(极高优先级): 直接影响平台的合法性和运营许可。包括获得《网络出版服务许可证》、确保所有重要数据和个人信息在境内本地化存储,以及对任何涉及境外传输的数据流(特别是DOI元数据注册)进行严格的安全控制。
- P2(高优先级): 影响平台运营效率和在国内科研生态中的集成度。包括身份认证系统的国内实名制集成、元数据标准的适配。
- P3(中优先级): 影响用户体验和内部管理,如项目分析数据处理、内部管理流程的审计记录。
以下表格总结了OSF核心功能与中国本地化适配改造需求清单:
Table 2: OSF核心功能与中国本地化适配改造需求清单
| OSF 核心功能 (OSF Core Component) | 功能描述 (Description) | 合规驱动因素 (Compliance Driver) | 改造内容 (Adaptation Requirement) | 改造优先级 (Priority) |
| 文件存储 (Files/Storage) | 存储稿件、数据集、项目文件 | 《数据安全法》/ 数据本地化 | 强制替换为境内云或私有服务器存储;所有数据加密传输/存储。 | P1 (极高) |
| 身份管理 (User Identity/ORCID) | 用户注册、登录、贡献者识别 | 网络实名制/合规审计 | 封装或替换为国内认证系统;ORCID仅作为非必要辅助信息 。 | P2 (高) |
| 扩展与插件 (Add-ons) | 集成第三方服务(如境外存储/代码库) | 跨境数据传输风险 (CBT) | 严格审查涉及数据流出的插件;默认禁用所有境外Add-ons,优先采用国产替代。 | P1 (极高) |
| 预印本审核工作流 (Preprint Workflow) | 稿件提交、预审核、发布 | 《网络出版服务管理规定》/ 内容安全 | 强制实施机构驱动的“先审后发”流程,确保所有提交稿件在发布前满足行政审查要求。 | P1 (极高) |
| DOI/元数据注册 | 引用和发现机制 (Crossref/DataCite) | CBT与重要数据出境风险 | 建立元数据审查机制,确保出境元数据不包含重要数据;考虑设立本地化的DOI注册代理服务。 | P2 (高) |
| 项目分析 (Project Analytics) | 访问和使用统计 | 《个人信息保护法》 | 确保用户访问日志等个人信息相关数据仅在境内处理和存储,符合PII保护要求。 | P3 (中) |
5.2 实施路线图:三阶段部署策略
项目实施应遵循循序渐进的阶段性部署策略,以确保法律合规优先于技术部署。
阶段一:法律筹备与实体设立 (12-18个月)
- 主体确定: 确定符合条件(如政府支持的内资科研机构)的运营主体。
- 资金和场所到位: 满足注册资本200万元以上、工作场所200平方米以上的要求 。
- 资质申请: 申请并获得《网络出版服务许可证》。
阶段二:核心技术改造与本地化 (18-24个月)
- 代码分叉与存储本地化: 完成OSF核心代码的分叉,建立独立的、完全受控的代码分支。禁用或替换所有外部/境外存储集成,将所有数据(包括预印本、补充文件、PII)迁移至境内服务器。
- 身份系统集成: 完成国内实名认证系统的集成。
- 工作流定制: 实施强制的“先审后发”内容审核工作流和数据分类分级标签系统。
阶段三:试运行与备案审计 (6个月)
- 数据分类分级实施: 平台上线试运行,并依据《科学数据安全分类分级指南》对数据进行实际分类。
- 重要数据备案: 运营单位向市级网信部门备案重要数据目录和处理活动 。
- 建立合规审计机制: 建立年度合规审计流程,特别是针对跨境元数据传输的审计,确保其符合豁免或已通过安全评估。
VI. 结论
将OSF科学出版框架在中国落地建设学科领域级别的预印本平台,是一个涉及法律、行政许可、数据安全和复杂技术改造的系统工程。项目的成功取决于对中国法律框架的深刻理解和严格遵循。
核心结论是,技术开放性(OSF的开源许可)为规避网络出版服务中对外资实体的限制提供了基础,但同时也必须承担起作为境内网络出版服务提供者的全部法律责任,特别是关于内容安全和数据主权的要求。
这意味着本地化平台不能仅作为OSF的镜像或前端,而必须成为一个具备独立数据存储、独立用户管理、以及独立内容审查能力的实体。最高风险点集中在网络出版许可的获取(运营主体和资本要求)以及跨境数据传输的控制(元数据出境与重要数据/PII的界定)。只有在完成了这些基础法律和架构改造后,该平台才能在中国科研生态中发挥其加速学术交流的战略价值,并实现可持续、合规的运营。