跳转至

单位:链(chain)→ 条形码(barcode)→ 受体(receptor)

第一个关键概念是数据操作的基本单位,包括:

  • 链(Chain)是一条 V(D)J 序列记录(read/contig/分子),例如带有 V(D)J 基因及其他信息(包括基因表达与免疫原性)的 TRA、TRB、IGH 或 IGL。它是最小的数据单位,是一切的基石。数据导入(ingest)后保持不变,因此你可以随时下钻到其精确的核苷酸/氨基酸序列及注释。

  • 条形码(Barcode)是一个物理容器,可包含 0、1 或多条链。

  • 单细胞:一个液滴/细胞条形码。

  • 空间转录组:一个点位(spot)条形码(可能捕获来自多个细胞的转录本)。
  • 批量测序(Bulk):不使用“barcode”这个术语,实质上把每条链都视作独立的“条形码”。

它是“存放”相关生物学数据的生物学单位,用于对相同的链进行聚合,并统计来自不同条形码的同一受体的计数。

  • 受体(Receptor)是链的逻辑分组,代表一个用于下游分析与报告的生物学受体实例。所有免疫受体库统计或受体追踪都在受体层面计算。受体由用户指定的受体模式(schema)定义,包含:

  • 受体特征:通常为 CDR3 氨基酸(AA)序列,可选地与 V 基因(以及需要时的 J 基因或长度)组合。

  • 受体链:例如单链、α+β(TCR)、重链+轻链(BCR),或其他明确定义的组合。在多链情形(如双 α)中,需要明确你的配对/合并规则。

总结:immundata存储信息,条形码把多条链打包在一起,而受体是进行受体库统计的最小单位。

术语 通俗解释 immundata 中的表示 角色
Chain(链) 来自一次 read 或 contig 的单条 V(D)J 转录本(如 TRAIGH)。 物理表 idata$annotations 中的一行;保留 locuscdr3umis/reads 及其他关键重排特征。 原始数据单位——原子级构件。
Barcode / Cell 捕获该链的液滴(10x)、点位(Visium)或孔板孔。 imd_barcode 物理集合——将共享同一捕获隔间的链分组。
Receptor(受体) 你要分析的生物学受体:来自同一细胞的一条单链 一对(αβ、重-轻)链。 虚拟表 idata$receptors;唯一 ID imd_receptor_id 逻辑单位——AIRR 统计的最小对象。
Repertoire 按样本、供体、细胞簇等分组的一组受体。 物理表 idata$repertoires;唯一 ID imd_repertoire_id;包含你选择的分组列。 聚合单位——用于比较分析的更高层级分组。