本文共 409 字,大约阅读时间需要 1 分钟。
PCollection数据集
PCollection是Apache Beam中数据的不可变集合,可以是有限的数据集合也可以是无限的数据集合。
有限数据集,这种一般对应的是批处理,无限数据集数据持续不断的产生,只要系统不停止数据就持续产生下去,无法知道数据在什么时候结束,对应的是流处理。PCollection是将两种数据集统一的一种数据表达方式,PCollection还是一种分布式的数据集,其中的P表示数据集可以被并行处理。
在Apache Beam中PCollection的特点: