博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Beam概念学习系列之PCollection数据集
阅读量:5742 次
发布时间:2019-06-18

本文共 409 字,大约阅读时间需要 1 分钟。

PCollection数据集

      PCollection是Apache Beam中数据的不可变集合可以是有限的数据集合也可以是无限的数据集合

  有限数据集,这种一般对应的是批处理,无限数据集数据持续不断的产生,只要系统不停止数据就持续产生下去,无法知道数据在什么时候结束,对应的是流处理。PCollection是将两种数据集统一的一种数据表达方式,PCollection还是一种分布式的数据集,其中的P表示数据集可以被并行处理。

 

 

      在Apache Beam中PCollection的特点:

  1. 不可变性:PCollection不能被修改
  2. 不可随机读取:PCollection只能顺序读取,且只能读取1次。
  3. 时间戳:PCollection的数据,每一条都带有时间。
本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/7609482.html,如需转载请自行联系原作者
你可能感兴趣的文章
Netty防止内存泄漏措施
查看>>
聊天宝彻底凉了,遭罗永浩抛弃,团队就地解散
查看>>
鸟哥:技术人员如何保持进步
查看>>
推荐10个CI/CD工具,用于云平台集成交付
查看>>
死月的二零一六总结
查看>>
解析 TiDB 在线数据同步工具 Syncer
查看>>
聊聊工程师的影响力
查看>>
Fake 5提供.NET Core支持
查看>>
【Leetcode】9. Palindrome Number 判断一个数字是否是回文数字
查看>>
白话解释 迭代器(ITERATOR)和生成器(GENERATOR)
查看>>
Android自定义Lint实践(一)
查看>>
Ruby的声誉(翻译,简学互动)
查看>>
Composer管理PHP依赖关系
查看>>
React.js学习笔记之JSX解读
查看>>
WebPack1.x 常用功能介绍
查看>>
终端音频播放器 MOC 源码分析
查看>>
我所了解的Libevent和SEDA架构
查看>>
在Xcode7/7.1中使用Http请求
查看>>
Socket编程问题小记
查看>>
基于Flask-Angular的项目组网架构与部署
查看>>