分布式系统
分布式系统应用
- 科学计算:CPU是瓶颈
- 数据密集:数据IO是计算过程的瓶颈
- 智能家居
- 事务处理
- 传感网络:扫车牌是否能进门?
纵向扩展: scalue-up (提高单台机器的处理能力)
- 异步通信: 成批传输数据
- 将check form 从服务器端转移到客户端,可以减轻服务器端的压力,进而可以提高单台机器的处理能力。
- 可能双方的时钟频率不一致
横向扩展:scale-out (增加机器的数量)
事务处理:
- 考虑到并发控制,假如没有事务处理,可以会读到脏数据、丢失数据修改等等
大数据处理
大数据概念:
- 大量化、快速化(双十一购物)、多样化、价值化
Web1.0 与 Web2.0的区别:
- 前者是只有文本、图像、视频(用户不能发帖,只能看)
- 后者用户可以发帖,数据量更大了。
- 大数据由结构化(10% 在数据库中)和非结构化数据(90%)组成
分布式数据处理系统
分布式数据管理 两大核心技术:
- 分布式事务管理:NoSQL/NewSQL
- 分布式数据处理:批处理/流计算
进程通信
序列化与压缩
- 序列化的三种途径:
- 一种持久化格式:一个对象序列化以后他的编码可以存储在磁盘上
- 通信数据格式
- 序列化的作用:
- 把对象变成一串字节流,是持久化的一种方式(保存在磁盘上)
- 序列化机制:将数据转换为连续的byte数据,并且不用担心平台移植性。
- 两者都是为了节省空间
- 序列化可理解为将一个组合办公桌(对象)按标准拆解为散件,以方便运输(网络上传输),到达目的地后再重新组装成一个整体办公桌,所以序列化的目的不是压缩,而是变成 流以方便网络传输并能重新组装为对象, 后来大家又发现一张桌子有四条腿,不需要运输1111这种方式,改成1,4就可以了,这就是压缩了。
支持数据管理的底层系统
- 元数据管理系统:Zookeeper
- 资源管理系统:Yarn
- 分布式文件系统:HDFS
面向分析的分布式数据处理系统
- 批处理系统:MapReduce、Spark
- 流计算系统:Storm、Spark Streaming
- 批处理流计算一体化系统:Google Dataflow、Flink
支持领域应用的分布式数据处理系统
- 图数据处理系统:Hama、GraphX、Gelly
- 可扩展机器学习系统:Mahout、SystemML、Parameter Server、Tensorflow
分布式编程
经典问题:
- 单词计算
分布式并行编程:
- 传统并行编程:MPI:
基于消息传递的并行程序。消息传递指的是并行运行的各个进程具有自己独立的堆栈和代码段,作为互不相关的多个程序独立运行,进程之间的信息交互全然通过显示地调用通信函数来完毕。 - MapReduce
分布式编程模型
- MapReduce (实现<key,value>的键值对)
- DAG模型
- Dataflow模型(流计算和批处理的一体化)
- 流计算模型
- 图计算模型(顶点-边)
- 迭代模型
- 广播变量模型(Kmeans中的参数)