分布式模型与编程大纲

Posted on 2020-05-06 | In 分布式模型与编程 | 阅读数次

分布式系统

分布式系统应用

科学计算：CPU是瓶颈
数据密集：数据IO是计算过程的瓶颈
智能家居
事务处理
传感网络：扫车牌是否能进门？

纵向扩展： scalue-up （提高单台机器的处理能力）

异步通信：成批传输数据
- 将check form 从服务器端转移到客户端，可以减轻服务器端的压力，进而可以提高单台机器的处理能力。
- 可能双方的时钟频率不一致

横向扩展：scale-out （增加机器的数量）

事务处理：

考虑到并发控制，假如没有事务处理，可以会读到脏数据、丢失数据修改等等

大数据处理

大数据概念：

大量化、快速化（双十一购物）、多样化、价值化

Web1.0 与 Web2.0的区别：

前者是只有文本、图像、视频(用户不能发帖，只能看）
后者用户可以发帖，数据量更大了。
大数据由结构化（10% 在数据库中）和非结构化数据（90%）组成

分布式数据处理系统

分布式数据管理两大核心技术：

分布式事务管理：NoSQL/NewSQL
分布式数据处理：批处理/流计算

进程通信

序列化与压缩

序列化的三种途径：
- 一种持久化格式：一个对象序列化以后他的编码可以存储在磁盘上
- 通信数据格式
序列化的作用：
- 把对象变成一串字节流，是持久化的一种方式（保存在磁盘上）
序列化机制：将数据转换为连续的byte数据，并且不用担心平台移植性。
两者都是为了节省空间
序列化可理解为将一个组合办公桌（对象）按标准拆解为散件，以方便运输（网络上传输），到达目的地后再重新组装成一个整体办公桌，所以序列化的目的不是压缩，而是变成流以方便网络传输并能重新组装为对象, 后来大家又发现一张桌子有四条腿，不需要运输1111这种方式，改成1,4就可以了，这就是压缩了。

支持数据管理的底层系统

元数据管理系统：Zookeeper
资源管理系统：Yarn
分布式文件系统：HDFS

面向分析的分布式数据处理系统

批处理系统：MapReduce、Spark
流计算系统：Storm、Spark Streaming
批处理流计算一体化系统：Google Dataflow、Flink

支持领域应用的分布式数据处理系统

图数据处理系统：Hama、GraphX、Gelly
可扩展机器学习系统：Mahout、SystemML、Parameter Server、Tensorflow

分布式编程

经典问题：

单词计算

分布式并行编程：

传统并行编程：MPI:
基于消息传递的并行程序。消息传递指的是并行运行的各个进程具有自己独立的堆栈和代码段，作为互不相关的多个程序独立运行，进程之间的信息交互全然通过显示地调用通信函数来完毕。
MapReduce

分布式编程模型

MapReduce （实现<key,value>的键值对）
DAG模型
Dataflow模型（流计算和批处理的一体化）
流计算模型
图计算模型（顶点-边）
迭代模型
广播变量模型（Kmeans中的参数）

Post author: luyiqu
Post link: https://luyiqu.github.io/2020/05/06/分布式模型与编程大纲/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 3.0 unless stating additionally.

0%