分布式模型与编程大纲

分布式系统

分布式系统应用

  • 科学计算:CPU是瓶颈
  • 数据密集:数据IO是计算过程的瓶颈
  • 智能家居
  • 事务处理
  • 传感网络:扫车牌是否能进门?

纵向扩展: scalue-up (提高单台机器的处理能力)

  • 异步通信: 成批传输数据
    • 将check form 从服务器端转移到客户端,可以减轻服务器端的压力,进而可以提高单台机器的处理能力。
    • 可能双方的时钟频率不一致

横向扩展:scale-out (增加机器的数量)

事务处理:

  • 考虑到并发控制,假如没有事务处理,可以会读到脏数据、丢失数据修改等等

大数据处理

大数据概念:

  • 大量化、快速化(双十一购物)、多样化、价值化

Web1.0 与 Web2.0的区别:

  • 前者是只有文本、图像、视频(用户不能发帖,只能看)
  • 后者用户可以发帖,数据量更大了。
  • 大数据由结构化(10% 在数据库中)和非结构化数据(90%)组成

分布式数据处理系统

分布式数据管理 两大核心技术:

  • 分布式事务管理:NoSQL/NewSQL
  • 分布式数据处理:批处理/流计算

进程通信

序列化与压缩

  • 序列化的三种途径:
    • 一种持久化格式:一个对象序列化以后他的编码可以存储在磁盘上
    • 通信数据格式
  • 序列化的作用:
    • 把对象变成一串字节流,是持久化的一种方式(保存在磁盘上)
  • 序列化机制:将数据转换为连续的byte数据,并且不用担心平台移植性。
  • 两者都是为了节省空间
  • 序列化可理解为将一个组合办公桌(对象)按标准拆解为散件,以方便运输(网络上传输),到达目的地后再重新组装成一个整体办公桌,所以序列化的目的不是压缩,而是变成 流以方便网络传输并能重新组装为对象, 后来大家又发现一张桌子有四条腿,不需要运输1111这种方式,改成1,4就可以了,这就是压缩了。

支持数据管理的底层系统

  • 元数据管理系统:Zookeeper
  • 资源管理系统:Yarn
  • 分布式文件系统:HDFS

面向分析的分布式数据处理系统

  • 批处理系统:MapReduce、Spark
  • 流计算系统:Storm、Spark Streaming
  • 批处理流计算一体化系统:Google Dataflow、Flink

支持领域应用的分布式数据处理系统

  • 图数据处理系统:Hama、GraphX、Gelly
  • 可扩展机器学习系统:Mahout、SystemML、Parameter Server、Tensorflow

分布式编程

经典问题:

  • 单词计算

分布式并行编程:

  • 传统并行编程:MPI:
    基于消息传递的并行程序。消息传递指的是并行运行的各个进程具有自己独立的堆栈和代码段,作为互不相关的多个程序独立运行,进程之间的信息交互全然通过显示地调用通信函数来完毕。
  • MapReduce

分布式编程模型

  • MapReduce (实现<key,value>的键值对)
  • DAG模型
  • Dataflow模型(流计算和批处理的一体化)
  • 流计算模型
  • 图计算模型(顶点-边)
  • 迭代模型
  • 广播变量模型(Kmeans中的参数)
0%