多IDC的数据分布设计(一)

Tuesday, Feb 2nd, 2010 by Tim | Tags: 2PC, 3PC, consensus, paxos, Three-phase commit, Two-phase commit

上个月跟某个朋友谈及多IDC数据同时读写访问的问题(tweet)，当时觉得有不少解决方案，但觉得思路还不够清晰。最近看了Google App Engine工程师Ryan Barrett介绍GAE后端数据服务的演讲稿Transactions Across Datacenters(视频)，用Ryan的方法来分析这个问题后就豁然开朗。

按Ryan的方法，多IDC实现有以下几种思路。

一、Master/slave

这个是多机房数据访问最常用的方案，一般的需求用此方案即可。因此大家也经常提到“premature optimization is the root of all evil”。
优点：利用mysql replication即可实现，成熟稳定。
缺点：写操作存在单点故障，master坏掉之后slave不能写。另外slave的延迟也是个困扰人的小问题。

二、Multi-master

Multi-master指一个系统存在多个master, 每个master都具有read-write能力，需根据时间戳或业务逻辑合并版本。比如分布式版本管理系统git可以理解成multi-master模式。具备最终一致性。多版本数据修改可以借鉴Dynamo的vector clock等方法。

优点：解决了单点故障。
缺点：不易实现一致性，合并版本的逻辑复杂。

三、Two-phase commit(2PC)

Two-phase commit是一个比较简单的一致性算法。由于一致性算法通常用神话(如Paxos的The Part-Time Parliament论文)来比喻容易理解，下面也举个类似神话的例子。

某班要组织一个同学聚会，前提条件是所有参与者同意则活动举行，任意一人拒绝则活动取消。用2PC算法来执行过程如下

Phase 1

Prepare: 组织者(coordinator)打电话给所有参与者(participant) ，同时告知参与者列表。
Proposal: 提出周六2pm-5pm举办活动。
Vote: participant需vote结果给coordinator：accept or reject。
Block: 如果accept, participant锁住周六2pm-5pm的时间，不再接受其他请求。

Phase 2

Commit: 如果所有参与者都同意，组织者coodinator通知所有参与者commit, 否则通知abort，participant解除锁定。

Failure 典型失败情况分析

Participant failure:
任一参与者无响应，coordinator直接执行abort
Coordinator failure:
Takeover: 如果participant一段时间没收到cooridnator确认(commit/abort)，则认为coordinator不在了。这时候可自动成为Coordinator备份(watchdog)
Query: watchdog根据phase 1接收的participant列表发起query
Vote: 所有participant回复vote结果给watchdog, accept or reject
Commit: 如果所有都同意，则commit, 否则abort。

优点：实现简单。
缺点：所有参与者需要阻塞(block)，throughput低；无容错机制，一节点失败则整个事务失败。

四、Three-phase commit (3PC)

Three-phase commit是一个2PC的改进版。2PC有一些很明显的缺点，比如在coordinator做出commit决策并开始发送commit之后，某个participant突然crash，这时候没法abort transaction, 这时候集群内实际上就存在不一致的情况，crash恢复后的节点跟其他节点数据是不同的。因此3PC将2PC的commit的过程1分为2,分成preCommit及commit, 如图。

(图片来源：http://en.wikipedia.org/wiki/File:Three-phase_commit_diagram.png)

从图来看，cohorts(participant)收到preCommit之后，如果没收到commit, 默认也执行commit, 即图上的timeout cause commit。

如果coodinator发送了一半preCommit crash, watchdog接管之后通过query, 如果有任一节点收到commit, 或者全部节点收到preCommit, 则可继续commit, 否则abort。

优点：允许发生单点故障后继续达成一致。
缺点：网络分离问题，比如preCommit消息发送后突然两个机房断开，这时候coodinator所在机房会abort, 另外剩余replicas机房会commit。

五、Paxos

Google Chubby的作者Mike Burrows说过， “there is only one consensus protocol, and that’s Paxos” – all other approaches are just broken versions of Paxos. 意即“世上只有一种一致性算法，那就是Paxos”，所有其他一致性算法都是Paxos算法的不完整版。相比2PC/3PC, Paxos算法的改进

P1a. 每次Paxos实例执行都分配一个编号，编号需要递增，每个replica不接受比当前最大编号小的提案
P2. 一旦一个 value v 被replica通过，那么之后任何再批准的 value 必须是 v，即没有拜占庭将军(Byzantine)问题。拿上面请客的比喻来说，就是一个参与者一旦accept周六2pm-5pm的proposal, 就不能改变主意。以后不管谁来问都是accept这个value。
一个proposal只需要多数派同意即可通过。因此比2PC/3PC更灵活，在一个2f+1个节点的集群中，允许有f个节点不可用。

另外Paxos还有很多约束的细节，特别是Google的chubby从工程实现的角度将Paxos的细节补充得非常完整。比如如何避免Byzantine问题，由于节点的持久存储可能会发生故障，Byzantine问题会导致Paxos算法P2约束失效。

以上几种方式原理比较如下

(图片来源：http://snarfed.org/space/transactions_across_datacenters_io.html)

后文会继续比较实践环境选取何种策略合适。

（PS: 写完后在Google Reader上发现本文跟王建硕最近发表的《关于两个机房的讨论》文章有点类似，特别是本文一、二方式。不过他的文章偏MySQL的实现，我的重点是一致性算法，大家可以有选择性的阅读。）

如想及时阅读 Tim Yang 的文章，可通过页面右上方扫码订阅最新更新。

Comments

18 Comments

Yuheng

2010-02-02 at 10:06 PM

我怎么感觉 google 的这个 presentation 是准备发 spanner paper 的前兆…
网站全镜像设计方案之一场景与需求 | Thought Tau

2010-02-03 at 11:37 PM

[…] 1. Ryan Barrett @ Transactions Across Datacenters 2. Tim @ 多IDC的数据分布设计 […]
shadow

2010-02-04 at 10:14 AM

我写的可以跨数据中心的文件系统，欢迎讨论.

http://code.google.com/p/shadow-file-system/
xLight

2010-02-04 at 1:34 PM

@shadow
本想关注一下，发现svn log 都是空的，失望。失去兴趣
Tim

2010-02-04 at 2:11 PM

sfs 源代码看似不少了，几千行。可能文档还需要补充吧。
shadow

2010-02-05 at 9:24 AM

@xLight ，　不好意思，　一开始代码没有使用google的SVN服务来管理，一平股脑IMPORT进来的时候，也没有多写SVN COMMIT LOG了．

我会尽量补充文档，　希望大家可以看得懂SFS的工作原理．

我的twitter: http://twitter.com/cloudshadow1 欢迎大家在TWITTER上向我发消息
NoSQL数据库知识图 | Jerry Mouse

2010-02-13 at 12:07 PM

[…] 1.3.2 多IDC的数据分布设计 […]
网站全镜像设计方案之一场景与需求 | Pampas Platform - 平台技术部博客

2010-03-07 at 1:23 AM

[…] Tim @ 多IDC的数据分布设计 […]
多IDC的数据分布设计(二) – Tim[后端技术]

2010-03-25 at 2:18 AM

[…] Email: Similar Posts多IDC的数据分布设计(一) […]
Gary

2010-06-15 at 1:56 PM

关于多主.
1.通过F5 或者haproxy进行调度或许可行.
2.参考mysql的Global Transaction ID .
goubao

2011-04-06 at 6:11 PM

sfs的作者，代码写的不错，挺清楚的，比TFS代码写的好看，性能要是在考虑一下就更完美了
BigTable和Dynamo | In the Milky way

2011-05-30 at 6:56 PM

[…] 接着是Tim后端技术的两篇：多IDC的数据分布设计(一) 多IDC的数据分布设计(二) […]
lisafang

2011-11-14 at 5:38 PM

@shadow,Tim,others.
混乱了一个概念，搞不清楚，分布式文件系统分布式数据存储系统实质性区别是什么？
多IDC的数据分布设计(二) – 马开东博客

2014-06-03 at 4:45 AM

[…] 在前文《多IDC的数据分布设计(一)》中介绍了多IDC数据一致性的几种实现原理，遗憾的是，目前虽然有不少分布式产品，但几乎都没有开源的产品专门针对IDC来优化。本文从实践的角度分析各种方法优缺点。 […]
分布式系统常用思想和技术总结 (入门很清楚) - 莹莹之色

2018-02-28 at 2:27 AM

[…] 多IDC的数据分布设计(一) […]
2PC之踵？是时候升级二阶段提交协议了 – 后端技术 by Tim Yang

2019-01-28 at 12:14 PM

[…] 感谢阅读这篇文章的读者，能看到这篇文章，也许是通过RSS订阅，也许是通过搜索引擎调挑来的。过去很长时间没有更新，大部分随想都发表在微博，由于发的内容夹杂很多碎碎念，大家也不用专门去拜访。在2010年时候，曾经写过一篇多IDC的数据分布设计的文章提到过2PC，关于2PC最近在Hackernews上又有很多讨论，主要由下面这篇文章引起的，因此即兴作了翻译，供大家参阅。 […]
go now

2021-01-21 at 5:46 PM

Thank you for posting this. This was quite informative. I am just starting to get the hang of multi-IDC data distribution. I have found these step by step procedure to be quite helpful.
https://hideonline.io/

2021-01-21 at 5:53 PM

This actually makes sense. I will definitely test it out.

后端技术 by Tim Yang

Recent Posts

Categories

Most Commented

Archives

Feeds