分布式缓存的一起问题

Thursday, May 22nd, 2014 by Tim | Tags: cache, memcached

背景说明

分布式缓存中为了可用性及高性能的考虑，可以使用如下一种master/slave设计模式。

图中的proxy是逻辑的概念，可以是基于client的包装实现，也可以是独立的proxy服务，但本文大部分是指独立的服务。几个主要的问题说明如下。

为什么cache要使用两个集群((master/slave)来存放？

主要出于可用性及高性能的考虑。传统的架构使用基于一致性哈希的分布式缓存，数据只存在一份副本，在出现cache节点单点故障时，虽然可以由一致性哈希算法将请求均匀落到其他节点，但由于穿透的请求较多，仍然给数据库带来较大的访问压力。为了避免对数据穿透带来的冲击，数据使用两份副本可以避免穿透的问题。同时在数据访问较大时候，也可以更好的分担流量，避免峰值单份数据跑满对系统带来的冲击。

为什么两份副本要使用master/slave结构？

由于大型系统中通常存在多个client同时操作同一份数据，需要确保所有client对数据修改时数据的一致性。为了避免两cluster两份副本数据不一致带来的困扰，使用了一个简单的做法，在配置中人为指定一个cluster为master，所有的数据以master为准。

为什么一些场景需要使用CAS？

CAS在计算机并发领域通常指Compare-and-swap，在memcached中，也称为Check And Set. 在分布式系统中，一份数据可能同时被多个调用修改，比如微博中的@箱，一个用户同时收到多个@的情况还是比较常见，比如当原来@箱里面记录是{1，2，3}时，4和5由不同的调用来源同时到达，如果没有同步的保护，系统的数据有可能最终被写成{1,2,3,4}或{1,2,3,5}，由于memcached没有原生的list结构，list都是一个自定义的value, 则很容易出现client A覆盖了同时在写的client B的数据。因此假如两个调用方同时读到{1,2,3}时，第一个写入{1,2,3,4}会成功，后续的{1,2,3,5}CAS写入就会失败，因为此时服务器已经不是{1,2,3}了，失败的调用向服务端取回{1,2,3,4}，最终写入{1,2,3,4,5}

在master/slave场景，比起普通的memcache CAS有什么区别？

目前的做法是master cas成功之后，直接修改slave，并不同时在slave执行cas操作。由于数据存在两份副本，当数据不一致时，无法自动处理数据的不一致冲突。因此在实践上只以master操作为准。

为什么使用proxy？

使用proxy主要是出于可用性、命中率以及可运维方面的考虑
可用性与可运维：当进行服务器增容或缩容时，如果client的数量较大，如果未使用proxy模式，client所在服务器通常需要修改配置并且逐个重启。重启（系统维护）一方面带来可用性方面的问题，运维方面也较为繁琐。
命中率：如果业务场景需要较高的命中率（比如>90%），则增容或缩容就变得较为复杂，需要client配合做一些策略，比如扩容后仍然访问扩容前旧的节点的数据以保证命中率。如果用proxy模式则极大降低client的访问复杂性，将相关逻辑都封装在proxy之后。

分布式缓存的一起问题

最近某业务有一起master单点故障，导致在问题的时间段内，用户看不到最近发生变更的数据。由于在上述场景中，实现cas时候的流程如下
1) master.cas(k,v)
2) 如果1成功，slave.set(k,v)
3) 如果1失败，不执行slave.set()，直接return;

由于第三步在失败时，并不会set slave，导致数据出现一致性问题，即使slave依然可用，新的数据不会写入cache。

首先看在master failure时，为什么不切换到slave cas?
先说自动切换的问题
上文也提过，两份数据副本在出现数据不一致后，并不能自动仲裁达到最终一致性，但是指定master角色可以达到最终一致性。如果master角色可以由调用方自动切换，则会带来数据的混乱。调用方存在多个节点，至少需要统一的config server来保证切换的一致性。另外，自动切换发生后，无法达到两份数据的最终一致性。
再说由运维手工切换
由于不牵涉到代码的逻辑判断，虽然切换也会带来一些数据一致性问题，在具体场景下（比如master长久宕机）切换可以接受。

在出现上述问题后，其他一些解决方案如下。
1. proxy在master cas失败时候delete slave data
2. client在master cas失败时set slave, 并且将数据过期时间设成5分钟

上述方案很难完美，一些明显存在的问题如下
方案1：
命中率的问题。由于delete导致修改的数据迅速失效，会导致读取量的增加，在读写均密集的业务场景，可能会导致数据访问出现波动。
接口职责单一性的问题。proxy在cas调用中隐藏了删除数据的逻辑，这是一个未在正常期望范围内的额外操作，在特殊情况下，可能会导致不可预料的情况出现。(尽管在实际操作中proxy提供配置开关选项)

方案2：
依然是命中率的问题，5分钟过期延缓了过期的访问数据库的压力，但相关压力仍然会传递到数据库。

希望通过上面说明读者能理解这个场景的问题。在这个场景下，完美的方案应当如何设计？

如想及时阅读 Tim Yang 的文章，可通过页面右上方扫码订阅最新更新。

Comments

7 Comments

合页

2014-05-25 at 4:45 PM

写的很好加油
jametong

2014-05-27 at 2:45 PM

有想过，通过Cache 节点本身去做后端的Replication吗？也即类似于MySQL节点，交由MySQL自身去维护Replication，上层通过数据源来进行组合。
rj03hou

2014-05-28 at 4:36 PM

1) master.cas(k,v)
2) 如果1成功，slave.set(k,v)
3) 如果1失败，不执行slave.set()，直接return;
我觉得上面的流程没有问题，外部来确定master是否挂了，而不是在应用中确定。

或者proxy支持单位时间因为master cas失败时候delete slave data的数量，超过数量的时候报警，不再继续delete。
java源代码

2014-08-22 at 11:16 PM

标题错了吧？是一致性问题吧？
NB

2014-10-05 at 9:27 AM

有考利非memcache 来做不？
Zero

2014-10-10 at 9:45 AM

两份数据是怎么避免数据穿透的？
yangjiguo

2014-10-30 at 6:02 PM

仔细看完了,抛出一个方案讨论下.

1.主不可用的时候数据丢失问题
1.1 master不可用,slave可读不可写
问题: 如果master 不可写,马上写到redis,保证数据不丢失? 然后再补全slave?,监听到master恢复后
在异步从redis同步数据到master

2.主备切换的时机
1.0 redis 和 master 同时维护一个更新值 redis 里面采用 hset 方式 ,按照每秒分组写入
memcache 维护单一的key (但是重启后数据还是会丢失,楼主的在master cas 失败的时候删除 delete slave data,并setslave 此时必然会把get操作流向数据库,很可能雪崩
,另外主重启的时候如何现场恢复?)

3.数据更新的问题
保证key一样,有cas操作,就不会有写一致性的问题

上面有点乱:
总结一下:
1. 楼主目前的cache集群不能宕机,宕机后压力会全部分到数据库,直接雪崩
2. 可以使用redis做为缓冲带,在proxy里面做控制,当master不可用的时候写redis,当cache都
不可用的时候读写redis,数据库的压力就不存在了,等cache恢复的时候,通过redis同步到cache
3. 如果redis挂了,那重启恢复后,通过proxy校验cache中和redis的最大更新值不一致,继续同步到
cache,当同步后,首先写cache,在写redis,再写slave
4. 引申出来的问题,假设redis挂了,这个时候写不过去,还会出现不一致的问题,这个解决不了,
但是我们要保证数据不丢失
5. 那么引入消息中间件rabbitmq,采用持久化方式,写redis时候首先写mq,假设mq挂了,同步写redis
6. 如果mq和redis,cache都挂了,才会到数据库
7. 命中率的问题,这个不存在,命中率高不高和cache的数据模型有关系

后端技术 by Tim Yang

Recent Posts

Categories

Most Commented

Archives

Feeds

分布式缓存的一起问题

背景说明

为什么cache要使用两个集群((master/slave)来存放？

为什么两份副本要使用master/slave结构？

为什么一些场景需要使用CAS？

在master/slave场景，比起普通的memcache CAS有什么区别？

为什么使用proxy？

分布式缓存的一起问题

Comments

7 Comments

Leave a Comment

后端技术 by Tim Yang

Recent Posts

Categories

Most Commented

Archives

Feeds

分布式缓存的一起问题

背景说明

为什么cache要使用两个集群((master/slave)来存放？

为什么两份副本要使用master/slave结构？

为什么一些场景需要使用CAS？

在master/slave场景，比起普通的memcache CAS有什么区别？

为什么使用proxy？

分布式缓存的一起问题

Related posts:

Comments

7 Comments

Leave a Comment