• Feeds

  • 微博分布式存储作业实现方法

    可能通过「高可用架构」听说过在微博的系统中,单张 MySQL 在线业务表 60 亿条数据的场景。很多关注互联网架构的工程师也非常关注如何如何设计类似系统。下面是一道微博新兵训练营的分布式存储课堂练习,要设计合格才能上岗。

    关注为什么超长列表数据的翻页技术实现复杂的读者请直接参看文末链接。

    feeds2

    考虑到网上有很多架构师也在讨论,补充题目一些说明如下。

    1、访问场景

    由于上面题目的应用场景,用户一般情况下,主要查看用户查看自己收到的最新的微博,以及某个特定用户 profile 的所有微博。

    • 收到的微博,考虑微博以拉为主的模式,则需要访问关注用户最近 n 条最新的微博。
    • 用户 profile,需要访问用户历史上所有发表的微博,而且支持分页查看,可以直接跳转到某一页或者某个时间段,因此需要适当考虑分页的效率(可参考扩展阅读)。

    访问特征

    • 从上面描述以及社交网络的用户访问特点来看,用户大部分情况( > 90% )是访问最近 7 天的数据。

    不需要考虑的点

    • 此题主要是存储层的设计,因此不需要考虑缓存如何设计。
    • 由于微博是异步写入的,在某种程度可以起到错峰作用,所以作业暂时不需要考虑写入的峰值。
    • 不需要考虑 id 如何产生,假定已经有发号服务。
    • 不需要考虑用户收到的微博怎么聚合,那个是更上层服务层的职责。

    2、设计需要考虑的点

    Scale-out 扩展性

    • 将数据拆分到多个独立的单元存储
    • 可以在适当时机进一步拆分,拆分时候需要继续提供在线访问
    • 存储在廉价硬件上,考虑到数据规模比较大,需要适当考虑方案的整体成本,因此不要假定默认全部使用 SSD 存储。

    Cost 成本

    • 不同访问级别的数据存储在不同访问速度(成本)的硬件上。

    High availability 高可用,以及 Reliability 可靠性 – 复制

    在当前场景下,主要通过 MySQL replication 来解决可用性、以及分担读的请求。

    3、Sharding 策略

    Shard 常用策略

    range based:根据用户 uid 来分布,相邻 uid 的数据保存在一起。
    hash based:根据某个 hash 函数,将一个用户 uid 的数据保存在指定的分片。

    Re-Sharding 拆分设计
    当数据持续增长,原先存储的数据(或者访问量)超过当前节点的容量上限,则需要对节点进行进一步拆分。

    feeds3

    如何确定shard数量

    db buffer > hot data

    容量规划

    • 预规划: 容纳未来一段时间的数据
    • 2 的指数倍: shard 数量变更简单

    Tradeoff

    • 分片多:影响 IO 效率;
    • 分片少:扩容频繁、复杂

    4、部分投稿案例

    案例一:使用 user id range 作为分片

    case1

    案例二:使用user id hash作为分片

    case2

     

    方案三 (via 张亮)
    历史数据:
    1. 每半年根据日期分库,如:2015.01-2015.06为一个库。每天增加1亿数据,半年180亿,约为0.72T数据,可以保留在1T的磁盘中。
    2. 根据 uid 取模分库(表),便于查询和分散数据。

    当前 n 日数据:
    1. 暂定n为10,存储10亿数据。
    2. 根据uid + 权重的hash算法分库。权重可以根据每个uid的微博id数量,粉丝数等指标离线计算。

    hash算法需保证:
    1. 同一uid需落在一个库。
    2. 权重接近的用户尽量均匀的落在不同库。
    3. 为了应对突然发生的事件导致访问量激增,需要考虑2级甚至3级分片,而不宜直接做re-sharding导致数据迁移。多级分片可考虑读取一个标记,放在zk中。根据标记确定分片的hash算法加入小时等维度。

    查询索引:
    1. 增加发帖索引字段,记录每个用户的每个帖子的索引。
    2. 增加发帖总数统计表,以用户为维度,每个用户发一次贴则发帖总数++。
    3. 增加二级索引表,记录每个用户,每次分片库的发帖索引。如:uid 1的用户,在2015年第一帖是该用户发帖的总数的第10贴,2015年最后一贴是该用户发帖总数的第50贴。
    4. 分页查询使用二级索引表,先查到该查哪个真实库(可能是多个),再到真实库中获取数据。

    总结:
    1. 通过灵活的运用时间维度分片,免去因uid分片数量不足导致的大规模迁移,使用外部flag灵活的控制分片策略。而且用时间维度分片更易做到冷热分离。
    分片逻辑可以灵活到,zk中记录时间段,某个时间段内,按月分,某个时间段,按年分,之类。
    2. 通过离线计算权重的方式均匀分散数据访问。权重周期性调整,对于调整权重的用户,需要重点考虑当前n日数据的数据迁移方案。但由于调整权重的用户属于少量,所以迁移应该数据变动较小。历史数据不需权重概念,无需数据迁移。
    3. 查询使用二级索引。使用修改btree结构去掉二级索引能有效减少数据量,但实现难度较大,可以在之后的局部优化中实现,对总体数据库结构影响不大。
    4. 将前n日数据和当天数据整合在一起,之前对微博的场景理解不深,以为有首屏显示这样的概念。

     

    5、扩展阅读

    关于分页:
    为什么超长列表数据的翻页技术实现复杂
    为什么超长列表数据的翻页技术实现复杂(二)

    从硅谷之谜看工程师价值

    上文为什么我认为架构师需要坚持写代码发出后,看到一个朋友在网上分享了他最近的变化,经过深思熟虑,这位朋友已经离职放弃了原来舒适但是不太需要技术驱动的位置,去重新寻找让自己更有激情、能更好体现技术价值的环境及平台。

    最近阅读的《硅谷之谜》中,吴军也将工程师分成五个等级

    第五等工程师 独立完成任务
    第四等工程师 领导产品
    第三等工程师 行业最优
    第二等工程师 改变世界
    第一等工程师 开创行业

    这跟上文提到的架构师的分类方法比较类似。第五等工程师是指能够独立完成功能模块的人,第四等需要具有产品的意识以及能够带领及组织公司资源完成某项产品的开发。第五等和第四等其实都任务导向型。而更高的几种类型则需要善用技术及平台的力量。

    第三等工程师可以做出行业最好的产品,吴军讲到这类人与第二类的差异是这一类人需要“悟性”,当然也需要后天因素,比如处于一个上升平台的舞台上。

    即使一个人再聪明,基础再好,也需要在工程上花足够的时间才能达到这个水平,一个年轻人工作四五年就开始做行政管理工作,基本就和这个水平无缘了。

    第二等及第一等则是能充分利用技术力量改变世界的人,吴军更多的是从产品及结果导向来看归类这两类人,比如 iPhone 总设计师、爱迪生等人。

    硅谷的介绍虽然过度开采,但在工程师眼里却一直充满着永久的好奇与热情。每年都有大量技术从业人员去硅谷游学研修,了解地球另外一边的一群人,是通过怎么样的组织方式,利用技术创新来改变世界。

    因此可以通过吴军在《硅谷之谜》中的角度,来了解硅谷的工程师是如何样通过技术来体现自己的价值。

    在另外一些内容介绍硅谷公司对于工程师代码的要求,也多次提到代码能力的重要性。一些具有较好业界名气、或者具备丰富经验的人员,进入一些知名互联网公司之前也需要测试基本的代码能力,而如果不能通过的话则无法通过面试。

    在硅谷的公司里,从录取开始就显示出对权威和经验的一种淡漠。在 Google,不管面试者名气多大,水平多高,过不了一关关的面试也是白搭。对于那些技术负责人职位的申请者,不论申请者年龄多大,过去的经验多么丰富,一定要考技术问题,甚至包括写程序。因此,一个有名气有经验的申请者,未必比那些大学刚毕业的人更容易被录用。我曾经遇到这样一个例子,一个在美国顶级计算机系工作的教授,先推荐了他的两个学生来 Google 应聘,结果都录用了。后来他自己来应聘,Google 要他做他的学生做过的类似的考题,他反而没有考过,虽然我们很为他感到可惜,但是也没有办法。这位教授很不服气,对我讲,我的学生远不如我你们却要了,我发表过那么多论文,拿到过那么多基金你们却不要,说明你们的眼光有问题。我承认他讲的很有道理,但是,不能为一个人坏了规矩。类似的情况在 Facebook 也发生过,某公司的一位工程总监手底下的好几个人都被 Facebook 录用了,等到他自己去,因为编程荒疏,反而被拒绝了。

    另外一些正向的例子也提到一些行业泰斗坚持工作在技术一线。

    在硅谷你总是能看到一些世界科技行业的泰斗或巨头还在写程序。Google 的狄恩(Jeff Dean)和戈玛瓦特(Sanjay Ghemawat)是世界上最早发明云计算技术的工程师,也都是美国工程院院士,至今仍在自己写代码,而且每次有什么新的想法,都是自己先实现自己的狗食(Dogfood)。Google 的汤普森是 Unix 的发明人,图灵奖的获得者,每天大部分时间仍然花在写程序上。太阳工作站的发明人,该公司的创始人贝托谢姆,后来成为了天使投资人,又投资成立了上市公司 Arista,今天仍然在写程序。这些人可算是功成名就,要是放在中国,早就当官去了,至少也进入了到“君子动口不动手”的状态,但是他们在硅谷依然自己动手。虽然他们自己写的代码未必比别人好多少,但是这在硅谷营造了自己动手的工程师文化。

    在硅谷之谜中,多次提到硅谷影响最大的红杉资本。12 月 5 日,在中国企业领袖年会上,红杉资本全球执行合伙人沈南鹏就创新创业的下一站——科技创新主题发表了类似观点。

    “全球性”公司必须有一个重要的特征,产品上一定是科技的创新,而不仅仅是模式的创新。我们相信在今天新一代的创业者,很多有国际化的视野,也有国际化的工作经验包括科技研发的经验,他们一定会引领中国下一个风口,这样的创业创新一定会产生一批有全球竞争力的优秀企业。

    为什么我认为架构师需要坚持写代码?

    最近在高可用架构群、EGO会员群等多个场合,大家都在讨论架构师的能力的问题,架构师应该具备哪些能力?在面试时如何合适的评估一个架构师的能力?

    架构师的两种类型

    第一种是可以将业务实现的人,他可能需要整合公司不同部门的资源、解决不同技术模块整合、解决不同版本之间的兼容性、解决各个模块的技术选型等,解决任务的分解及分配,解决进度上出现的问题。当上面所有这些问题都完成后,架构师顺利帮助公司完成了项目目标。

    第二种是在第一种的基础上,利用技术的力量,改进了一个领域的效率或提升了生产力。比如一个在现有技术基础上提升20%效率的视频解码模块、或者类似美剧硅谷中的,研发出一套压缩比很大且保持高质量信息的压缩算法。目前的大部分互联网创新在某种程度也是利用技术变革的力量,比如电子商务及在线教育等行业。

    如果从输出结果的角度来看,架构师有两种类型,具备技术杠杆能力的和不具备杠杆能力的架构师。并不否认第一种架构师在战略执行层面的作用,他们是各个软件开发团队的中坚力量。但从影响力的角度,其归根结底是在一个画好的表格里面填东西,他从事领域的最终的格局是由市场、运营或者产品主导。而一种是真正具备杠杆能力的工程师或者架构师,他可以利用技术的力量,在填写一个格子的同时,利用技术的力量,将格子的功效放大,影响十倍或者百倍以上的结果。比如在音乐播放软件中,推荐算法的应用彻底改变了用户播放音乐的习惯与体验。

    很多人所说的架构师的设计能力,大多也可以归纳到第一种情况。很多所谓的架构设计,就是拿着多年一成不变的分层模式往业务上套,把业务按照功能规划成软件模块填写到架构图,并且把上下游的调用串起来。这种设计的大多时候是起给客户或者领导展示的作用。程序员代码的整体构思,大多可以通过白板上或者白纸以及程序员直接的沟通很敏捷的完成,大多不需要一个专职画图纸的架构师来指导。

    第一种架构师是可以不写代码的,因为他大部分所做的事情是跟人打交道、分配任务以及解决开发过程中各种进度问题。因此很多技术负责人面试时候看重协调能力等非真正的技术能力。而那些服务甲方项目型的公司,更是特别看重人际关系、沟通能力、展示能力等跟客户打交道的能力。另外一些软件版本历史包袱重的企业,则看重架构师的打补丁能力。由于功能型及偏执型型的团队偏多,因此在很大程度上造成了架构师的能力标准的偏离,在一些讨论的场合,过份看重项目执行中的个别技巧型能力,比如项目管理、人际关系等能力常常还占据了主流的声音。

    但这类架构师只能勉强称为“技术架构师”,因为大部分时候,他做的事情是填格子,而无法做到利用技术的力量,把一个格子放大到10个格子及更多。在另外一方面,这些不写代码进而慢慢丧失代码能力的“架构师”,也不太可能利用技术的力量去做发挥技术杠杆的事情。当然技术架构师也可以驱动工程师去完成一个技术型的大项目,大型的项目也需要合理的组织,但并不意味不写代码的人就比写代码的人做得更好。而那些对技术体系有深入了解及一线体验的架构师,比那些只跟人员管理打交道的人,更有机会利用技术的力量促进变革。

    因此如果希望一个架构师有令人满意的技术驱动能力,他应该具备代码能力,对技术有直接的了解及体验,进而能够精通如何利用技术来改变未来生产力。

    如何面试及评估架构师的能力

    Tim 的面试方法是,候选人需要第一步通过电脑上完成一个小型的代码实现,在代码基本符合要求的情况下,才会获得所有面试官可以接受的一个能力起点。如果不做这一点,面试时候,面试官需要费尽心思去问对方项目上更多细节问题,才可能了解一个候选人真正的开发能力。而通过考试,则可以在验证候选人具备一定开发能力的基础上,愉快的聊一些其他轻松的话题。

    在EGO会员讨论时候,一部分创业公司技术负责人担心一些资深的候选人不能接受这种方式,国内这种现象确实也不少见。但换个角度来想,创业公司大多还在起跑阶段,需要的肯定是从事大量一线开发的人。如果面试通不过机考编程,或者是不愿意做题,这种候选人也未必能完全适合创业公司需要。而那些不愿意做一线事情的架构师即使进来,他大部分时候在分派任务或者强化流程,可能让公司的技术层级及开发环节变多、管理成本变高进而导致整体研发效率下降。

    面试时候大家也认可的一些验证架构师能力的方法,比如把当前技术开发中遇到的一些典型性技术场景让对方来提出实现方案,以便评估对方是否具备应对类似场景的能力。在入职之后,可以让新的架构师独立承担及完成一些任务,以便考察对方是否具备独立的架构实现能力。

    123...Last