课程表一期云服务试运行会带来哪些变化?
很多人都很好奇!
3月31日,贵州课程表云运转正常。
4月1日,申城课程表App服务器集群纳管接入课程表云。
4月5日,课程表App用户首次感知到了什么叫做选课无延迟。
之前课程表采购的GPU服务器,分散在课程表App、电商、支付、算法等各个业务部门,各自为战、算力孤岛,整体利用率只有20%-30%,大量算力被闲置。
而这次启动课程表App服务器对接云服务,则是将申城课程表App的服务器集群作为一个节点,开始辐射长三角区域。
像选课无延迟感,在日常选课时可能没什么感觉,但在集中选课时会格外明显。
随着课程表App服务器集群接入正常,接下来的两个月,课程表的电商板块、支付板块以及招聘等各类服务器集群均将接入课程表云。
届时,申城集群将成为和贵州主节点对等的完整商用区域节点,具备独立的管控平台、本地分布式存储、GPU虚拟化调度、低延迟实时业务承接能力,和贵州主节点形成异地灾备,可独立服务申城及长三角的本地实时业务。
也就是说,两个月后,课程表云服务将覆盖长三角以及西南各省的实时业务。
什么叫做实时业务?
之前的陈海波心心念的钉钉现在可以推出了,它就是属于实时业务,但要求没有那么严苛。
真正的强实时业务有严格的延迟硬指标,一般都要求是在100s-300s内。
比如游戏、支付等极限场景,对于服务器的延迟要求会更高,达到了50毫秒以内。
这也是当初课程表为什么要玩命的砸GPU集群的原因了。
因为支付超时会导致用户重复付款、外卖下单超时会导致库存超卖、游戏操作延迟会直接让玩家输掉对局。
这些极限的场景必须要有足够多的GPU集群来应对用户的高频需求。
现在课程表之前采用的分布式GPU集群统统接入课程表云后,虽然整体用时依旧差不多,但有一个本质的区别。
那就是之前狂堆GPU,其实有很多算力在浪费,但接入了云服务后,这些没有用到的算力就可以调到其他地方使用,在利用率上至少会翻上一倍。
等于说,之前申城这部分的GPU集群在高频交易时会出现卡顿,但现在接入了课程表云后,高频交易时会将其它算力利用起来,就跟前些天课程表App选课一样。
平时感觉不到,但高峰时就有感觉了。
“大概的意思我是听明白了”
王卓在蒋玉宁跟李科的介绍下,总算是把课程表云带来的体验搞清楚了。
之前他以为课程表支付的延迟在10到20毫秒左右,接入课程表云后,可能会降低至10毫秒内,结果听完两人的分析,才明白完全不是自己理解的那样。
“也就是说,除了长三角、西南各省的课程表用户,其它区域的会在这个基础上还是会累加30-100毫秒网络延迟,我这么理解没错吧?”
“嗯,您没理解错”
李科点头回道。
“前面我所说的50毫秒延迟,是服务器机房里的纯处理的耗时,是用户的请求到了我们的机房,GPU做完风控、校验再返回结果的时间,50毫秒是给不可控的公网延迟留了冗余时间”
“而现在您指出来的100多毫秒的延迟,是用户手机到服务器再回到手机的全链路总耗时“
王卓闻言,笑着点了点头。
大概的意思就是用户提交指令,课程表云服务会在30毫秒内给出反馈结果,而用户收到这个结果的时间,会根据你的区域计算。
比如你在长三角,那么你收到反馈结果的时间大约就在50毫秒以内,其中10到20毫秒是消息在网络上跑动的时间。
要是你在大西北,所需要的时间可能就是100毫秒。
如果是支付领域,这个时间反馈,几乎是很难有感知的,所以就不太可能会出现提交重复订单的可能。
当然了,他对第一期投产后的感觉不明显,主要还是之前的课程表在前期就采购了大量的GPU集群,再加上头条的算法优化,本身课程表的算力就处于国内互联网的第一梯队。
现在接入课程表云,短期内的效果还没有没有凸显出来。
可等下半年开始全国主要区域都自建节点后,那个时候或许一些变化就能清晰的感知到。
晚上,王卓厚着脸皮来到了老破小。
“这几天你是怎么回事?怎么还给我甩脸色了?”
上贡完,他靠在床头,有些不解的拍了拍背对着他的蒋玉宁问道。
前些天她刚回申城时,周瑶请她到家里吃晚饭后,接着就是连续好几天都没给他好脸色看。
“说一下嘛,是不是老蒋又说啥了?”