沸腾的春晚和烧焦的CPU

  • A+
所属分类:国内
摘要

笔者一脸茫然。斌哥得意洋洋地说,VP电影需要实时渲染引擎、LED墙、混合虚拟制作,还需要高性能GPU,支持实时光线追踪技术。“原来这些技术只能靠外国公司,贵得不得了。现在很多中国公司都能支持了。所以春晚才会用VP做视觉,总价不会太贵。中国技

笔者一脸茫然。斌哥得意洋洋地说,VP电影需要实时渲染引擎、LED墙、混合虚拟制作,还需要高性能GPU,支持实时光线追踪技术。“原来这些技术只能靠外国公司,贵得不得了。现在很多中国公司都能支持了。所以春晚才会用VP做视觉,总价不会太贵。中国技术擅长从跟随到超越。”

看着搞电影的斌哥给笔者这个写IT的头头是道地讲GPU,竟一时语塞。“那你知道,做好一台春晚,需要多少核CPU?” 笔者反问道。

现在轮到斌哥哑口无言了。其实春晚和CPU的历史,也是中国技术的故事。

CPU都烧焦了

春晚和CPU深度绑定,始于2015年。那一年春晚首次引入红包互动。那年春晚,人们目光不再只聚焦电视屏幕上五彩斑斓的晚会,而是盯紧手机,摇啊摇,仿佛每个人都在与时间赛跑。

全民抢红包的热情带来了海啸山崩般巨大流量。除夕当晚20点到凌晨零点48分,互动总量达到110亿次。互动峰值达到了每分钟8.1亿次。人们隔着屏幕瓜分喜悦,然而抢红包的热情也“烧焦”了服务器。由于大量用户在同一时间参与抢红包,红包系统出现了短暂宕机。

2018年,春晚红包迎来了新的合作方。尽管有了前车之鉴,还是没想到春晚登录实际峰值超过了2017年双十一的15倍,3倍扩容的服务器资源依旧不够。宕机使得部分用户无法正常登录,红包功能无法使用。

合作方换了又换,2019年,又一家公司再次挑战春晚红包项目。要知道,抢红包的人每一年都在增加,经计算,当晚需10万台服务器支持春晚互动,其中5万台服务器需要外部采购。虽然这一年,合作方成功地支撑了高达208亿次互动,没有出现明显的服务中断,但也付出了巨大投入。

至此,在春晚舞台上,互联网企业们轮番登场。虽然红包互动越来越稳了,但红包互动保障成本却居高不下。

以2019年春晚为例,当年合作的互联网企业额外采购了5万台服务器,根据公开数据,2018年,全球服务器市场销售额达到了867.75亿美元,中国服务器市场出货量达到了330.4万台。当时服务器市场价格在3~5万之间,所以5万台服务器,大概是15~25亿元。

在全球华人的节日里,互联网企业都希望呈现最完美的自己,最诱人的奖品和最丝滑的体验。在大厂日进斗金的日子里,25亿不过是一次昂贵的品牌营销。时至今日,大家都要打打算盘。毕竟,成本和收益是颠扑不破的商业规律。没人真的想赔本赚吆喝。

你要当显眼包啊

互联网企业给春晚合作打了样,按理说同行都会按照这个剧本把春晚互动保障演下去,没想到,2022年的画风变了。

那一年,直到倒数19天,央视才正式官宣与京东合作。然而,疫情对全球供应链造成了严重影响。芯片生产和运输出现延迟;远程工作、在线教育、电商购物需求暴增,使得服务器供不应求,京东云本想大量采购服务器保障春晚,但却买不到。

负责人开了几天会,最终拍板通过“云舰”调度计算资源保障春晚互动体验。当年参与春晚保障的春江对笔者说,技术保障团队拼死拼活、没日没夜大战了19天,办公室挤满了行军床,平均两天一次压测做了七轮,直到最终保障成功。

京东人欣喜之余发现了一个秘密,不买服务器,也能接住春晚“泼天的流量”。于是仅仅隔了一年,京东又合作春晚了。

项目备战组开会精简了下,确定了五步走战略:即流量预测、算力压榨、军演压测、智能监控、安全防护。当然,春晚互动保障涉及的工作非常多,步骤繁杂。这五步和保障工作的IT成本息息相关。

其实春晚保障工作的起点,是“预测”。

预知未来本是一门玄学,但流量预测,则是实打实的科学。正如京东负责智能运营的张杰所说,即便是春晚泼天的流量,也有迹可循。

用户即流量,用户多则流量大。所以,根据大厂APP的活跃用户数,就能预测出每日流量。但春晚流量预测有点特殊:第一,京东提供了1亿实物礼品和30亿红包,可能会吸引新用户在当晚注册登录抢礼品;第二,京东设置了红包裂变玩法,还会再叠加部分新用户;第三,京东购物券会引发用户购物下单,这是电商公司的独有场景;第四,每个用户从红包互动到商城购物,场景越多流量计算越复杂。

如果不讲究精准,大可估算一个超大流量,计算资源Buff足够,系统就能抗下洪峰。但这种方式缺点也很明显,一个字,贵。京东云要降低保障成本,就得测得准。张杰说,在书画界,临摹代表着100%再现原作。事后看,京东云通过AI模型精准预测流量,最终实现了“临摹需求”,即计算资源和高并发流量的精准匹配。

从字面上看着“临摹需求”四个字,笔者不明觉厉......张杰解释说,首先京东有春晚流量历史数据以及合作地方台跨年晚会互动数据;其次,从原始数据中提取有用特征,包括时间、特殊事件等数千个维度,来提取流量周期性和趋势性特征;通过多种模型来学习和验证,包括时间序列模型、机器学习模型等等;最后,再不断地验证模型预测效果并修正。经过反复打磨,基于Data Science的预测准确率可达95%。

应对流量洪峰从“硬抗”到“智抗”

大多数人都没用过服务器,但都用过笔记本。当你打开很多程序,电脑忽然卡住,散热风扇声音骤然加大。这样的场景似曾相识吗?

有经验的人会打开电脑任务管理,看到CPU数值一路飙升到80%~90%,卡顿原因就找到了。在强制关掉几个应用程序后,CPU数值降下来,笔记本就恢复了正常运转。这就是电脑的运算极限。服务器的极限同样如此。

想降低春晚保障的IT成本,就要充分利用服务器的CPU,但利用率太高又会造成系统卡顿。怎么能实现既要、又要呢?京东云产品研发部吴亮亮说,用混部。

混部,是指混合部署,就是将离线任务和在线任务部署在一起,两种任务共享算力,从而提高CPU的整体利用率。“离线任务”是指不需要实时处理的数据,例如大量数据分析、数据挖掘、数据备份等。通常,离线任务集群CPU利用率可达80%。“在线任务”是指需要实时或近实时处理的用户交互和数据,以提供即时的服务和响应。例如你在电商平台搜索、下单、支付等。为了保障稳定性,在线任务计算集群的CPU利用率通常在20%~30%。

很明显,两种任务脾气不一样,离线任务“慢性子”,在线任务“急脾气”。很久以前,京东分别为离线任务和在线任务建立了计算集群,后来发现这种形式很浪费:比如,618大促时,在线任务计算量骤然增加,需要增加服务器才能保障用户下单丝滑。但离线任务的计算还空置着很多服务器,利用率不高。度过了618大促,在线集群空闲时候,离线任务很多又使得离线机群算力紧张。

既然如此,干脆削峰填谷,把离线任务和在线任务混和部署在一起,谁任务重谁就多用服务器。虽然说起来容易,但把两种属性不同的任务部署在统一的计算集群,它们真的会“打架”。

吴亮亮介绍说,虽然离线任务性子慢,但是抢资源能力很强。两种任务在一起干活,在线任务需要计算资源时候得不到,系统就会卡顿、不稳定。比如,春晚红包互动系统需要计算资源时,离线任务一定要第一时间让出来。

但如何能保障春晚红包在线任务抢占能力呢?首先,它要享有最高优先级,即红包等在线任务工作时离线任务不能来抢占;其次,它还要有特权,即红包等在线任务需要资源时离线任务要立即退出,不能赖着不走。

为了保障好红包互动系统,吴亮亮团队专门开发了一套强悍的算法,它赋予了在线任务无上特权以及彪悍的争抢能力,使得抢夺效率提高了80%。

笔者问吴亮亮,这么厉害的算法,有名字吗?他说还没给它起名字,看它在春晚的表现再说。

有了精准的流量预测和高效的算力腾挪,京东云应对春晚流量从加服务器的“硬抗”转向了依靠智能调度和压榨算力的“智抗”。

大模型是幻兽帕鲁

接下来就是压力测试,看看在预估流量压力下,系统和CPU是否撑得住。

京东云技术保障部老曲对2022年春晚保障印象最深的,就是七轮压测。“为了不影响白天业务系统,压测都在零点开始。工作大平台摆满了行军床,小伙子们干完活倒头就睡。我习惯了,多晚都要回家。”

五轮压测下来,老曲感觉头重脚轻,便随身带了血压仪。“那你身体今年扛得住吗?”笔者问他。他眉飞色舞地说,今年只有两轮压测,而且今年有大模型。

老曲说,今年有三种大模型来帮忙。

首先是ForceBot全链路军演机器人和故障分析大模型。ForceBot是制造问题的高手,故障分析大模型则是解决问题的高手。ForceBot通过模拟海量用户抢红包、购物等行为,制造了大量真实流量,对压测系统形成高并发压力。

故障分析大模型则承担故障诊断、故障分析、故障记录等工作。在找到根本原因之前,故障大模型可以提出临时解决方案以缓解问题。例如,增加服务器资源、优化数据库查询、调整缓存策略等。工程师可以根据数据和故障分析报告,确认故障原因以及整改方案。

第二个登场的是运维大模型。它能覆盖历年大促以来上层业务、PaaS组件以及底层基础资源各场景的故障快速发现和根因定位;能够保证在春晚红包活动期间,一旦出现问题分钟级内发现问题、定位根因及修复,为春晚红包系统稳定性保驾护航。

第三个是兜底的是安全大模型。今年春晚红包互动,京东App可以不登录抢红包,这意味着DDoS攻击的风险大大增加了。演练期间,系统模拟了春晚红包抽奖期间不登录抽奖的超大流量。安全大模型则可以提供辅助决策核心信息,根据系统个性化防御组件能力,一键生成可用的防护意见,大幅提升应急响应速度。

“大模型这么能干,你们不担心下岗吗?”老曲满怀信心地摇了摇头,春晚保障是个超大,超复杂的系统工程。此前大模型都是扮演个人工作助手,在这种项目引入大模型,探索智能化保障,对提升效率很有帮助。“在咱眼里,现在的大模型,就是打工的幻兽帕鲁。”

中国式超越

虽然挑战不小,但今年保障工作进行得相当顺利。春节前几天,老曲告诉笔者,保障筹备工作基本结束了,大家静待春晚。

2024年2月9日20点,龙年春晚拉开序幕。七轮口播,光电交映间,用户在京东的互动量超552亿次,京东云稳稳地接住了洪峰。大家说,有喜悦,但没有特别激动,因为一切都在计划中。

还记得前文说在线任务集群的CPU利用率通常在20%~30%吗?通过混部技术,京东云实现了混部计算集群 CPU 利用率在春晚活动期间整体60%左右,最大峰值可达85%。

正是凭借着极端压榨CPU性能以及各种AI大模型提高效率,在春晚保障这种超级项目中降低成本,如此匪夷所思的目标,还真让京东云完成了。不夸张的说,同比2022年至少降低了50%。

在京东云负责人看来,春晚保障既是“阅兵场”也是“练兵场”。“这次保障成功,不仅有技术升级,也促进了团队全面向智能化转型;不仅推进智能应用大规模实践,也锻炼了支持人工智能、大模型数字基础设施,形成了更全面,更高效,更低成本的大型活动保障体系。”

春江曾经给笔者提过一个词,叫“中国式超越”。他说就是中国技术擅长从学习到超越,把成本压下来,还能有利润空间。这样,才能在激烈的市场竞争中活下去。

春江的话,让笔者想起2023年逆势长虹的新能源汽车和并不为人熟知的液化天然气载运船。原来,选购一套汽车空气悬挂需要10万元左右成本,但中国强悍的供应链能力和研发把成本大幅度降低,越来越多国产新能源配置空气悬挂,对很多外资豪华品牌形成巨大体验优势,开始在全球市场突围。

液化天然气载运船更是逐步克服了对进口技术依赖,大大降低了生产成本,从极小的全球市场份额,一路占全球总量的35%,市场份额还在不断攀升。

其实,在这个变革的年代,中国技术的翅膀依旧在飞一般翱翔。在成本与体验的天平上,技术人努力寻找着精妙的平衡点。步入2024年,中国科技之舟依旧会遭遇狂风巨浪,但怀揣梦想的航海者,仍将坚定地驶向远方。

(文中凯哥、春江、张杰、吴亮亮、老曲均为化名)

admin