自2003年“信用卡元年”起,中国信用卡市场处于蓬勃发展的状态,信用卡业务以几乎每年30%以上的复合增长率实现着高增长。这种级别的业务体量和增长速度,远超上一代基于IOE架构的银行信用卡核心系统可承受范围,好比一辆高速行驶的列车容纳不了更多新乘客,就需要及时扩容升级。
早在2014年,中信银行信用卡就已着手研究其新核心系统项目。2019年10月,新核心系统StarCard成功投产。据介绍,这是我国首个具有自主知识产权的新一代云架构信用卡核心系统。
近日,中信银行信用卡StarCard新核心系统一周年沙龙在深圳举行,11家机构在会上联合启动“生态市场”,宣布正式开启无界开放的数字金融新业态。
本次沙龙会议也揭晓了StarCard新核心系统从广泛调研、设计实施到正式上线、稳定运行,以及中信银行信用卡团队与华为、中兴等生态合作伙伴的协同努力等种种细节。
在调研决策阶段,中信银行信用卡中心就先经历了一场头脑风暴。
中信银行信用卡党委委员穆银芳介绍到,由于业务高速发展,首先要解决系统“有没有”的问题,最快速解决的方式就是购买。但购买也会遇到一些问题:一个核心系统加上一百多个外围系统,各种架构、各种软件标准五花八门,这对银行IT从业人员要求极高。
从技术来讲,这些是混搭式架构,归根到底都是烟囱式的形态,很难完成数据的融通和业务流程的穿透。
想尽快提升敏捷度,找到应对互联网竞争之道,他们开始探寻一种更大胆也更直接的方案:能不能一次性解决,只升级一次就彻底解决容量和功能问题?
2014年,中信银行信用卡中心启动广泛调研,包括全球范围的合作伙伴、供应商、华为等国内硬件解决方案提供商以及软件提供商。此外还特别邀请普华永道和德勤协助评估调研结果,最终给出了一份长达数十页的结论报告,总结出来无外乎两点:
技术是成熟的,云架构是可行的。
全球范围内主流信用卡供应商的系统,基本上都无法解决跨越式发展的要求。
在充分论证后,2016年,他们决定把银行的核心挪到云架构平台上。在没有先例可依的情况下,中信银行管理团队果断决策,正式启动新一代信用卡核心系统的自主建设和研发。
有了“换车”的决心,接下来要解决的是:应该造一辆怎样的“新列车”?
难点在于,新一代核心系统不能光是解决现有问题,同时也要布局未来,要穿过时间的迷雾去预判和防御可能的挑战。
如果总结行业情况,贯穿三十年的发展角度来看,信用卡系统核心大致经过了如下迭代:
第一、二代系统,以交易为核心,第三代系统,已经开始面向精细化管理。
新一代系统,则要以智能为核心,依托实时大数据能力,构建新一代的信用卡核心系统。
在团队的构想里,这次不仅要实现系统的升级,还要借此机会实现信息技术、管理和功能层面的升级,也是新技术平台云架构的升级,依托这一机遇,实现"新服务、新技术、新管理"三维一体的综合能力提升。
整个IT研发过程的管理,也将采用新的敏捷交付管理模式——与其说这次系统升级是配备“新武器”,其实更像是借此良机获得大规模协同作战的能力。
一张98分的评估结果
在本届沙龙的研讨环节,毕马威企业咨询(中国)有限公司项目合伙人于凤友回忆投产之前:“我们有一套评估模型,在第三阶段项目成熟度评估中显示所有的项目评估结果几乎所有都是绿的,获得了98分。在这种情况下我们认为上线不会有太大问题。”
这个98分来之不易——这场系统升级战打响之时,其实并没有先行案例可供学习。
目标很高远,但是动作要一步步来。项目组提出“先外围、后核心”的作战方针,有序推进信用卡新核心系统的升级,了解到一个大概路径就先全力开发,同时锻炼队伍、培养人才;在组织架构或者业务协同上,项目组以业务单元组建作战队伍,来大幅提升协作能力。
新核心系统升级三大战役(授权交易子系统、账户处理子系统、数据&应用服务子系统)随即展开。
在投入过程中,他们也采用了新的策略:大规模应用开源技术并深度定制,同时采用了不同的科技资源分配比例投入方式。
传统的银行核心系统,是把80%的资源投入到硬件设备上,例如大数据存储这类昂贵设备。但项目组的逻辑是结合当下软件定义的概念通过软件来解决问题,而不是把压力放到设备上,从应用层面实现自有知识产权升级。
同时项目组采用了很多开源中间件和数据库、服务器,包括中兴的GoldenDB数据库、华为服务器和网络设备。
“造车”难,“换车”更难。项目组面对的考验相当于是要在不“停车”的情况下,把一辆高速列车上的“乘客”,转移到一辆性能更强、容量更大、更能平稳运行的“新列车”上。
据介绍,把旧系统迁移到新系统一般是2-5年的项目实施周期,他们则用23个月的时间,实现了系统升级,同时把原系统迁移上去。
作为中信银行信用卡的合作伙伴之一,天阳宏业总裁欧阳建平回忆称,业务系统面对的数据量、交易量都非常大,当年对于卡中心选择的这条较为“果敢”的技术路线还是有一些担心,但后来了解到新核心系统是经过反复的调研、论证后做出的决定,所以取得的成功是必然的,既果敢又非常谨慎。
通过与江融信、长亮、天阳、毕马威等合作伙伴的协同努力,以及新核心系统背后上千人的技术团队和五六百人的业务团队,最终在八个月内交付四大版本,囊括了超过一万个功能点。
越接近上线,困难和压力也逐渐显现,系统评估中出现过运维支撑能力、稳定性、质量等问题。
为此,项目组采用“业务专家、合作公司”双线并行的办法,开展大规模业务测试,累计完成了接近50万个测试案例,把极端情况下的容器云、数据库、授权系统、网络等各种故障情况都包括在内,最终模拟了接近600个异常场景,保证即使出现异常情况时,系统仍能平稳运行,保障业务的连续性。
投产过程前期,项目组也完成了一系列完整的数据比对、仿真测试。指挥系统实行“线上、线下”双指令体系,双边确认,确保指令的执行或决策过程准确无误,有效化解“三新叠加”风险:新技术、新运维模式、新数据库。
2019年10月26日,中信银行信用卡StarCard新核心系统成功投产上线。
整个系统上线完成后,运行情况较为平稳,中信银行信用卡中心从传统架构“4个9”的时代进入“5个9”的时代,可承载亿级账户量。每一笔授权交易的服务响应时长在40毫秒以内,成功率可达99.999%。
尤其在双十一期间,新系统也经历过压力测试,生产上已经轻松突破4500 TPS,在实际测试环节用20台x86就可以支持20000+ TPS的压测值,这是同业双十一峰值的两倍以上。
新系统也在今年9月,按照监管要求完成了同城机房无感切换演练。
在本届沙龙活动上,中信银行信用卡中心方面介绍,StarCard系统是基于大数据时代重新构建而成,具备微服务、容器云、海量存储、海量计算和机器学习的能力。
相比于传统的三代信用卡系统,IT时代的系统做到最极致的是参数化、模块化。但实际上,基于DT新时代打造的全新分布式StarCard系统,已经将系统微服务化,同时把业务系统功能简化。从另外一层面来说,微服务也可以达到参数化、模块化。
其次是容器化部署。从单线程升级为多线程以后代表着技术上很大的进步,系统稳定性大幅提升,但是用容器云把多线程扩展到多机器,比如100个线程扩展到20台机器上,哪怕20台机器中有两三台出现故障,对整体业务并无太大影响。
另外,这个系统支持将容器云部署在多台机器上,可达成设备资源的节省效果。项目组也全面使用容器云部署,提出了“同城双活、异地灾备”的两地三中心部署方案。
新核心系统背后,其实是银行人对数字化转型的深刻理解。
麦肯锡曾经提出数字化驱动的业务战略、数字化增长、开放银行等,项目组参考这一系列概念,结合自身经验,总结出了数字化所需的六大IT能力支撑:
1. 重塑客户旅程,整个系统以客户为视角,将业务流程重构,将源代码重写。
围绕客户体验,把新的科技能力(如人脸识别、活体检测、OCR技术)都融入其中,通过用户行为分析、员工行为分析的手段提升客户体验。
2. 内置大数据平台,提供OneData数据服务,简而言之,100多个系统的数据趋近于实时,统一采集管理运算,把结果再运用回去。
3. 微服务架构,把原来的很复杂的银行系统变成一个个单元的小功能。只有系统从服务层面解耦,才能跟后面的敏捷开发配合起来,才更方便。
4. 敏捷交付,协同系统。
很多人一说IT就讲项目管理,其中的确有项目成本、进度等相关内容,但更多的是大规模队伍的协同体系。
每个人在底层中有工作量分配和架构设计,之后分解、分拆任务,每个人按照任务内容开展,最后再快速组装到一起——按以前邮件或者一般的协同工具来做,难度相当高。
而中信银行信用卡中心这次的案例管理、测试过程,全部用工具平台来支撑,最终实现人员数字化管理。
5. 智能运维,系统报警可以实时派出任务,项目组能及时跟进、没有遗漏地进行处置。从应用系统监控能看到,每个微服务就像心电图一样,能够直观看到服务运作和调度运营情况。
6. 数字化还有API和AaaS平台(API as a Service),整个核心合作伙伴系统遵循Restful API接口的标准,可以按业务需要和未来场景需要往外对接。
从系统的服务架构、项目管理、程序代码的发布来看,StarCard新核心系统也与Google等主流互联网企业的做法基本一致。目前核心授权已完成所有联机微服务的单元化部署,这种单元化逻辑架构,利用有限资源投入即可支撑故障隔离和灰度发布。
据透露,中信银行信用卡StarCard新核心系统也依托这项能力,建成了业界首个业务策略实时在线预评估系统。
在这次沙龙上,新核心系统的各项功能亮点也被逐一介绍。例如:账户管理这一核心能力,对账户进了高度抽象:账户就是交易流水的分类汇总;每完成一笔交易之后只需记下交易流水,账户根据用户需要随时设定。
“双改单”的实时入账处理也在新系统中得以体系,现在从技术层面已经实现实时入账、实时到账、实时对账。
在中信银行信用卡团队看来,以前经常提到核心系统用什么数据库、大数据用什么技术,而新构建的系统技术,归根结底是服务于业务场景的。
写程序过程中,有一种说法叫做“读写分离”,他们把这个微观逻辑用到宏观层面的框架设计,实现这一大层面的读写分离,从而实现传统数据跟大数据平台双向融合。
从最后实现的效果来看,数据采集同步能从T+1天提升到秒级实时;客户的复杂查询需求迁移到大数据平台,通过这一平台可以率先实现十年账单在线查询。