国际经验表明,再保险在巨灾风险管理体系中正在发挥着不可替代的独特作用。 “多年以来,我国保险业使用的巨灾模型,包括地震、洪水和台风的巨灾模型基本都是国外的,巨灾风险管理的芯片是我们的‘卡脖子’问题。”12月24日,在银保监会例行新闻发布会上,中国再保险(集团)股份有限公司总裁和春雷说。 他表示,2018年,中再集团成立中国保险业首家专注巨灾风险管理的保险科技公司,同时申请到保险业首个国家重点科研项目,打破国外垄断,发布我国第一个拥有自主知识产权的商用中国地震巨灾模型。 据悉,中国地震巨灾模型今年已迭代至3.0版本,并与中国地震局的地震预报实现了秒级对接,成为保险业深度参与地震防灾减灾的关键支撑模型。目前,地震模型已经超越行业范围,也被地方政府接纳和使用。 地震巨灾保险是一种有效的震后救助方式,不仅可以提高公众抗御地震灾害能力,将政府救助与灾区民众自救紧密结合,还有利于将救灾与风险防范紧密结合,通过市场机制参与地震巨灾风险管理,贯穿于事前的防范、事中监督管理和事后补偿,是地震灾害风险防治工作的重要组成部分。 和春雷表示,中再集团深度参与全国地震巨灾保险制度设计和各地综合性巨灾保险试点工作,参与组建了中国城乡居民住宅地震巨灾保险共同体,主导开发了地震、台风、洪水等巨灾保险产品,为云南、湖北等巨灾试点地区提供了精算定价、风险评估、保险方案设计等全方位的技术支持。此外,始终担任国内巨灾风险的主要再保人,提供了国内保险市场80%以上的巨灾的再保险承保能力。 据介绍,“十三五”期间,集团累计承保台风的风险保额达到了2万亿元人民币,地震风险保额达到5000亿元和旱灾风险保额达到1000亿元。 十九届五中全会明确指出,“十四五”时期要实现“防范化解重大风险体制机制不断健全,突发公共卫生事件应急能力显著增强,自然灾害防御水平明显提升,发展安全保障更加有力”的目标,这也为巨灾风险管理明确了新方向。 对此,和春雷表示,中再集团将持续强化巨灾保险基础设施提供者和损失分担主要渠道的作用,推动地震巨灾保险制度建设。配合政府部门和监管机构,持续推进地震巨灾保险试点项目落地,全力推进地震巨灾保险立法进程。充分发挥首席再保人的引领作用,为中国城乡居民住宅地震巨灾保险共同体机制完善提供专业支持,为各地试点提供充足稳定的承保能力。 此外,持续推进巨灾模型研发,全力打造地震巨灾保险技术标准体系。不断迭代升级开发中国地震巨灾模型,加速打造台风、洪水巨灾模型,尽快实现主要巨灾模型全覆盖,协同行业协会与同业机构,共同构建地震巨灾保险的技术标准体系,推动地震巨灾保险技术法规建设。 同时,提升地震科技成果服务社会的能力。深化巨灾风险管理上下游产业链合作,发挥地震风险评估、地震预测预警、工程抗震、应急响应等防灾减损手段在保险业的广泛适用,推动保险服务从事后被动理赔向事前主动风险管理转移。 另外,拓宽巨灾风险多元化的分散渠道。推动巨灾风险证券化、侧挂车等新型巨灾风险转移工具的应用,力争在“十四五”期间实现国内发行巨灾债券新的突破,这个工作我们正在紧锣密鼓地往前推动。
近期,沿海八省(直辖市)煤炭日耗有所增加,库存与可用天数也有回落,对动力煤需求加大;供暖、民用和工业用电仍然处于高水平,面对拉尼娜带来的寒冬,后期用电有望维持高比例增长。 面对供应紧张和凛冬双重压力下易涨难跌的煤价,引进高新技术,优化组织架构,从而实现降本增效成了电厂目前最直接有效的应对方式。 近日,江苏国信(002608)举办了一场调研活动,邀请投资者以及媒体参观其位于长江畔的数据型电厂。数据型电厂属于前沿领域,这是江苏国信在“内生”力量增长上不断努力,从降本增效出发,研发出了新一代电厂系统,走在行业前沿。 与其他传统的智能电厂不同,传统依靠"拼装式开发"形成的电力系统,往往存在"水土不服"、技术依赖和核心竞争力易流失等弊端。 “江苏国信扬州发电有限责任公司在仔细研究电厂开发技术和发展经验的基础上,决定从不同生产经营部门、不同职业技能岗位组建一支开发团队,完全依靠自主力量打造‘掌握核心技术、适应自身需求’的电厂经营决策支持系统,从而真正实现以‘电厂智慧’建设‘智慧电厂。”江苏国信负责人表示。 公开资料显示,江苏国信扬州发电有限责任公司是江苏省第一家拥有60万千瓦级燃煤机组的发电企业,经过20多年的生产运营,积蓄了庞大的数据资源和精湛的技术团队,堪称省内60万千瓦燃煤机组生产经营“活字典”。 据了解,国信扬州数据型电厂包含煤价预测、煤场库存与管理、煤炭掺烧、年度运方、粉煤灰营销平台五大架构。 以煤炭价格预测这一架构为例,国信扬电对影响煤价的主要因子进行定量的分析,然后采用机器学习的回归方法,通过历史数据的自主学习,建立煤价的数学模型,并结合相关定性分析,确定未来一定时期的煤价趋势与范围,为煤炭采购提供决策依据,降低燃料成本。 煤场库存管理架构模型上,国信扬电依托煤炭采购和掺烧数据,采用可视化技术,打通公司煤炭管理的上下游,减少燃料、资金成本。而运方模型可根据全年煤价和灰价的走势、季度特点、机组检修时间以及掺配模型计算出的最优电量分配,这样一来便可实现月度电量的优化分配,指导年度合适的机组检修时机,提出不同的机组运行方式及电量分配,实现成本最低、利润最大。 上述江苏国信负责人表示:“系统分析出煤炭价格走势后,在其他各项功能的辅助下,我们可以尽量在煤炭价格相对低点买入大量的低成本的煤炭,控制煤炭成本基本就能控制火电的成本。另外在掺烧管理和运方管理环节,我们能实现机组最优掺烧和预测电量,通过智能化运作最终提高生产效率且实现利润最大化。” 五大架构支撑下,国信扬电能凭借煤价预测模型提示库存占用资金优化,劣质煤掺烧模型提示煤炭采购配比,煤场库存模型提示加仓优选调度,年度运方模型提供利润最大化经营决策支持实现互联互通,一张“数据网”构建起生产经营“互联网”。 据了解,当前,国信扬电数据型电厂第一阶段试点的四个功能模块已经完成并投入运行,发电副产品销售平台、设备智慧检修分析系统等模块建设已经启动。随着模块的增加和功能的完善,智慧系统的覆盖面、数据分析的精准性都将得到持续提升,未来电厂算好每一笔账、精确到每一分钱成为可能,电厂数据系统的价值将得到无限放大。
上海南方模式生物技术股份有限公司(简称“南模生物”)科创板上市申请日前获受理。公司主要从事基因修饰动物模型产品及技术服务相关业务。公司此次拟募资4亿元,用于上海砥石生物科技有限公司生物研发基地项目(南方模式生物)、基因修饰模型资源库建设项目、人源化抗体小鼠模型研发项目、基于基因修饰动物模型的药效平台建设项目以及补充流动资金项目。自主研发模型超过5000种公司通过以CRISPR/Cas、ES细胞打靶等基因编辑技术的应用创新为先导,打造了以模式生物基因组精准修饰、基因功能表型分析、药物筛选与评价为核心的技术平台,构建了覆盖人类基因的活体模型资源库,为人类基因组功能诠释、疾病发病机制阐明和新药新靶点发现提供相应的研究模型和技术手段,助力科研单位、创新药公司及CRO公司提升研发效率和创新水平。自本世纪初人类基因组计划完成后,随着基因功能研究的不断深入和基因编辑技术的突破性进步,从基因水平探究疾病机制已是生命科学研究的重点领域,“靶向化、精准化”已成为全球生物医药行业的发展方向。公司提供的基因修饰动物模型能够对特异性基因位点和药物靶标进行模拟,是实现基因功能研究和药物研发“靶向化、精准化”的重要工具,具有广阔的应用前景。自成立以来,在肿瘤、神经退行性疾病、精神疾病、代谢性疾病、炎症、罕见病等基因功能研究和药物研发领域,公司已累计研发出各类基因修饰动物模型超过1万种。其中,公司自主研发模型超过5000种,尤其在PD-1、PD-L1、CTLA-4、CD47、TIGIT等免疫检查点、APOE4型阿尔兹海默症、A/B型血友病等前沿、重点的疾病研究领域,均建立了人源化小鼠及相关疾病模型,得到科研单位和药物研发企业的广泛应用。凭借规模化的模型研发构建能力和丰富的模型资源储备,公司良好服务于国家和地方的产业创新战略,先后成为国家科技部“863”计划生物技术领域疾病动物模型研发基地、上海市模式动物工程技术研究中心、上海市模式生物技术专业服务平台、上海市比较医学专业技术服务平台,是上海市“小巨人”企业和高新技术企业;同时,公司与中国科学院、北京大学等著名科所院校,瑞金医院、中山医院、华山医院等知名医院,药明生物、信达生物、恒瑞医药、百济神州、中美冠科等知名创新药研发公司和CRO公司建立了良好合作关系。未来,公司将继续丰富动物模型资源库,提高自主研发品系的供应能力;同时,强化针对重大疾病和罕见病相关基因的动物模型研发,扩充人源化药物靶点模型种类,进一步适应靶向药物、抗体药物、细胞及基因治疗等精准药物的研发需求,持续提供适用的实验动物模型和配套的临床前研究服务;持续提升精准医疗趋势下的企业竞争力。研发投入逐年递增公司自成立起即确立以创新研发为先导的发展方向,经过20余年的研发积累,目前在基因修饰动物模型构建技术和策略方面掌握了核心技术,并依托于该等技术开展主营业务。报告期内(2017年-2019年以及2020年上半年),公司研发费用分别为1039.12万元、1760.26万元、2868.59万元以及1650.95万元,分别占营业收入13.62%、14.49%、18.53%以及21.32%。公司累计研发投入7318.90万元,占累计营业收入的比重为17.02%。公司称,研发投入逐年递增,主要系公司所处行业模型品系是主要竞争力之一,公司为保持在国内市场的现有竞争优势并缩小与国际一流企业的差距,致力于丰富内部基因修饰动物模型品系及新技术开发,内部研发平台建设力度加大,报告期内始终保持大额的研发投入并逐年增长。公司专注于基因修饰动物模型产品和技术服务研发体系的构建,自成立以来逐步建立完善了小鼠、大鼠、斑马鱼和线虫的基因修饰模型研发体系,实现了从基因信息分析到模型构建的一站式研发模式,利用多层次的模式生物体系建立了系统的基因功能体外分析、动物模型研发、体内表型分析和动物药效评价的人类基因功能研究和新药发现的科研服务能力。截至2020年6月底,公司员工总数为315名,其中研发人员为102名,占员工总数的比例为32.38%。研发人员对于科技企业的经营发展具有重要作用,为更好地吸引、保留和激励人才,公司设立了员工持股平台,对核心技术人员和关键岗位人员进行股权激励,最大限度地激发员工的主观能动性及创新活力。在技术成果保护方面,公司十分注重对创新技术的产权保护,并相应制定了知识产权的管理办法和保密制度,加强创新技术的专有性,巩固公司的技术优势;有效保护了公司创新成果。主营业务突出凭借领先的基因修饰动物模型研发构建能力、丰富的模型储备和杰出的技术服务水平,公司与一批知名的科研客户和工业客户稳定合作,形成了领先的行业地位。公司营业收入规模逐年扩大,报告期内,公司营业收入分别为0.76亿元、1.21亿元、1.55亿元和0.77亿元,综合毛利率分别为46.70%、44.32%、50.55%及55.45%。营收规模逐年扩大的同时,毛利率水平整体同步提升。报告期内,公司主营业务收入由基因修饰动物模型产品、基因修饰动物模型技术服务及模型购销业务构成。公司主营业务收入分别为0.76亿元、1.21亿元、1.54亿元和0.77亿元。2017-2019年,公司主营业务收入年复合增长率为42.45%。公司主营业务突出,其他业务收入金额和占比均较小。基因修饰动物模型产品主要指根据客户需求向其提供动物模型,可进一步细分为定制化模型、标准化模型、模型繁育等。基因修饰动物模型产品各年占主营业务收入比例均超过80%,为公司主要收入来源。报告期各期末,公司应收账款余额分别为1898.52万元、3219.89万元、3897.35万元和5763.90万元,占当期营业收入的比例分别24.89%、26.51%、25.18%和37.22%(年化占比)。南模生物称,公司客户以知名科所院校、医药公司、CRO公司和综合性医院为主,在多年业务合作中,公司款项回收情况总体良好。但随着经营规模的扩大,公司应收账款规模可能进一步增加,若公司主要客户的财务状况和经营情况发生重大不利变化,公司将可能面临应收账款不能及时足额收回的风险。
投资要点 随着猪周期即将见顶,主流分析认为直到年末,中国通胀将总体处于回落态势,不会对货币政策形成太多约束。然而,关于明年通胀是否可能超预期上行这一问题,近期市场上有很多分歧的声音。为此,我们以CPI预测模型切入,重点聚焦今年下半年至明年上半年的CPI趋势及区间判断,庖丁解“数”,力图还原更加精确的CPI预判方法。 关于CPI近月预测,市场上利用高频数据进行跟踪的预测模型已经较为成熟,大体分为两大类——“分项法”与“整体法”。“分项法”预测结果较为准确,该方法预测8月份CPI同比增长2.5%。而整体法对猪价波动的测算有所偏离。 CPI远月预测中,“历史均值法”计算得出年内CPI将进入下行通道,至明年春节前后CPI同比达到0.9%左右的低位。2021年3月开始CPI同比由于基数原因快速上行,并于5月份达到阶段性高点3.0%。但“历史均值法”的缺点是,一些项目所具备的周期性未被加入到模型之中,最终会造成远月CPI点位与真实值的较大偏离,因此必须在此基础上进行修正。 风险提示 猪价上涨超预期。 一、CPI模型预测 通胀是影响资产价格的核心指标之一,关于通胀的讨论,也是一个经久不衰的话题。 随着猪周期即将见顶,主流分析认为直到年末,中国通胀将总体处于回落态势,不会对货币政策形成太多约束。然而,关于明年通胀是否可能超预期上行这一问题,近期市场上有很多分歧的声音。 为此,我们以CPI预测模型切入,重点聚焦今年下半年至明年上半年的CPI趋势及区间判断,庖丁解“数”,力图还原更加精确的CPI预判模型 1.1、CPI近月预测 关于CPI近月预测,市场上利用高频数据进行跟踪的预测模型已经较为成熟,大体分为两大类——“分项法”与“整体法”。 (1)分项法 “分项法”利用高频数据跟踪CPI食品项的二级子项。例如农业部公布的全国猪肉平均价周度数据,计算CPI猪肉项环比准确性良好。其他农业部公布的高频数据,跟踪鲜菜、鲜果的效果也较好。 CPI食品项二级子项中,唯有粮食、食用油的高频数据跟踪效果较差。其中CPI粮食项的主要成分为粳米、面粉。经我们筛选,发改委公布的36城市平均粳米零售价、商务部公布的小包装面粉零售价,分别较好的预测了CPI统计篮子中的粳米和面粉家价格,拟合优度在50%。而商务部公布的食用农产品(行情000061,诊股)价格指数中的豆油、花生油,是目前高频数据中跟踪食用油价格效果尚可的数据,但拟合优度仅为36%。 CPI非食品项中,除交通工具用燃料项可以用国际原油价格及汽油(97#)市场价进行高频跟踪以外,其余项目缺乏高频数据。但非食品项中的大类项目,如租赁房房租、衣着、教育文化及和娱乐等均有强烈的季节性,因此可以用3至5年的历史均值进行环比预测。一些波动不大的项目,默认环比零增长。 CPI各分项近月环比增速确定之后,接下来需要计算各个分项的统计权重。由于统计局同时公布了部分食品分项的衍生指标“对CPI环比的拉动”,由“拉动=权重*分项环比”可倒推食品分项的权重。没有这一衍生指标的项目,则通过回归测算权重。 从预测结果来看,利用“分项法”预测CPI食品项环比的拟合优度为88%,效果出色。预测整体CPI环比的拟合优度为66%,有所下降。预测准确度降低的原因有二,一是宏观经济环境推动非食品项偏离季节性,(例如疫情原因,今年7月份房租、旅游项目环比增速远低于季节性);二是“历史均值法”中未考虑到春节错位的因素。该方法预测8月份CPI同比增长2.5%。 (2)整体法 “整体法”与“分项法”不同的地方在于,预测CPI食品项时,仅采用一个高频指标进行预测,操作简便快捷。目前市场上主流的指标为农业部公布的“农产品批发价格200指数”、“菜篮子产品批发价格200指数”,商务部公布的“食用农产品价格指数”。 从回测结果来看,2019年之前,上述指标对CPI食品项环比的预测效果较好,其中“农产品批发价格200指数”、“菜篮子产品批发价格200指数”对CPI食品项环比的拟合优度在90%以上,好于“分项法”。然而2019年下半年开始,上述指标对CPI食品项环比的预测出现了较大偏离,目前三项指标预测值的拟合优度下降至75%左右。 由于统计局CPI篮子中的猪肉权重,根据居民消费占比而实时更新。2019年下半年猪肉价格大幅波动,造成了CPI食品项中猪肉权重与上述高频指标中猪肉权重的偏离,可能是“整体法”预测效果下降的重要原因。根据历史数据来看,“农产品批发价格200指数”“菜篮子产品批发价格200指数”指数倾向于低估猪肉价格的波动,而“食用农产品价格指数”倾向于放大这种波动,因此使用“高频法”进行预测时,应将多个预测结果综合考虑。同时不排除未来农业部、商务部对上述高频指标权重进行修订后,与CPI食品项重新匹配的可能性。 1.2、CPI远月预测 (1)历史均值法 若需要对远月数据(未来12个月)进行预测,因为缺少高频数据的辅助,只能利用CPI环比所具有的季节性推测未来CPI走势。 充分考虑到疫情之后经济复苏可能带来的CPI上行压力,我们以过去10年该月CPI环比平均值作为预测值(对应CPI同比中枢为2.5%),而非2016年经济降速后5年内的CPI当月环比历史均值(对应CPI同比中枢为2.1%)。从回测结果看,“历史均值法”的拟合优度为62%,效果尚可。 若依据该方法,年内CPI将进入下行通道,至明年春节前后CPI同比达到0.9%左右的低位。2021年3月开始CPI同比由于基数原因快速上行,并于5月份达到阶段性高点3.0%。 (2)弹性调整法 利用历史均值法预测远月CPI数据时,虽然我们考虑到了CPI所具有的季节性因素,但一些项目所具备的周期性未被加入到模型之中,最终会造成远月CPI点位与真实值的较大偏离。 例如历史均值法隐含的对未来一年猪肉价格的预测,依然处于高位震荡的态势,明显不符合猪肉价格即将进入下行周期的主流判断。因此在历史均值法的基础上,我们需要对一些具有强周期性的项目进行单项调整。 2016年以来猪肉价格在CPI计算中平均权重为3.0%,但猪肉价格波动可以通过对牛羊肉的价格外溢,扩大影响。通过历史回测,我们计算得到猪肉价格对CPI食品项的贡献,或者说“弹性”大约在20%,对整体CPI的弹性为4%。在下一章节中,我们将带入对猪肉价格先入为主的测算,最后得到经过调整之后的CPI区间。 风险提示:猪价上涨超预期;粮价上涨超预期
2020年8月7日-9日,第五届CCF-GAIR全球人工智能与机器人峰会,于深圳隆重举办。此次峰会由中国计算机学会主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。在大会第三日的「AI金融专场」中,《AI金融评论》邀请了6位最具代表性的顶尖AI金融专家,分享能够代表未来10年风向的智能技术方法论、产品逻辑和风险管理理念;也在2020这个特别的时间节点上,展望他们眼中的「AI金融新十年」。华尔街知名建模和风控专家黄又钢参加了此次会议,他曾任摩根大通执行董事和花旗银行高级副总裁,拥有数十年的海外零售银行数据分析经验和前沿算法思维,今年回国与金融界顶尖技术大牛王强博士联合创立了弘犀智能科技有限公司,出任首席风控官。以《小微贷款风控模型中的算法探索》为主题,黄又钢和嘉宾及与会朋友们分享了自己在风控实践中的一些心得体会。黄又钢认为,中小微企业解决了国家80%的就业,这些企业的生存和贷款需求问题是需要关心和全力解决。但和上市的公司相比,这类企业信息透露不够充分,数据来源纷杂,数据格式不标准,数据更新周期不稳定,导致面向中小微企业的信贷产品难度更高。中小微企业信用贷款是一个世界性的难题,除了有国家层面的政策扶助,更需要顶尖人才的智慧和付出。在现场,黄又钢主要介绍了集成算法,降维算法、聚类算法和决策树算法。他指出,现在弘犀智能建任何模型一定是“双轨模型”, 即两个算法同时进行。此外,黄又钢还解释了实操“双轨”建模中的几大过程,详细讲述了人群分类在建模中的重要性,分享了算法探索与创新方面的两个思路。以下为黄又钢演讲全文,雷锋网AI金融评论做了不改变原意的整理(关注《AI金融评论》公众号,发送关键词“黄又钢”,获取他的演讲PPT。):首先,感谢雷锋网提供这样的平台。在美国,这样的机会不是很多,各行业封闭得很厉害。能够有平台互相交流,特别是看到有这么多年轻的朋友在这里听,真的很好。我今天的主题是《小微贷款风险模型中的算法探索》。首先,我想谈谈股市和信贷谁更难这个问题。股市VS信贷,谁更难?从人才角度,信贷行业急需人才。股票市场比较容易吸引人眼球,高大上的人都选择去那儿。不光是中国,美国更是如此,华尔街吸引了全球最高端的人才。但是,如果有人选择信用贷款,特别是到小微贷款这个行业,给大家的感觉像是无奈之举。而且,两者都是在处理非常复杂的问题,股票市场需要需要考虑几千家上市公司和几千万散户的博弈,而小微贷款也需要考虑到几千万家企业。如何判断一家企业的信用、以什么样的利率贷款给企业、如何贷款后收到还款,这些都是非常复杂的问题,需要人才,尤其是顶尖人才去分析。从数据层面,信贷比股票市场更难,信贷行业更需要标准和规范和确切的数据。股票市场上,每家公司必须有财报,它的格式和框架是一致的。财报的数据是标准的、业绩等信息发布的时间和周期是确定的,我们可以确切的得到股票市场里的许多重要信息。和上市的公司相比,小微企业的信息透露不够充分,数据来源纷杂,数据格式不标准,数据更新周期不稳定,导致面向中小微企业的信贷产品难度更高。中小微企业信用贷款是一个世界性的难题。在股票市场,我们要关注两件事:价格和数量。什么价格买?高价买,还是低价买?买多少数量?1千股还是1万股?而在信用贷款行业中,我们需要关注它的四个维度:一是风险程度,我要判断你这个人是否靠谱;二是给你放贷,我给你多少利息,价格是高是低;三是我给你多少钱,借你1000元、1万元还是300万元;四是期限,我是按天、按月计算还是按年计算?在我国,中小微企业解决了国家80%的就业,这些企业的生存和贷款需求问题是需要持续关心和全力解决的。2006年,诺贝尔和平奖给了孟加拉国的经济学家,当时我在花旗银行,听到这个故事非常感动。经济学家真正去底层考察和生活,把27美元借给40多人,每人几毛钱、几美分地贷,这很难得。当时花旗银行没有小微贷款,也没有普惠的概念。我直接找到我老板,我问他看和平奖了吗?他说看了。我问他花旗银行怎么没有普惠性的东西?他耸了耸肩,没搭理我。我问我们能否做这样的事情,他回答我“做好你的工作就行了,别管那么多闲事”。美国的银行在为富人服务,他们并不关心底下的中小企业。而在中国,国家真的会把钱倾斜到中小企业身上。机器学习算法概述机器学习是AI的分支,现在机器学习有非常成熟的算法。我很喜欢这个图片,虽然这张并不是最新的图片。它列出的算法比较规范、有条理性。深度学习、集成算法、神经网络、正则化算法、规则算法、回归算法、贝叶斯算法、决策树算法、降维算法、实例算法、聚类算法,这些算法十几年前就有了,有些仍在不断更新。如果一个人想做机器学习,至少要懂每个算法的原理,这些算法背后的逻辑是什么?其底层数据是怎么回事?我今天主要介绍集成算法、降维算法、聚类算法和决策树算法。每个算法都有实实在在的应用和意义,不是为了算法而算法。如何应用算法?我们现在做任何模型一定是两个算法同时进行,既要做传统模型回归算法,也要做机器学习算法。传统模型主要指的是回归算法(LR),取决于应用场景。机器学习模型,我们主要指的是XGB,集成随机树的算法。经典风控领域全都是以回归模型为主导。原因在于其稳定性好,可解释性非常强。在美国,机器学习在任何信贷场景都不能落地,也不能使用,原因在于我们无法解释底层拒绝贷款申请的原因是什么。由于不能解释,在美国的法规下就不能应用。所以机器学习只能在底层,我们分析团队、模型团队可以高大上地玩,但只能玩而已,真正实战一律不许用。在中国,我们不仅玩,还有机会可以使用。至少从法规层面,我们还没有严格要求拒绝一个贷款必须跟企业或者客户解释理由。实操“双轨”建模有几大过程:一是预测能力的比较; 二是变量维度的判断;三是对比同一个观测值,如何交叉使用;四是策略应用,即如何使用这个模型。如何使用这两个模型?我们可以将数据集分为两类(路径):一类是传统模型,另一类是机器学习模型。建完模型一定要有预测能力,假如用KS表述模型的准确率,你可以通过ROC、AUC等统计控制。假如我们用(统计)变量(做评估),不管(使用)哪个统计变量一定有好坏的比较。机器学习好或者不好的比较,首先是评测模型的层面。有了模型层面的比较后,(谈)模型一定会牵扯具体的特征值或者变量。它用哪些变量,在变量的层面上我们也进行比较。真正实际应用的是特征(变量),关键特征特别是关键维度覆盖性怎么样?传统模型覆盖了多少?10个维度还是20个维度?机器学习的维度到底是多少?都是我们需要考虑的。由于传统模型回归算法的局限性,它是线性(关系)的,维度一般在10~30个变量。而机器学习在准确性等方面比传统模型要好;在变量层面,总体来说机器学习完全没有概念和业务场景的限制,可以按照数据结构往下走,使用的变量相对较多。比如XGboost有一两百个变量是常态,三五百个变量也是常态。我们比较两个模型时,在变量维度之间要做一个比较。一般来讲我们建回归模型,在处理变量时,我们做了数据本身的转换,可以在变量维度上做聚类分析,控制变量维度。假定回归有20个变量,回归模型一般就(代表)有20个维度。虽然机器学习的变量很多,但是我们至少可以判断维度上是不是有问题。而每个观测值的评分,也是需要具体比较的。如果评分一致,我可以确定这个企业的评分比较准确。但是,如果两个评分出现差异怎么办?如一家企业用传统模型测出720分,用机器学习测出来可能只有600分。(也即)回归模型说这个人风险低,机器学习说这个人风险高,那我们如何决策?这是我们后端策略上要解决的问题。综上所述,每一个评分的好坏,可以通过三个层面的比较:模型层面、变量层面、观测者层面。人群分类是建模中十分重要的环节。如图示,这里有多个子人群。如果我能把人群打开,按照其实际状态,分为红、绿、黄等图中标注的群体,在每一个人群上做独立的测试,可能会做出更好的预测。这是人群分类的基本点。任何人群可能会存在不同的子人群中。每个子人群可能会有其独立的特征和趋势。问题是我们能否找到这样的趋势和特征。而前提条件是我们能否把人群分开,每个人(建模师)的经验不同所以做到的程度不同。决策树算法和聚类算法是人群分类中常用的两个算法。决策树算法,是用树的方法把底下人群分为几个叶子,每个叶子为一个子人群。聚类算法,是以每个观测点(如企业)的相似性为基础,将相似的企业分为一类。“相似性”是由统计学上的距离来决定的。从机器学习角度分为有监督学习和无监督学习。有监督,指的是知道Y是什么,在有Y标签的前提下进行训练。无监督,指的是不知道Y,只知道X变量。决策树算法是有监督算法的一种,而聚类算法是无监督算法的一种。这两种算法都非常有用。目前的算法变量越多,计算量越大,信息多了可以做更好的事情,信息多了可以分析各个层面,可能会有更好的结果,所以我们引入特征变量端。但是,在实际的统计分析上并非如此,信息多了可能会带来更多的噪音,当你无法区分噪音和有效数值时,你可能把噪音当做有用的。变量越多,算力肯定很沉重,如果我们涉及几千万人,算法用到几百棵树的时候,我们算力的时间不是按小时、分钟,可能是按天计算。特征少自然最好,我们能判断我们的特征是否是真的重要特征。我有5万个变量、1万个变量,过程中我选出20个变量,这20个变量是不是真正的主要变量?在1000个、10000个变量里如何选择20个你认为关键的,这是我们算法上要解决的问题。人群分类实际操作的第一步,是构造分类。我们从模型数据中判断,最上面的分支我们不做任何人群分类,全体人群做回归模型。出来的20个变量、30个变量,我们暂时判定经过一个算法(如LR),这20个变量是主要的变量、主要的特征。我把这个主要特征应用到后面的人群分类,通过回归模型判断主要特征。在此之后做人群分类,不管任何时候,数据驱动一定是我们的方法之一。人的经验(业务经验)一定有意义,人(的经验)和数据驱动永远是相辅相成的。如果你只靠机器学习做所有决策,不能说绝对不对,但可能走到比较危险的地方。从算法层面,我用两类算法,监督和无监督。在特征变量上,我给出两个的维度(主要变量和全量变量),主要变量可以方便我们快速有效地分类。而全量变量可以全面考查各方面的信息。第二步是比较评估,我们用两个算法,决策树和Cluster(聚类算法),及在特征变量上两个维度,那麽我们一起构成4个人群分类的方法。决策树用关键(主要)变量(ST2),SK1用聚类算法用全量变量。说是4个方法 (4个圈), 可是每个圈可以是非常复杂的东西。假定用决策树,如果特征有2000个变量,这个树可以长到几百个,非常容易。决策树要对着2000个变量找树,统计上可以做限制。每一层分多少?叶子最多是多少?分多少层?有2000个变量足够你找几百棵树,在几百棵树下,至少有几百个子集。你用聚类也可以做很多的聚类人群。在做了决策树等4个方法后,怎么知道哪个人群分类的方法就是好的呢?我们最终谈的是预期模型和预测。在一个方法中可能出了200个子集,在另一个方法中出了40个子集。每一个子集要建模型,重新合起来,直到可以判断总人群到底是好还是不好。这四个方法,上面有一个LR模型,这是主模型,合到最后是5个模型。这5个模型之间的KS预测值谁好谁坏,可以判断最终的效果。不管分成多少个子集,我们最终要回归到总人群上比较,才能证明哪个方法好还是不好。如果一个决策树分为300个人群,那麽就会有300个模型,再加上总量的一个模型,就是301个模型。任何一个方法底层意味着几百个模型。人群分类的概念听起来非常简单,实际操作相当复杂。最终的结果有明确的评判好坏的标准,一是算法层面,二是参数层面,最终的效果必须汇总到整体后才可以评判。算法及应用的探索前面谈到如何分类人群,最后我们讲一讲算法的探索。我回到中国学到一个词叫混搭,衣服、鞋子都可以混搭,我的女儿告诉我她左脚穿红袜子,右脚穿蓝袜子,这就是混搭。混搭的概念在统计里早就应用到。比如两种算法相互匹配,两种算法相互兼容,两种算法相互嵌入,就可能做新的算法。如何做回归算法和集成随机决策树算法二者之间的交互?我们可以先训练LR模型,然后分箱(分层),分箱后每个点之间一定有误差值。在误差值的基础上,哪个层面的误差值最大,就在哪个层面直接插入XGboost。用 XGboost在这一层上单独进行计算以减小预测误差。至于如何使用,是属于技术上的问题了。算法探索与创新方面有两个思路。一是在单一算法层面,从数学角度和(或)计算机角度,产生新的突破。二是两种(或多种)算法的相互嵌入和混搭形成新的算法。比如XGboost的算法就是这样混搭出来的。从实际应用的层面,“匹配”可能会更快地实现突破, 即现成的算法匹配特定的人群和特定的特征,就可能产生非常成功的应用,比如CNN算法在图像识别上的应用效果就是一个事例。未来的方向是“算法+人群+特征”,也即,算法的突破,人群的细分,数据的深挖,及相互之间适当的匹配都可能产生革命性的突破。关于 CCF-GAIR 2020 AI金融专场「AI金融专场」是CCF-GAIR 2020最受关注的主题论坛之一,其余5位嘉宾分别是:国际人工智能联合会首位华人理事会主席杨强、平安集团首席科学家肖京、京东数字科技集团副总裁程建波、移卡集团副总裁奚少杰、统计学诺贝尔-COPSS总统奖得主范剑青。「AI金融专场」除了拥有业内最顶尖的阵容外,每年都会吸引中国及欧美地区众多AI金融专家到场。在上一届论坛中,加拿大工程院院士、Citadel首席人工智能官邓力博士,加拿大工程院院士凌晓峰教授等多位重量级人物来到现场学习交流。而在今年,包括黄铠、刘江川、王强等十多位IEEE Fellow以及各大金融机构的首席信息官/科学家来到现场,共同促进AI金融的产学融合与商业应用。(雷锋网雷锋网)
2020年是不寻常的一年,全球的健康、贸易、经济、 数据 我们首先分析数据的发展趋势。数据对人工智能,犹如食材对美味菜肴,过去10年,数据的获取无论是数量,还是质量,又或者是数据的种类,均增长显著,支撑着AI技术的发展。未来,数据层面的发展会有哪些趋势呢,我们来看一组分析数据。 首先,世界互联网用户的基数已达到十亿量级,随着物联网、5G技术的进一步发展,会带来更多数据源和传输层面的能力提升,因此可以预见的是,数据的总量将继续快速发展,且增速加快。参考IDC的数据报告(图1),数据总量预计将从2018年的33ZB(1ZB=106GB),增长到2025年的175ZB。 其次,数据的存储位置,业界预测仍将以集中存储为主,且数据利用公有云存储的比例将逐年提高,如图2、图3所示。 以上对于未来数据的趋势,可以总结为:数量持续增长;云端集中存储为主;公有云渗透率持续增长。站在AI技术的角度,可以预期数据量的持续供给是有保证的。 另一个方面,AI技术需要的不仅仅是原始数据,很多还需要标注数据。标注数据可分为自动标注、半自动标注、人工标注3个类别。 那么,标注数据未来的趋势会是怎样的? 我们可从标注数据工具市场的趋势窥探一二,如图4所示。可以看到,人工标注数据在未来的5-10年内,大概率依然是标注数据的主要来源,占比超过75%。 通过以上数据维度的分析与预测,我们可以得到的判断是,数据量本身不会限制AI技术,但是人工标注的成本与规模很可能成为限制AI技术发展的因素,这将倒逼AI技术从算法和技术本身有所突破,有效解决对数据特别是人工标注数据的依赖。 算力 我们再来看看算力。算力对于AI技术,如同厨房灶台对于美味佳肴一样,本质是一种基础设施的支撑。 算力指的是实现AI系统所需要的硬件计算能力。半导体计算类芯片的发展是AI算力的根本源动力,好消息是,虽然半导体行业发展有起有落,并一直伴随着是否可持续性的怀疑,但是半导体行业著名的“摩尔定律”已经经受住了120年考验(图5),相信未来5-10年依然能够平稳发展。 不过,值得注意的是,摩尔定律在计算芯片领域依然维持,很大原因是因为图形处理器(GPU)的迅速发展,弥补了通用处理器(CPU)发展的趋缓,如图6所示,从图中可以看出GPU的晶体管数量增长已超过CPU,CPU晶体管开始落后于摩尔定律。 当然,半导体晶体管数量反映整体趋势可以,但还不够准确地反映算力发展情况。对于AI系统来说,浮点运算和内存是更直接的算力指标,下面具体对比一下GPU和CPU这2方面的性能,如图7所示。可以看出,GPU无论是在计算能力还是在内存访问速度上,近10年发展远超CPU,很好的填补了CPU的性能发展瓶颈问题。 另一方面,依照前瞻产业研究院梳理的数据,就2019年的AI芯片收入规模来看,GPU芯片拥有27%左右的份额,CPU芯片仅占17%的份额。可以看到,GPU已成为由深度学习技术为代表的人工智能领域的硬件计算标准配置,形成的原因也十分简单,现有的AI算法,尤其在模型训练阶段,对算力的需求持续增加,而GPU算力恰好比CPU要强很多,同时是一种与AI算法模型本身耦合度很低的一种通用计算设备。 除了GPU与CPU,其他计算设备如ASIC、FGPA等新兴AI芯片也在发展,值得行业关注。鉴于未来数据大概率仍在云端存储的情况下,这些芯片能否在提高性能效率的同时,保证通用性,且可以被云厂商规模性部署,获得软件生态的支持,有待进一步观察。 算法 现在我们来分析算法。AI算法对于人工智能,就是厨师与美味佳肴的关系。过去10年AI的发展,数据和算力都起到了很好的辅助作用,但是不可否认的是,基于深度学习的算法结合其应用取得的性能突破,是AI技术在2020年取得里程碑式发展阶段的重要原因。 那么,AI算法在未来的发展趋势是什么呢?这个问题是学术界、工业界集中讨论的核心问题之一,一个普遍的共识是,延续过去10年AI技术的发展,得益于深度学习,但是此路径发展带来的算力问题,较难持续。下面我们看一张图,以及一组数据: 1. 根据OpenAI最新的测算,训练一个大型AI模型的算力,从2012年开始计算已经翻了30万倍,即年平均增长11.5倍,而算力的硬件增长速率,即摩尔定律,只达到年平均增速1.4倍;另一方面,算法效率的进步,年平均节省约1.7倍的算力。这意味着,随着我们继续追求算法性能的不断提升,每年平均有约8.5倍的算力赤字,令人担忧。一个实际的例子为今年最新发布的自然语义预训练模型GPT-3,仅训练成本已达到约1300万美元,这种方式是否可持续,值得我们思考。 2. MIT最新研究表明,对于一个过参数化(即参数数量比训练数据样本多)的AI模型,满足一个理论上限公式: 上述公式表明,其算力需求在理想情况下,大于等于性能需求的4次方,从2012年至今的模型表现在ImageNet数据集上分析,现实情况是在9次方的水平上下浮动,意味着现有的算法研究和实现方法,在效率上有很大的优化空间。 3. 按以上数据测算,人工智能算法在图像分类任务(ImageNet)达到1%的错误率预计要花费1亿万亿(10的20次方)美元,成本不可承受。 结合前 (1)先验知识表示与深度学习的结合 纵观70多年的人工智能发展史,符号主义、连接主义、行为主义是人工智能发展初期形成的3个学术流派。如今,以深度学习为典型代表的连接主义事实成为过去10年的发展主流,行为主义则在强化学习领域获得重大突破,围棋大脑AlphaGo的成就已家喻户晓。 值得注意的是,原本独立发展的3个学派,正在开始以深度学习为主线的技术融合,比如在2013年,强化学习领域发明了DQN网络,其中采用了神经网络,开启了一个新的研究领域称作深度强化学习(Deep Reinforcement Learning)。 那么,符号主义类算法是否也会和深度学习进行融合呢?一个热门候选是图网络(Graph Network)技术,这项技术正在与深度学习技术相融合,形成深度图网络研究领域。图网络的数据结构易于表达人类的先验知识,且是一种更加通用、推理能力更强(又称归纳偏置)的信息表达方法,这或许是可同时解决深度学习模型数据饥渴、推理能力不足以及输出结果可解释性不足的一把钥匙。 (2)模型结构借鉴生物科学 深度学习模型的模型结构由前反馈和反向传播构成,与生物神经网络相比,模型的结构过于简单。深度学习模型结构是否可以从生物科学、生物神经科学的进步和发现中吸取灵感,从而发现更加优秀的模型是一个值得关注的领域。另一个方面,如何给深度学习模型加入不确定性的参数建模,使其更好的处理随机不确定性,也是一个可能产生突破的领域。 (3)数据生成 AI模型训练依赖数据,这一点目前来看不是问题,但是AI模型训练依赖人工标注数据,是一个头痛的问题。利用算法有效解决或者大幅降低模型训练对于人工标注数据的依赖,是一个热点研究领域。实际上,在人工智能技术发展过程中一直若隐若现的美国国防部高级研究计划局(DARPA),已经将此领域定为其AI3.0发展计划目标之一,可见其重要程度。 (4)模型自评估 现有的AI算法,无论是机器学习算法,还是深度学习算法,其研发模式本质上是通过训练闭环(closed loop)、推理开环(open loop)的方式进行的。是否可以通过设计模型自评估,在推理环节将开环系统进化成闭环系统也是一个值得研究的领域。在通信领域,控制领域等其他行业领域的大量算法实践表明,采用闭环算法的系统在性能和输出可预测性上,通常均比开环系统优秀,且闭环系统可大幅降低性能断崖式衰减的可能性。闭环系统的这些特性,提供了对AI系统提高鲁棒性和可对抗性的一种思路和方法。 工程化 上 工程化的本质作用是提升效率,即最大化利用资源,最小化减少信息之间的转换损失。打一个简单的比喻,要做出美味佳肴,食材、厨房灶台、厨师都有,但是唯独没有合适的厨具,那么厨师既无法发挥厨艺(算法),又无法处理食材(数据),也无法使用厨房灶台的水电气(算力)。因此,可以预见,工程化未来的发展,是将上 过去10年,AI工程化发展,已形成一个明晰的工具链体系,近期也伴随着一些值得关注的变化,笔者将一些较为明显的趋势,汇总如下: 总结来说,AI工程化正在形成从用户端到云端的,以Python为编程语言的一整套工具链,其3个重要的特点为:远程编程与调试,深度学习与机器学习的GPU加速支持,以及模型训练与推理工具链的解耦。与此同时,产业链上游厂商对开源社区的大量投入,将为中下游企业和个人带来工具链的技术红利,降低其研发门槛和成本,笔者认为微软、脸书、英伟达3家上游厂商主推的开源工具链尤其值得关注。 结语 对于人工智能技术过去10年发展取得的成就,有人归因于数据,也有人归因于算力。未来人工智能技术发展,笔者大胆预测,算法将是核心驱动力。同时,算法研发的实际效率,除了算法结构本身,还取决于设计者对先进工具链的掌握程度。 未来10年,科技界是否能用更少的数据,更经济的算力,获得真正意义上的通用智能呢?我们拭目以待。
时至今日,新药研发的长周期、高投入、高失败率早已不是什么业内秘密。药企往往投入数十亿元人民币,耗时十数年,却只能默默吞下新药研发失败的苦果。 每一款处在研发阶段的新药背后,都是患者不断地问询――“何时能上市?”在这场与死神的赛跑中,一些科研团队正另辟蹊径,希望能够构建出近似人体器官的芯片,为疾病机理研究及相关药物筛选提供模拟人体器官生理特征及功能的模型,进而缩短药物研发的时间,降低新药研发临床试验失败的风险。 北京大橡科技有限公司(下称大橡科技)近日正式推出了三款商用器官芯片产品,分别是针对药物肝毒性测试的肝脏模型、针对抗肿瘤药物研发的肿瘤模型、针对脑部疾病药物研发的血脑屏障模型。这也是国内器官芯片市场发展多年后,首批经过验证、面向商业化应用的产品。 对于器官芯片在新药研发中的关键地位,美国体外科学研究院高级科学家以及教育和外联项目主任张全顺解释称,器官芯片能再现人体器官的生理学特征以及疾病的器官水平特征,提供了观察细胞、分子、化学和物理因素对组织和器官功能及疾病影响的机会,未来有着广阔的应用前景。 据了解,目前大橡科技已与相关企业签署战略合作协议,围绕上述三款商用器官芯片产品,在产品验证、市场拓展及销售等方面开展合作。 新药研发试验加“芯” 纵观全球新药研发产业,临床前试验大多使用2D细胞模型和动物模型,以观察新药实际效果或可能出现的副作用。但由于2D细胞模型过于简单,而动物与人类之间则存在种属差异,均导致试验结果不准确。 以药物肝毒性试验为例,国内某CRO(医药研发合同外包服务机构)毒理部门相关负责人向记者透露,2D单层细胞系模型的新药肝毒性试验结果,仅有10%-20%左右与临床人体试验相匹配,而动物模型的这一数值也仅能达到50%左右。这也意味着,经过动物模型的临床前试验后,依然有一半可能对人体肝脏产生毒性的新药未被筛选出来。后续临床实验中,受试者也因此面临服用新药带来的肝损伤、肝炎甚至肝坏死风险。 “2D细胞模型不仿生、动物模型种属差异大,都将导致试验结果不准确,这已成为新药研发长期未被解决的痛点”,大橡科技CEO周宇介绍称,目前,国内外新药研发平均周期长达10-15年,平均成本高达10亿-15亿美元,其背后的一个关键原因正是新药临床前试验结果不够准确,导致新药进入临床试验阶段时失败率较高。 在此背景下,仿生度更高、更能反映人体生理机制的器官芯片模型正是新药研发所迫切需要的。大橡科技正是这样一家致力于推动和引领器官芯片在新药研发、个体化精准医疗等领域广泛应用的前沿科技公司。公司希望通过国内领先的人体器官芯片技术,提供更精准、更高效、更经济的药物研发和精准用药解决方案,加速药物研发。 通过将生物组织工程和微流控技术相结合,大橡科技在芯片上构建三维人体器官生理微系统,系统包含活体细胞、组织界面、生物流体、机械力等器官“微环境”关键要素,在体外重现人类器官生理结构和功能特征。这种仿生的人体器官模型,为新药临床前试验提供了更准确的测试结果。在核心研发人员的努力下,大橡科技也终于成功推出了国内首批经过验证、面向商业化应用的器官芯片产品。 第三方试验数据可观 此次大橡科技推出的三款器官芯片产品,其模型设计均实现了细胞从2D维度向3D维度的跨越,通过微加工技术将芯片通道控制在微米级,既使微器官及其微环境更接近人体真实环境,也使试验耗材得以大幅节省。 耗材用量的减少也意味着大橡科技可以将昂贵但对药物更敏感的人原代细胞应用到模型构建中,而使其整体保持较低的成本。 以此次大橡科技推出的肝脏模型为例,即采用了人原代肝细胞,也就是从人类肝组织分离的细胞。该模型构建完成24小时后即可加药测试,且人原代肝细胞在培养长达28天后仍可保持极好的活性,既能用于药物的肝脏急毒性测试,也能用于慢毒性测试,这一效果是传统细胞模型无法实现的。 目前大橡科技肝脏模型已通过122种上市药物的肝毒性测试,结果显示该模型的药物敏感性达到60%,临床预测率超过70%,临床预测率高出动物模型20个百分点。这一实验数据与国际资深器官芯片公司研发的肝模型处于同一水平,且大橡科技的模型显示出更高的敏感性。 “测试结果可以比肩国际顶尖器官芯片公司研发的肝模型,敏感性指标甚至在其之上”。周宇表示,更高的敏感性,意味着肝毒性药物更容易被筛选出来,也意味着后续临床受试人员将试用更安全、更具保障的新药。 另外两款产品――肿瘤模型和血脑屏障模型,相较现有细胞模型则更为仿生和高效。肿瘤模型已通过大量上市化疗药物和靶向药物的对比测试,结合动物体内药物响应结果,显示该模型可排除2D细胞模型下95%的假阳性结果;而血脑屏障模型可体外重现血脑屏障结构,通过巧妙的流体和微通道设计,使血脑屏障结构和功能更加接近人体体内的真实情况。 对于大橡科技三款器官芯片模型,武汉大学化学与分子科学学院黄卫华教授表示,从第三方验证结果来看,模型数据重现性非常好。其中,大橡科技的人原代肝模型的临床预测性要优于动物模型,以较低的成本很好地解决了传统细胞肝毒模型、动物模型临床预测性低等问题。 据了解,在首批推出的三款商业化器官芯片产品取得稳定测试结果后,大橡科技正在继续探索用现有器官芯片平台构建更多仿生病生理模型用于药物研发。 周宇表示,公司专注于肿瘤、肝脏以及屏障类器官芯片的研发,其中非酒精性肝炎、肠道、肾脏、肺部相关的芯片和模型均在研发过程中。希望通过公司的芯片和模型去助力新药研发,降低药物研发成本和风险,最终造福患者。