佛山日报信息网依托最权威、最丰富、最及时、多媒体的本地新闻资讯为基础,以凝聚强、互动快、情趣高、影响大的互动传播平台为手段,以政务服务、商务服务、便民服务、增值服务为特色,充分满足网络时代广大群众对信息传播服务的新需求。

主页 > 新闻 > 建立央行征信数据仓库初探

建立央行征信数据仓库初探

来源:网络转载更新时间:2020-09-12 05:23:43阅读:

本篇文章2703字,读完约7分钟

2006年,中国人民银行建立了全国统一的企业和个人信用信息基础数据库(以下简称“PBOC信用信息系统”),这是国家加快社会主义市场经济建设、改善我国金融生态环境、完善金融基础设施的重要举措。PBOC信用信息系统的建设目标分为三个阶段:第一阶段旨在收集商业银行个人和企业的信用信息,为商业银行提供信用报告查询服务,现已成功完成;第二阶段的目标是收集其他社会信用信息,如司法、税收、社会保障等。,逐步完善和整合大量信用信息数据库,并提供全面的信用评分和咨询服务;在二期全面数据整合的基础上,三期的目标是利用数据挖掘技术对数据进行深入分析,不断开发深度增值服务和产品,如风险预警、决策支持、市场分析等。,同时利用互联网、云计算和移动通信技术拓展信贷产品的服务渠道,满足社会各界多样化的信贷需求。数据仓库是集成、存储、统计分析和挖掘海量数据的关键技术。信用数据仓库的建立和应用将对推动二期和三期目标的完成起到很好的作用。

建立央行征信数据仓库初探

建立信用数据仓库的意义

数据仓库是集成、存储、分析和挖掘海量数据的关键技术。在过去的十年中,数据仓库技术在中国的许多领域取得了许多研究成果,但其在信用报告领域的应用和实现一直是空·怀特提出的。在互联网、大数据和云服务技术蓬勃发展的今天,如果我们能够抓住当前的发展机遇,积极开发和研究数据仓库技术,并将其应用到央行的信贷信息系统中,就可以实现信贷信息产品的创新,提高产品的竞争力和可信度,为公众提供更好的服务,加快我国金融基础设施的完善,促进金融事业的健康发展。建立信用数据仓库对于中央银行信用信息系统的意义可以概括如下:一是历史数据存储平台。目前,信用信息系统中仍然存储着大量的历史数据,只有部分数据涉及到信用报告和其他信用产品的生成。大多数数据对系统的存储和效率有很大的负担。需要一个系统来存储这些数据,并且可以随时对其进行检索、查询和分析。第二,从各种渠道收集信息的平台。在现有金融数据的基础上,信用信息系统应逐步引入其他渠道的数据,包括半结构化和非结构化数据。目前,信用信息系统只支持结构化数据存储,需要一个平台来存储各种类型的数据。第三,数据集成平台。从不同渠道收集数据后,需要一个平台进行统一集成,形成统一的标准、相关且易于使用的数据模型。

建立央行征信数据仓库初探

信用数据仓库的实现

数据仓库之父比尔恩将数据仓库中的数据仓库定义为“一个面向主题的、集成的、时变的和非易失的数据集,它支持管理部门的决策过程。”首先,指出数据仓库的核心业务属性,并将其划分为不同的主题数据域,按照业务来组织数据;其次,指出数据仓库中的数据不仅仅是元数据的积累,而是经过整合和处理后的新数据集;第三,数据应定期更新,重点是更新策略的设计;第四,在数据仓库的数据分析过程中,即在非数据更新期间,数据一般是稳定的。经过多年的发展,数据仓库的概念已经被赋予了强调数据生命周期管理,包括非结构化数据和强调元数据管理。

建立央行征信数据仓库初探

近十年来,随着各行业信息化建设以及大数据、云计算和物联网技术的兴起和推广,信息系统对数据仓库的需求逐渐向海量数据、非结构化和实时性发展。数据仓库不再仅仅是独立业务系统的离线数据分析系统,而是集成到业务系统中以生成实时业务规则。由于数据仓库理论和技术的不断发展和创新,数据仓库的软硬件实现经历了多种方式。目前,主流的实现方法包括事务数据库、并行数据库、数据仓库一体机、大数据仓库和云服务数据仓库。

建立央行征信数据仓库初探

一般来说,小微企业可以选择事务型数据仓库,数据安全性要求低的企业也可以选择云数据仓库模式;对于中型企业,通常使用并行数据库或低端集成机器;对于大型电信或金融企业来说,他们大多选择高端的一体机,如中国移动和中国工商银行,它们选择田瑞公司的数据仓库解决方案;对于新兴的互联网企业,尤其是那些提供电子商务或社会服务的企业,他们通常选择具有大数据处理能力的数据仓库解决方案。

建立央行征信数据仓库初探

浅析中央银行信贷数据仓库的选择

信贷数据仓库的主要数据来自信贷业务系统。信用信息业务系统负责收集、整合、处理、生成信用产品,并向外界提供产品和服务,包括个人信用信息系统和企业信用信息系统。数据源分析如下:

建立央行征信数据仓库初探

首先,数据分析。目前,信用信息系统包含50t的存量数据,每年新增数据为5-7 t。目前,大部分大中型金融信贷机构已经接入信用信息系统,新接入的信贷机构包括村镇银行、小额信贷公司等地方信贷机构,以及即将接入p2p的新信贷机构,要求系统存储具备横向扩展能力;二是数据存储结构和处理方法。金融机构数据报告是按照中国人民银行接口规范要求的结构化数据。数据处理逻辑复杂,信用报告中身份信息整合、违约率、评级等指标的处理需要大量的历史数据关联计算。上述特点要求系统采用分布式数据存储结构,并充分采用并行计算技术来提高数据处理效率;第三,数据的实时性要求。目前信用报告每周更新一次,分值、违约率等增值产品每月更新一次,以后可能需要每天更新;第四,非结构化数据源。数据仓库的数据源还应包括与信用密切相关的各种非结构化大数据,如社交网络、电信和电子商务。

建立央行征信数据仓库初探

基于以上分析,数据仓库的选择应满足以下要求:一是核心数据库的存储容量大于150吨,考虑到系统建设周期,当数据仓库建成时,初始入库数据接近60吨,年增量为6-9 t,考虑到系统寿命一般为12年左右,预计系统设计容量为150吨;第二,系统架构并行数据库。考虑到信贷数据处理的复杂性和未来高更新频率的要求,建议数据仓库采用并行数据库架构,以提高横向可扩展性和效率;第三,特殊分析数据库。应采用具有缓存、数据压缩等技术的专用分析数据库来代替传统的关系型oltp数据库。第四是采用一体化模式。与其他形式相比,一体机具有安全性更高、安装维护更简单、成本更低的优点,因此建议采用一体机的形式;第五,选择hadoop生态系统进行非结构化数据存储和处理。系统应该能够存储和处理非结构化数据。考虑到业界主流的实现方法,选择hadoop生态系统是一个合理的选择。

建立央行征信数据仓库初探

信用数据仓库建设的深远影响

央行信贷数据仓库的建设将从五个方面影响中国的信贷服务:一是扩大受众。由于数据仓库包含来自互联网的非结构化数据,它可以为信用信息系统中没有金融信用记录的许多信息主体提供服务;二是提高信息的完整性。数据仓库可以将金融信用信息与互联网信用信息相结合,提高信息主体信用信息的完整性;第三是提供更多的产品。数据仓库作为产品研发的平台,可以利用数据挖掘的方法开发更多的产品为社会服务;四是提高实时服务。数据仓库具有高效的数据处理能力,可以提高产品更新的频率;第五,提高央行信贷服务质量。数据仓库的部分功能用于内部管理决策,提高服务水平和服务质量。

标题:建立央行征信数据仓库初探

地址:http://www.f3wl.com/fsxw/6785.html

免责声明:佛山日报致力于打造最全面最及时的佛山新闻网,部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,佛山日报的作者将予以删除。

佛山日报网介绍

佛山日报信息网按照省新闻出版局“城市综合信息门户网站”试点工作的相关要求,力争在成为佛山市“最强大的新闻资讯、城市综合信息、消费者(读者)及工商企业信息采集、加工、发布的数据库网络平台,最具品牌影响力和竞争力的网络广告、电子商务及其他增值服务供应平台。”从而获取网络内容产品、广告及增值服务的经营收入,逐步实现自我发展的良性循环,成为佛山未来新的经济增长点,并为佛山新闻数字城市建设和信息化产业的发展贡献一份力量。