如何量化评价一个数据仓库的好坏?
数据仓库的数据全部来源于外部,它本身并不“生产”任何数据,同时自身也不需要“消费”任何数据。在数据架构上面,数据仓库通常采用层次化的模型架构,这种模式成本最低,基础数据和应用指标的一致性最好,以某银行数据仓库逻辑架构设计为代表:
第一层为贴源/标准数据层:这一层为“数据缓冲层”,在这一层中主要保存最原始的贴源数据,有些设计会将数据的清洗及标准化操作也放到这一层中,用以保证不同系统的数据在数据结构标准方面保持统一,如性别、日期、行业代码等。另一些设计则不在这一层对数据进行哪怕最基础的清洗及格式化等工作,确保数据的贴源一致性,由后面的数据需求方自己处理。
第二层为主题数据层:这一层为数据仓库的核心层,涵盖内容包括多个数据来源的数据整合、分类体系和业务实体的统一、不同系统数据关联关系搭建等,形成客户、机构、协议、事件、产品等不同的主题,为后续的数据使用奠定基础。建设数据仓库主题区对于提高竞争力、提高服务性收入并有效规避各种风险有其重要意义。例如:基于客户主题可快速、准确寻找出潜在客户及各类型、资产规模、年龄段客户的资产状况和偏好,从而有效制定营销策略吸引更多客户在银行开办更多的业务,提高营业收入和服务收入;基于机构主题勾勒出我行账务机构及管理机构之间的层级关系,便于内部管理,可从不同角度、不同层级查看机构架设是否合理,查看机构变迁历史;基于协议主题能更清晰明了看出客户的资产变化情况和当前存贷款规模、现状,能更有效规避风险等。
第三层为数据汇总层/数据集市层,在这一层中通常会建立针对某些业务领域作更深层次的指标体系分析。数据集市以主题数据层为基础,但不再面向全行数据,而主要面向部门级业务,并且只面向某个特定的主题,如建设对公数据集市,是为满足对公业务管理需要,支持最新的对公业务管理方针,通过整合对公客户的数据信息,进一步分析对公客户的价值信息,更好的支持公司业务客户营销、管理分析工作的开展。
总而言之数据仓库可以看做一个非常大的数据库,它存储着由各个源头数据库中抽取过来的数据,然后利用这些数据更有效率的给公司的决策者提供决策支持。其中,转换及整合数据的过程是整个数据仓库建立遇到的最大挑战,需要将杂乱的数据按照各主题转换成有用的策略数据是数据仓库的重点。数据仓库通过把所有的数据放在一个地方,方便存取的同时,极大的减少了重复的数据处理和分析,实现数据文件统一出口。
可以参考上述银行数据仓库逻辑架构设计方法来寻找对应的指标。