公司目前的数据体系,是做整体行业数据大融合(这些数据不具备独享性),并且经过大数据的分析,计算整合后再进行标准化评分,推荐等(这些数据是公司独享)。
与同行业相比,分析角度更广,数据源更全面(包含企业各个纬度的数据)。
数仓方面,模型设计主要分为4层,采用纬度建模,优点是可以直观的反映出业务模型中的问题,以星型模型为主,分为以下4层,
ODS(operation data store)原始数据层,存放原始数据,只做初步的ETL清洗和数据校验;
DWD(data warehouse detail)明细层,结构和粒度与ODS层是一致的,只做对ODS层的数据清洗和归并;
DWS(data warehouse service)轻度汇总层,以DWD层为基础,进行轻度汇总,主要是大宽表;
ADS(application data store)结果层,按照主题提供统计数据,关联查询等;
数仓任务调度,采用Apache开源的airflow分布式任务调度系统,可以直观的展示各个任务之间的关联关系,大大方便了大数据计算任务的管理。
人工智能方面:
· 通过SLING等语义分析工具进行自然语言处理,从海量信息中提取有价值的部分永久保存到大数据存储系统;
· 基于机器学习算法模型,使用企业上万个维度进行训练,精准分析潜在投资意向,帮助企业更快发展;
· 通过知识图谱在企业间自动建立联系,基于主营产品、经营范围、投资意向等维度为企业精准推荐潜在合作伙伴,
优化成本,挖掘潜力,对于匹配的结果,使用机器学习算法,对大数据模型进行不断优化和迭代,进一步提升实效性和准确率。
为确保大数据分析的准确性:
· 不断增加各类关于企业和园区的基础数据,包括最新投资额,税金,招聘等数据;
· 持续优化大数据的数据清洗和计算流程;
· 通过结果自动/人工进行正负反馈,不断优化企业和园区相关推荐算法。