企业级大数据平台架构

公司大数据平台架构,采用具备良好扩展性与活跃社区的apache基金会提供的开源组件(hadoop,spark,flink,presto,hive,sqoop等),这些技术与美团,腾讯,阿里等大厂采用相同技术栈,是目前工业界的主流,此外根据公司的数据保有量和增长情况,在集群架构设计和新特性运用上,比大厂更加灵活。

平台数据体系

公司目前的数据体系,是做整体行业数据大融合(这些数据不具备独享性),并且经过大数据的分析,计算整合后再进行标准化评分,推荐等(这些数据是公司独享)。

与同行业相比,分析角度更广,数据源更全面(包含企业各个纬度的数据)。

数据仓设计思想与理念

数仓方面,模型设计主要分为4层,采用纬度建模,优点是可以直观的反映出业务模型中的问题,以星型模型为主,分为以下4层,

ODS(operation data store)原始数据层,存放原始数据,只做初步的ETL清洗和数据校验;

DWD(data warehouse detail)明细层,结构和粒度与ODS层是一致的,只做对ODS层的数据清洗和归并;

DWS(data warehouse service)轻度汇总层,以DWD层为基础,进行轻度汇总,主要是大宽表;

ADS(application data store)结果层,按照主题提供统计数据,关联查询等;

数仓任务调度,采用Apache开源的airflow分布式任务调度系统,可以直观的展示各个任务之间的关联关系,大大方便了大数据计算任务的管理。

基于ECharts的数据可视化实现

公司的数据可视化方面,使用百度开源的echarts组件,BI方面使用redash,hue等开源BI可视化平台。

自然语言处理

人工智能方面:

· 通过SLING等语义分析工具进行自然语言处理,从海量信息中提取有价值的部分永久保存到大数据存储系统;

· 基于机器学习算法模型,使用企业上万个维度进行训练,精准分析潜在投资意向,帮助企业更快发展;

· 通过知识图谱在企业间自动建立联系,基于主营产品、经营范围、投资意向等维度为企业精准推荐潜在合作伙伴,

优化成本,挖掘潜力,对于匹配的结果,使用机器学习算法,对大数据模型进行不断优化和迭代,进一步提升实效性和准确率。

大数据分析

为确保大数据分析的准确性:

· 不断增加各类关于企业和园区的基础数据,包括最新投资额,税金,招聘等数据;

· 持续优化大数据的数据清洗和计算流程;

· 通过结果自动/人工进行正负反馈,不断优化企业和园区相关推荐算法。

返回顶部
申请成为集商通合作伙伴 定义互联网下一个十年
请您填写详细资料,收到您的申请后,我们将尽快与您联系