项目描述:上海铁路局分析师针对乘务员操作是否规范和设备运行故障等问题还停留在人工分析的层面,铁路 局响应政策“数字中国”号召,启动大数据智能分析项目,达到快速,准确,高效发现问题解决问 题,避免问题。
项目职责:
1:3D模型展示违标数据(echarts图库)
2:数据分析与平台架构设计,CDH
3:解决海量数据存储,查询,数据量3000万/天左右,spark+carbondata快速解决存储性能
4:制定二进制机器码文件解析,清洗,计算,入库架构
5:系统部署测试,海量数据压测,出具第三方测试报告
6: 平台服务器24小时响应,大数据平台高可用,负载均衡
项目业绩:
1:功能模块拆分成7大场景计算:出勤,上班整备,始发站停,旅时,终到作业,下班整备,退勤作业
项点违标标准制定150个,算法模型编写26个
2: 服务架构设计
2.1数据采集架构:
二进制数据通过vsftp服务远程传输到linux服务器,多线程解析,清洗, 业务算法模型调用,业务 数据入mysql,redis,明细数据写入hdfs,由 hdfs入hive库(carbondata服务为引擎,load模 式)
2.2外部接口和数据库采集:定时任务执行存入数据库mysql
2.3数据库设计:
业务数据按照铁路局下数段分库,明细数据按照日期分区,设置索引, 批量入库后自动执行数据压 缩合并等优化处理,查询速度随着数据量 的增大,速度影响甚微
2.4大数据生态圈服务配置
hadoop2.7+spark2.3+carbondata1.5.0+hive+mysql+redis+kudu+impala +kudu+zookeepe r,impala+kudu作为第二方案配置
3:查询引擎选用sparksql,结合carbondata针对于spark开发的服务,性能显著提升
4:编写穷举模型,破解二进制文件(注:此文件是由第三方设备公司设备所产生的文件)
5:团队对项目响应速度,并发等关键点进行多次压测,顺利通过第三方测试
6:平台服务已连续运行6个月无故障,zookeeper+keepalive实现该可用,负载均衡
7:实测采集数据架构,采集数据2G/天,入大数据库速度延迟半小时 ,查询底层数据明细响应时间3秒-5秒