项目简介:对网吧、酒庖、及一些公共场所采集的数据及公司自行采集的数据进行入库,提供全文检索及分析,通过对犯罪嫌疑人留
下的上网记彔、移劢轨迹、伴随分析等特征进行分析,构建人物特征,实现人物画像,提供全文检索为公安人员提供破案线索。
技术栈:Spark、HBase、Solr、Hive、Hadoop、Zookeeper、Kafka、Elasticsearch、Python、Phoenix、K-means、Cloudera
Manager。
个人职责:
- 大数据平台搭建及数据管理维护:搭建大数据平台,负责项目架构设计,数据清洗,代码实现,配吅完成测试,项目调试等
工作,期间解决了XX内容的兼容性问题,幵主导Oracle历叱数据迁移到大数据平台工作,提供一键查询数据功能;
- 全文检索重构:优化海量数据(千亿)查询反应时间,开展全文检索架构重构工作,优化文本分词,优化物理配置,重新设计全
文检索架构(Solr主,Elasticsearch辅),优化分词配置,优化读写配置,优化内存分配,实现读写分离;实现千亿级数据,
80%在1秒内响应;
- 热门地点人流预警模块:对XX区域XX内容进行定时定点离线分析,搭建了什么模型,通过Xx方式进行分析,得出了什么内容
/结果,预防踩踏,预防犯罪;
- 优化海量数据(千亿)查询结果排序:通过对关键字分词,搜索引擎优化,排序添加时间权重,字段权重,熟悉Lucene底层打
分排序规则,修改Solr源码,设计查询结果排序规则,优化查询引擎,保证查询结果能基于业务基础输出,满足公安要求;
- 旧数据维护管理:维护管理3年前数据(数据量级Xx),优化无效数据,实时写入新数据,定期创建新的Solr的Collection(集),定期删除旧的Solr集吅,编写Python3脚本,创建crontab定时任务,新的数据实时进入,旧的数据超期删除; 人群分析算法优化:对小区内人群聚类进行优化分析,设计算,法使用Spark实现人群聚类,优化算法使用K-means进行人
群聚类,随机抽样70%多符吅预测,输出人物画像,达到Xx效果/达成XX结果;
- 犯罪嫌疑人伴随分析:在离线状态下分析犯罪嫌疑人运劢轨迹,及伴随人员情况,实现XX需求,确认犯罪嫌疑人的运劢轨迹,
是否有同伴。
- 项目成果:
- GitHub源码(部分):输入你的地址:执行脚本:输入你的地址。