负责基于付费课程的语义搜索的方案、架构设计及研究实现。
结合付费课程以及讲师的属性特征,借助人民日报1000w数据训练基于BERT+BILSTM+CRF的NER模型(命名实体识别)
用于提取搜索词query中的课程名以及姓名等主体,模型F1-score达到0.98;借助基于神经网络的高性能依存句法分析器对query进行语法及句法分析,将分析结果构建语义图网络,实现用户query理解及查询改写,最终实现用户意图识别。依托语义图网络进行实体消岐以及谓语消岐解决同名实体带来的查询异常等问题,最后构造基于Neo4J的知识图谱查询,完整实现整套语义搜索,搜索准确率达到95%。
从0-1的实现基于知识图谱的语义搜索并用于线上,在垂直领域实现一种新颖搜索模式,极大的提升搜索体验及用户留存。