[0004] 本发明的目的在于利用科技人才及其学术论文、专利和科研项目等客观存在的科技成果数据资源,通过自然语言处理和机器学习等技术生成技术领域词库和词向量库、构建人才‑技术领域专业能力模型,并实现面向技术领域的专业人才搜索方法。
[0005] 本发明方法包括以下步骤:
[0006] 步骤1:生成技术领域词库和词向量库
[0007] 利用自然语言处理与机器学习技术,对海量科技成果数据资源进行文本处理、技术领域词识别,形成技术领域词库T,同时通过词向量训练得到对应的词向量库A;对每一个技术领域词ti∈T,都有且只有一个对应的词向量ai∈A。
[0008] 步骤2:构建人才‑技术领域专业能力模型
[0009] 步骤2.1:生成人才‑技术领域关系
[0010] 通过对海量科技成果数据资源进行文本处理,实现科技成果所属技术领域的智能化标注,进而得到人才与科技成果的关联、人才与技术领域的关联关系。
[0011] 步骤2.2:计算科技成果的质量评分
[0012] Spaper、Spatent和Sproject分别表示学术论文、专利、科研项目三种类型科技成果的评分模型,其表达式如下:
[0013] Spaper=log(k·dc+10)·grade(dr)
[0014] Spatent=patentType(da)
[0015] Sproject=fund(db)·projectType(de)
[0016] 其中,dc为论文被引用次数,k为调节因子,调节论文引用次数对于分值的影响,dr为论文发表期刊的等级, grade(dr)表示对应论文期刊等级的常数影响值;da表示专利类型, patentType(da)为不同专利类型对应的常数影响值;db和de分别为项目经费和项目类别,fund(db)和projectType(de)分别为项目经费和项目类别对项目质量的影响值。
[0017] 步骤2.3:计算科技成果的人才贡献度
[0018] 科技成果的人才贡献度C,用正比例函数来表示其排名与贡献程度的关系:
[0019]
[0020] 其中,m表示人才在该科技成果中的排名,即第几成员, 1≤m≤4。
[0021] 步骤2.4:计算科技成果的技术领域偏重度
[0022] 使用相关技术领域词向量的加权平均来表示科技成果的主题向量,该主题向量与技术领域词向量的归一化余弦相似度,即为该科技成果的技术领域偏重度;
[0023]
[0024] 为科技成果k的主题向量,设tki为科技成果k中的第i个技术领域词,aki为对应的词向量,tki∈T,aki∈A,xki为tki在科技成果k中出现的词频,n表示科技成果k中包含的技术领域词总数量,xk为上式中的xki之和;
[0025]
[0026] Wki表示科技成果k对于tki的技术领域偏重度,通过计算词向量 aki与主题向量的归一化余弦相似度得到;
[0027] 将tki用tf表示,tf∈T,tf表示T中第f个技术领域词,则对应的aki表示为af,Wki表示为W′kf,则得到下式
[0028]
[0029] 步骤2.5:构建人才‑技术领域专业能力模型
[0030] 将科技成果的质量评分、人才贡献度和技术领域偏重度三者相乘,计算得到人才就参与该科技成果的技术领域专业能力分值;人才‑技术领域专业能力是该人才所参与的各相关科技成果的技术领域专业能力分值之和,人才‑技术领域专业能力模型如下:
[0031]
[0032] 其中,Vpf表示人才p对于技术领域tf的专业能力,k代表该人才p参与的第几项科技成果,Sk为科技成果k的质量评分,Cpk为该人才p在科技成果k中的贡献度。
[0033] 科技成果k是学术论文、专利或科研项目,Sk表示如下:
[0034]
[0035] 其中,α、β和γ则分别是学术论文、专利或科研项目三种类型科技成果质量权重的调节因子,三者的取值范围为[0,1],其和为1。
[0036] 步骤3:生成索引文件实现搜索引擎
[0037] 根据步骤2中的人才‑技术领域专业能力模型进行计算得到所有人才在各技术领域的专业能力评分,生成相应索引文件并部署实现搜索引擎;用户在搜索框中输入技术领域词,即可搜索得到该技术领域专业能力从高到低排序的人才列表。
[0038] 与现有技术相比,本发明有如下优点:
[0039] 本发明通过对海量科技成果数据资源的文本处理和知识挖掘,生成技术领域词库和语义词向量;实现科技成果所属技术领域的智能化标注,并得到人才与技术领域的关系;综合科技成果的质量评分、人才贡献度、技术领域偏重度,构建了人才‑技术领域专业能力模型;有效实现了一种面向技术领域的专业人才搜索排序方法和系统。