-
题名藏文文本相似度计算方法研究
被引量:3
- 1
-
-
作者
严李强
田博
梁炜恒
杨欢欢
-
机构
西藏大学信息科学技术学院
-
出处
《高原科学研究》
CSCD
2021年第3期70-77,114,共9页
-
基金
国家自然科学基金项目(61561045)
西藏自治区大学生创新训练项目(S202110694080).
-
文摘
随着藏文文献数量的增加,原创性的藏文文献保护需求也越来越迫切,一个准确有效的藏文文本相似度计算方法就显得十分重要。文章针对藏文文字特殊结构导致藏文相似度计算不能照搬中英文文本相似度计算方法的问题,尝试按照《藏文编码字符集》的标准对藏文字符以一定顺序编码后与词库中的近义词关联;然后将待测文本和对照文本向量化,再对向量化的文本进行关键词提取,并用各自获取的关键词修正向量;最后使用余弦相似度原理计算待测文本向量和对照文本向量的余弦值,以此表示两句话的相似度。针对关键词提取的有效性,文章分别研究了TF-IDF和TF-IWF两种方法在不同主题词语比例的语料库下召回关键词的情况,结果表明TF-IWF提取关键词时能降低语料库中不同主题词语比例对计算结果的影响。针对相似度计算结果的准确性,文章引入皮尔森相关系数进行结果准确度评价,基于TF-IWF的相似度计算方法的皮尔森相关系数为0.7108,表明该方法是一种适用于藏文文本相似度计算的有效方法。
-
关键词
藏文
文本相似度
TF-IDF
TF-IWF
余弦相似度原理
-
Keywords
Tibetan
text similarity
TF-IDF
TF-IWF
Cosine similarity principle
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名电能质量监测装置校验信号实现新方法
被引量:2
- 2
-
-
作者
陈兵
李群
袁晓冬
杨洪耕
罗珊珊
-
机构
江苏省电力公司电力科学研究院
四川大学电气信息学院
-
出处
《电测与仪表》
北大核心
2014年第12期75-80,共6页
-
基金
国家电网公司重点科技项目<电能质量高级分析关键技术研究应用>
-
文摘
提出基于相似度原理异构等效的电能质量监测装置校验信号实现的新方法,通过将监测装置采样信号序列与标准源输出信号序列进行时序平移相似度计算,分析校验信号同步方法和构成;研究异构校验信号输出实现,给出监测装置整点采样和随机采样时异构校验信号输出实现方法。开发了电能质量监测装置校验信号实现软件系统,对监测装置精度进行校准验证,校验结果表明运用此方法能彻底解决标准源输出信号序列与监测装置采样序列无法同步、相邻校准信号之间存在相互干扰等问题,有效的提高了对装置精度检验的准确度和可靠性,对提高电网和用户电能质量监测水平,以及电能质量监测装置技术提升和产业发展起到了积极的促进作用。
-
关键词
电能质量监测装置
相似度原理
异构等效
校验信号
同步
-
Keywords
power quality monitoring devices, similarity theory, heterogeneous equivalence, calibration signal,synchronous
-
分类号
TM93
[电气工程—电力电子与电力传动]
-