博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
C# 计算两个字符串的相似度
阅读量:6004 次
发布时间:2019-06-20

本文共 926 字,大约阅读时间需要 3 分钟。

我们在做数据系统的时候,经常会用到模糊搜索,但是,数据库提供的模糊搜索并不具备按照相关度进行排序的功能。 现在提供一个比较两个字符串相似度的方法。 通过计算出两个字符串的相似度,就可以通过Linq在内存中对数据进行排序和筛选,选出和目标字符串最相似的一个结果。 本次所用到的相似度计算公式是 相似度=Kq*q/(Kq*q+Kr*r+Ks*s) (Kq > 0 , Kr>=0,Ka>=0)其中,q是字符串1和字符串2中都存在的单词的总数,s是字符串1中存在,字符串2中不存在的单词总数,r是字符串2中存在,字符串1中不存在的单词总数. Kq,Kr和ka分别是q,r,s的权重,根据实际的计算情况,我们设Kq=2,Kr=Ks=1.根据这个相似度计算公式,得出以下程序代码:///  /// 获取两个字符串的相似度///  /// 第一个字符串 /// 第二个字符串 /// 
public static decimal GetSimilarityWith(this string sourceString, string str) {decimal Kq = 2; decimal Kr = 1; decimal Ks = 1;char[] ss = sourceString.ToCharArray(); char[] st = str.ToCharArray();//获取交集数量int q = ss.Intersect(st).Count(); int s = ss.Length – q; int r = st.Length – q;return Kq * q / (Kq * q + Kr * r + Ks * s); } 这就是计算字符串相似度的方法,但是实际应用时,还需要考虑到同义词或近义词的情况发生, 如“爱造人小说阅读的更新最快”和“爱造人小说阅读地更新最快” 。两个字符串在一定意义上说其实是相同的,如果使用上述方法计算就会出现不准确的情况。所以在实际应用的时候,我们需要替换同义词或近义词,计算替换后的相似度。 如果是近义词,需要综合替换近义词前和近义词后的计算结果,得出两个字符串的实际相似度。 摘自 kuibono

 

转载地址:http://mgsmx.baihongyu.com/

你可能感兴趣的文章
linux命令之uniq简单用法
查看>>
使用Eclipse调试Java程序的10个技巧
查看>>
Hive分桶表
查看>>
oracle10g 启动时报错:ORA-32004 ORA-19905
查看>>
思科分发列表过滤路由(RIP)动态路由协议篇
查看>>
可登录的用户数量是1.6万个,软件的性能得到充分的考验
查看>>
[实战]MVC5+EF6+MySql企业网盘实战(23)——文档列表
查看>>
[译] ES2018(ES9)的新特性
查看>>
Javascript基础复习 数据类型
查看>>
C# Selenium 破解腾讯滑动验证
查看>>
bom与dom的区别
查看>>
Matlab2012a下配置LibSVM—3.18
查看>>
Java生成-zipf分布的数据集(自定义倾斜度,用作spark data skew测试)
查看>>
修复CefSharp浏览器组件中文输入Bug
查看>>
正则与sed,grep,awk三剑客
查看>>
诊断一句SQL不走索引的原因
查看>>
iOS开发拓展篇—UIDynamic(简单介绍)
查看>>
Linux pipe函数
查看>>
图片标注工具LabelImg使用教程
查看>>
(原創) 如何設計一個數位相框? (SOC) (Quartus II) (SOPC Builder) (Nios II) (TRDB-LTM) (DE2-70)...
查看>>