近似字符串匹配-机器学习

通常，此问题有两个部分：找出哪些项目可能出错，然后进行修复。

如果您假设大多数项目的拼写正确，那么查找可能的错误就非常容易了。修复错误要自动化得多，而且在任何合理的时间长度内100％正确地完成操作可能都是不可能的。但是您可能会发现，如果您能很好地找到错误，则手动修复它们并不重要。

为了发现错误，我建议您列出每个技能的列表，并计算每个技能在整个数据集中被引用多少次。完成后，您将获得类似以下的列表：

MANAGEMENT, 22
JAVA, 298
HADOOP, 12
HADUP, 1
SALES, 200
SALS, 1

等等。列出了每个技能以及拥有该技能的用户数量。

现在，按频率对它们进行排序，然后选择一个阈值。假设您选择更仔细地检查频率为3或更低的任何事物。这个想法是，相对于其他项目使用很少次数的项目可能是拼写错误。

确定要仔细检查的术语后，您可以确定是否要自动执行更改，或者是否要手动进行更改。当我必须这样做时，我得到了可能的拼写错误的列表，并手动创建了一个包含拼写错误和更正的文件。例如：

SALS,SALES
HADUP,HADOOP
PREFORMANCE,PERFORMANCE

有数百个，但是手动创建文件比编写程序来确定正确的拼写要快得多。

然后，我加载了该文件并浏览了我的用户记录，并根据需要进行了替换。

节省大量时间的人正在寻找可能的替代人选。在那之后，修复它们几乎是事后的想法。

也就是说，除非您真的想在研究项目上花费数月。然后，您可以玩弄编辑距离算法，语音算法和其他一些可能弄清楚“礼节”和“礼节”应该是同一个词的工作，从而摆脱困境。

其他 2022/1/1 18:15:33 有436人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

近似字符串匹配-机器学习

近似字符串匹配-机器学习

其他 2022-01-01 436
python中的近似比较

python中的近似比较

python 2022-01-01 358
具有多段三次贝塞尔曲线和距离以及曲率约束的近似数据

具有多段三次贝塞尔曲线和距离以及曲率约束的近似数据

其他 2022-01-01 472
大致近似于Python中文本字符串的宽度？

大致近似于Python中文本字符串的宽度？

python 2022-01-01 413
在Python中检查较长字符串中存在的模糊/近似子字符串？

在Python中检查较长字符串中存在的模糊/近似子字符串？

python 2022-01-01 370
问题嵌套近似搜索算法

问题嵌套近似搜索算法

其他 2022-01-01 390
从数据库编译动态HTML字符串

从数据库编译动态HTML字符串

其他 2022-01-01 650
突出显示字符串中的单词（如果包含关键字）

突出显示字符串中的单词（如果包含关键字）

其他 2022-01-01 651
如何在iReport中打印另一个列表中包含的字符串列表？

如何在iReport中打印另一个列表中包含的字符串列表？

其他 2022-01-01 748
如何在JavaScript中将字符串转换为布尔值？

如何在JavaScript中将字符串转换为布尔值？

javascript 2022-01-01 688
在查询字符串中使用的ASP.Net URLEncode和号

在查询字符串中使用的ASP.Net URLEncode和号

dotnet 2022-01-01 707
如何在Swift中格式化本地化字符串？

如何在Swift中格式化本地化字符串？

Swift 2022-01-01 688
将未知格式（任何格式）的字符串转换为日期

将未知格式（任何格式）的字符串转换为日期

其他 2022-01-01 567
JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

MySQL 2022-01-01 655
从Python字符串中删除不在允许列表中的HTML标签

从Python字符串中删除不在允许列表中的HTML标签

python 2022-01-01 813
在.NET中在换行符上拆分字符串的最简单方法？

在.NET中在换行符上拆分字符串的最简单方法？

dotnet 2022-01-01 681
在Elasticsearch中将字符串的默认映射更改为“未分析”

在Elasticsearch中将字符串的默认映射更改为“未分析”

其他 2022-01-01 637
如何在Dart中删除字符串的所有空格？

如何在Dart中删除字符串的所有空格？

其他 2022-01-01 537
如何在Java中将括号内的字符串（嵌套）匹配？

如何在Java中将括号内的字符串（嵌套）匹配？

java 2022-01-01 682
如何快速将数据转换为十六进制字符串

如何快速将数据转换为十六进制字符串

其他 2022-01-01 548
如何从ASP.NET中的字符串中删除HTML标签？

如何从ASP.NET中的字符串中删除HTML标签？

dotnet 2022-01-01 540
尝试通过JDBC将UTF-8插入MySQL时出现“字符串值错误”的问题？

尝试通过JDBC将UTF-8插入MySQL时出现“字符串值错误”的问题？

MySQL 2022-01-01 688
如何强迫JS进行数学运算，而不是将两个字符串放在一起

如何强迫JS进行数学运算，而不是将两个字符串放在一起

其他 2022-01-01 542
按字符串属性值对对象数组进行排序

按字符串属性值对对象数组进行排序

其他 2022-01-01 565
如何截断PHP中最接近一定数量字符的字符串？

如何截断PHP中最接近一定数量字符的字符串？

php 2022-01-01 429
使用JSON.net将枚举容器序列化为字符串

使用JSON.net将枚举容器序列化为字符串

dotnet 2022-01-01 465

近似字符串匹配-机器学习

撰写回答

推荐问题

近似字符串匹配-机器学习

python中的近似比较

具有多段三次贝塞尔曲线和距离以及曲率约束的近似数据

大致近似于Python中文本字符串的宽度？

在Python中检查较长字符串中存在的模糊/近似子字符串？

问题嵌套近似搜索算法

从数据库编译动态HTML字符串

突出显示字符串中的单词（如果包含关键字）

如何在iReport中打印另一个列表中包含的字符串列表？

如何在JavaScript中将字符串转换为布尔值？

在查询字符串中使用的ASP.Net URLEncode和号

如何在Swift中格式化本地化字符串？

将未知格式（任何格式）的字符串转换为日期

JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

从Python字符串中删除不在允许列表中的HTML标签

在.NET中在换行符上拆分字符串的最简单方法？

在Elasticsearch中将字符串的默认映射更改为“未分析”

如何在Dart中删除字符串的所有空格？

如何在Java中将括号内的字符串（嵌套）匹配？

如何快速将数据转换为十六进制字符串

如何从ASP.NET中的字符串中删除HTML标签？

尝试通过JDBC将UTF-8插入MySQL时出现“字符串值错误”的问题？

如何强迫JS进行数学运算，而不是将两个字符串放在一起

按字符串属性值对对象数组进行排序

如何截断PHP中最接近一定数量字符的字符串？

使用JSON.net将枚举容器序列化为字符串

分类汇总

您的鼓励是对我最大的支持