"你是什么意思?"算法的工作吗?

我一直在为一个投资组合管理工具开发一个内部网站。有很多文本数据，公司名称等。我对一些搜索引擎的能力印象深刻，它们可以非常快速地回答“你的意思是:xxxx”。

我需要能够智能地接受用户的查询，并不仅响应原始搜索结果，而且还响应“您的意思是?”当有一个极有可能的替代答案等

我正在开发ASP。NET (VB -别跟我过不去!)］

更新: 好吧，在没有数百万“付费用户”的情况下，我该如何模仿这种模式?

为每个“已知”或“正确”的术语生成拼写错误并执行查找? 还有其他更优雅的方法吗?

当前回答

前段时间我发现了一篇文章:《如何编写拼写更正》，作者是Peter Norvig(谷歌公司的研究总监)。

这是一本关于“拼写纠正”主题的有趣读物。例子是用Python写的，但是很清楚，很容易理解，而且我认为算法可以很容易翻译成其他语言。

下面是该算法的简短描述。该算法包括两个步骤，准备和单词检查。

步骤1:准备-设置word数据库

最好是你能使用实际的搜索词和它们的出现。如果你没有，你可以用大量的文本来代替。计算每个单词的出现次数(流行度)。

步骤2。单词检查-找到与被检查的单词相似的单词

相似意味着编辑距离很低(通常是0-1或0-2)。编辑距离是将一个单词转换为另一个单词所需的插入/删除/更改/交换的最小数量。

从上一步中选择一个最流行的词，并建议它作为更正(如果不是这个词本身的话)。

其他回答

关于“did you mean”算法的理论可以参考《信息检索导论》第3章。它可以在网上免费下载。第3.3节(第52页)准确地回答了你的问题。为了明确回答你的更新，你只需要一个单词字典，不需要其他任何东西(包括数百万用户)。

前段时间我发现了一篇文章:《如何编写拼写更正》，作者是Peter Norvig(谷歌公司的研究总监)。

这是一本关于“拼写纠正”主题的有趣读物。例子是用Python写的，但是很清楚，很容易理解，而且我认为算法可以很容易翻译成其他语言。

下面是该算法的简短描述。该算法包括两个步骤，准备和单词检查。

步骤1:准备-设置word数据库

最好是你能使用实际的搜索词和它们的出现。如果你没有，你可以用大量的文本来代替。计算每个单词的出现次数(流行度)。

步骤2。单词检查-找到与被检查的单词相似的单词

相似意味着编辑距离很低(通常是0-1或0-2)。编辑距离是将一个单词转换为另一个单词所需的插入/删除/更改/交换的最小数量。

从上一步中选择一个最流行的词，并建议它作为更正(如果不是这个词本身的话)。

简单。他们有大量的数据。他们有每一个可能的术语的统计数据，基于它被查询的频率，以及它的什么变化通常会产生用户点击的结果……因此，当他们看到你在搜索词中经常拼写错误时，他们会提出更常见的答案。

实际上，如果拼写错误实际上是搜索频率最高的词，算法就会把它当成正确的词。

关于你的问题，如何在没有大量数据的情况下模仿行为——为什么不使用谷歌收集的大量数据呢?下载谷歌的sarch结果拼写错误的单词，并搜索“Did you mean:”在HTML中。

我猜现在这叫做混搭:-)

最简单的方法是动态规划。

这是一种从信息检索中借来的算法，在现代生物信息学中大量使用，以查看两个基因序列有多相似。

最优解采用动态规划和递归。

这是一个已经解决的问题，有很多解决方案。在你找到一些开源代码之前，一直在你的周围打转。

推荐文章