"你是什么意思?"算法的工作吗?

我一直在为一个投资组合管理工具开发一个内部网站。有很多文本数据，公司名称等。我对一些搜索引擎的能力印象深刻，它们可以非常快速地回答“你的意思是:xxxx”。

我需要能够智能地接受用户的查询，并不仅响应原始搜索结果，而且还响应“您的意思是?”当有一个极有可能的替代答案等

我正在开发ASP。NET (VB -别跟我过不去!)］

更新: 好吧，在没有数百万“付费用户”的情况下，我该如何模仿这种模式?

为每个“已知”或“正确”的术语生成拼写错误并执行查找? 还有其他更优雅的方法吗?

当前回答

这是我找到的最好的答案，由谷歌的研究总监Peter Norvig实施和描述的拼写纠正器。

如果你想了解更多这背后的理论，你可以阅读他书中的章节。

该算法的思想基于统计机器学习。

2014-03-12 06:29:58

其他回答

嗯…我认为谷歌使用他们庞大的数据语料库(互联网)来做一些严肃的NLP(自然语言处理)。

例如，他们拥有来自整个互联网的大量数据，以至于他们可以计算出三个单词序列出现的次数(称为三元组)。因此，如果他们看到一个句子:“pink frugr concert”，他们可以看到它的点击率很少，然后在语料库中找到最有可能的“pink * concert”。

他们显然只是做了Davide Gualano所说的一种变化，所以一定要阅读那个链接。谷歌当然使用它所知道的所有网页作为一个语料库，这使得它的算法特别有效。

2008-11-20 23:45:57

我猜…它可以

寻找词语如果没有找到，使用一些算法来尝试“猜测”这个词。

可能是来自人工智能的东西，比如Hopfield网络或反向传播网络，或者其他“识别指纹”，恢复损坏的数据，或者Davide已经提到的拼写纠正……

2008-11-20 23:45:25

谷歌显然建议搜索结果最好的问题，而不是拼写正确的问题。但在这种情况下，可能拼写纠正器会更可行。当然，您可以为每个查询存储一些值，基于它返回的结果有多好。

So,

You need a dictionary (english or based on your data) Generate a word trellis and calculate probabilities for the transitions using your dictionary. Add a decoder to calculate minimum error distance using your trellis. Of course you should take care of insertions and deletions when calculating distances. Fun thing is that QWERTY keyboard maximizes the distance if you hit keys close to each other.(cae would turn car, cay would turn cat) Return the word which has the minimum distance. Then you could compare that to your query database and check if there is better results for other close matches.

2008-11-21 01:17:17

几年前我在这方面看到过一些东西，所以可能已经改变了，但显然他们是通过分析相同用户在短时间内提交非常相似的查询的日志开始的，并根据用户如何纠正自己使用机器学习。

2008-11-20 23:46:48

最简单的方法是动态规划。

这是一种从信息检索中借来的算法，在现代生物信息学中大量使用，以查看两个基因序列有多相似。

最优解采用动态规划和递归。

这是一个已经解决的问题，有很多解决方案。在你找到一些开源代码之前，一直在你的周围打转。

2008-11-21 01:05:37

"你是什么意思?"算法的工作吗?

推荐文章

最新文章

标签