漫画：如何优化 “字符串匹配算法”？ - 为之网

Java教程

漫画：如何优化 “字符串匹配算法”？

本文主要是介绍漫画：如何优化 “字符串匹配算法”？，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

小灰程序员小灰

说起“字符串匹配”，恐怕算得上是计算机领域应用最多的功能之一，为了满足这一需求，聪明的计算机科学家们发明了许多巧妙的算法。

在上一篇漫画中，我们介绍了BF算法和RK算法，没看过的小伙伴可以先补补课：

漫画：什么是字符串匹配算法？

今天，我们来介绍一种性能大大优化的字符串匹配算法。

BF算法是如何工作的？

正如同它的全称BruteForce一样，BF算法使用简单粗暴的方式，对主串和模式串进行逐个字符的比较。

比如给定主串和模式串如下：

它们的比较过程是什么样的呢？

第一轮，模式串和主串的第一个等长子串比较，发现第0位字符一致，第1位字符一致，第2位字符不一致：

第二轮，模式串向后挪动一位，和主串的第二个等长子串比较，发现第0位字符不一致：

第三轮，模式串继续向后挪动一位，和主串的第三个等长子串比较，发现第0位字符不一致：

以此类推，一直到第N轮：

当模式串挪动到某个合适位置，逐个字符比较，发现每一位字符都是匹配时，比较结束：

坏字符规则

“坏字符” 是什么意思？就是指模式串和子串当中不匹配的字符。

还以上面的字符串为例，当模式串和主串的第一个等长子串比较时，子串的最后一个字符T就是坏字符：

当检测到第一个坏字符之后，我们有必要让模式串一位一位向后挪动和比较吗？并不需要。

因为只有模式串与坏字符T对齐的位置也是字符T的情况下，两者才有匹配的可能。

不难发现，模式串的第1位字符也是T，这样一来我们就可以对模式串做一次“乾坤大挪移”，直接把模式串当中的字符T和主串的坏字符对齐，进行下一轮的比较：

坏字符的位置越靠右，下一轮模式串的挪动跨度就可能越长，节省的比较次数也就越多。这就是BM算法从右向左检测的好处。

接下来，我们继续逐个字符比较，发现右侧的G、C、G都是一致的，但主串当中的字符A，是又一个坏字符：

我们按照刚才的方式，找到模式串的第2位字符也是A，于是我们把模式串的字符A和主串中的坏字符对齐，进行下一轮比较：

接下来，我们继续逐个字符比较，这次发现全部字符都是匹配的，比较公正完成：

好后缀规则

“好后缀” 又是什么意思？就是指模式串和子串当中相匹配的后缀。

让我们看一组新的例子：

对于上面的例子，如何我们继续使用“坏字符规则”，会有怎样的效果呢？

从后向前比对字符，我们发现后面三个字符都是匹配的，到了第四个字符的时候，发现坏字符G：

接下来我们在模式串找到了对应的字符G，但是按照坏字符规则，模式串仅仅能够向后挪动一位：

这时候坏字符规则显然并没有起到作用，为了能真正减少比较次数，轮到我们的好后缀规则出场了。由于好后缀规则的实现细节比坏字符规则要难理解得多，所以我们这里只介绍一个大概思路：

我们回到第一轮的比较过程，发现主串和模式串都有共同的后缀“GCG”，这就是所谓的“好后缀”。

如果模式串其他位置也包含与“GCG”相同的片段，那么我们就可以挪动模式串，让这个片段和好后缀对齐，进行下一轮的比较：

显然，在这个例子中，采用好后缀规则能够让模式串向后移动更多位，节省了更多无谓的比较。

—————END—————

这篇关于漫画：如何优化 “字符串匹配算法”？的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

您可能喜欢

栏目导航

前端开发

HTML5教程

CSS教程

Javascript

jQuery教程

AJAX教程

Node.js教程

XML教程

正则表达式

后端开发

Go教程

C/C++教程

消息队列MQ

Net Core教程

Asp.net教程

Java教程

PHP教程

移动端开发

微信公众号开发

小程序开发

Swift教程

IOS教程

Kotlin教程

Android开发

数据库

Redis教程

MongoDB教程

PostgreSQL教程

Oracle教程

MariaDB教程

SqLite教程

MySql教程

SqlServer教程

服务器运维

Kubernetes

Docker容器

linux shell

Nginx教程

网站安全

PowerShell教程

Linux教程

人工智能

TensorFlow教程

Python教程

机器学习

人工智能学习

区块链

区块链技术

游戏开发

游戏编程

Unity3D教程

网站运营

网站策划

网站优化

建站知识

大数据/云计算

云计算

Hadoop教程

软件工程

软件/开发工具使用

Git教程

资讯