Поиск в строках, массивах, последовательностях:
Точный поиск подстроки в строке.

     В данном обзоре мне хотелось бы рассмотреть наиболее известные алгоритмы поиска. На самом деле их гораздо больше, однако многие мне показались уж слишком неоптимальными.

     Описание алгоритмов я перевел, взяв статью 'EXACT STRING MATCHING ALGORITHMS' авторов Christian Charras - Thierry Lecroq.

     Оригинал статьи находится на http://www-igm.univ-mlv.fr/~lecroq/string/index.html

Данные алгоритмы ищут все вхождения подстроки в текст.

Для практических целей рекомендуются в первую очередь улучшения Боуера-Мура:
Боуер-Мур-Хорспул, Быстрый поиск, Оптимальное несовпадение, Максимальный сдвиг и Турбо-БМ,
а также несколько специфичные Турбо-обращение сегмента и Сдвиг-Или.

Обозначения и определения.

Термины не обязательно запоминать: будут в алгоритме - вернетесь.

Искомый образец - строка x = x [ 0 ... m - 1 ]; его длина m.
Текст - строка y = y [ 0 ... n - 1 ]; его длина n.

Алфавит ( множество символов, из которых составлены текст и образец ) - S, в нем s символов.
Слово u - префикс cлова w, если существует слово v : w = uv.
Слово v - суффикс cлова w, если существует слово u : w = uv.
Слово z - подстрока слова w, если существуют u и v : w = uzv.
Слово u - период слова w, если w - префикс слова u^k для целого k. Наименьший период мы далее и будем называть периодом и обозначать per(w).
Cлово w длины l - периодичное, если длина per(w) <= l/2, в противном случае оно непериодичное.
Слово называется фундаментальным, если оно не может быть записано в виде степени другого слова, то есть не существует z : w = z^l.
Cлово z - граница слова w, если существуют u и w : w = uz = zv, z - одновременно префикс и суффикс w.
Обращение слова w длины l обозначается w^R - зеркальный образ w; w^R = w[ l-1 ]w[ l-2 ] ... w[1]w[0].

В программах будут использованы следующие функции и константы:

константа ASIZE - размер алфавита,
константа WORD - размер компьютерного слова в битах, обычно 16
константа XSIZE - размер образца,
функция ERROR сообщает об ошибке,
функции MIN / MAX - минимум / максимум,
функция OUTPUT возвращает позицию начала совпадения относительно начала текста.

В остальном же все, я надеюсь, следует стандарту Aнси - Си.

Алгоритмы.

Алгоритм	Время на пред. обработку	Среднее время поиска	Худшее время поиска	Затраты памяти	Примечания
Алгоритм грубой силы	Нет	2*n	O(n*m)	Нет	Mалые трудозатраты на программу
Построение автомата	O(s+m)	O(n)	O(n)	O(s*m)	-
Алгоритм Карпа-Рабина	Нет	O(n+m)	O(n*m)	Нет	-
Алгоритм Сдвига-Или	O(s+m)	O(n)	O(n)	-	Хорош, если длина образца <= размера компьютерного слова. Легко адаптируем к приблизительному сравнению
Алгоритм Морриса-Пратта	O(m)	O(n+m)	O(n+m)	O(m)	-
Алгоритм Кнута-Морриса-Пратта	O(m)	O(n+m)	O(n+m)	O(m)	-
'Не такой уж наивный' алгоритм	O(1)	O(n+m)	O(n*m)	O(1)	Время и место для предобработки - константа.
Алгоритм Боуера-Мура	O(m+s)	O(n+m)	O(n*m)	O(m+s)	Алгоритмы этой группы наиболее эффективны в обычных ситуациях. Быстродействие повышается при увеличении образца или алфавита.
Tурбо-БМ	O(m+s)	O(n+m)	2*n	O(m+s)	Улучшение предыдущего алгоритма.
Алгоритм Боуера-Мура-Хорспула	O(m+s)	O(n+m)	O(n*m)	O(m+s)	Легок в реализации. Так же эффективен, как и БМ.
Быстрый поиск	O(m+s)	O(n+m)	O(n*m)	O(m+s)	Очень быстрый алгоритм для обычных текстов и поиска. Эффективность падает с увеличением длины образца, но возрастает - с увеличением алфавита.
Алгоритм обращения сегмента	O ( m )	O(n(log_sm)/m)	O(n*m)	O ( m )	-
Турбо - обращение сегмента	O ( m )	O(n(log_sm)/m)	2n	O ( m )	маленький алфавит и длинный образец
Алгоритм оптимального несовпадения	O(m+s)	O(n+m)	O(n*m)	O(m+s)	Очень быстрый алгоритм для обычных текстов и поиска. Большой объем предварительных вычислений.
Алгоритм максимального сдвига	O(m+s)	O(n+m)	O(n*m)	O(m+s)	Очень быстрый алгоритм для обычных текстов и поиска. Большой объем предварительных вычислений.

Вверх по странице, к оглавлению и навигации

Поиск в строках, массивах, последовательностях: Точный поиск подстроки в строке.

Обозначения и определения.

Алгоритмы.

Поиск в строках, массивах, последовательностях:
Точный поиск подстроки в строке.