|
Perl |
| Главная Perl | Документация учебники | Perl справочники | |
Регулярные выражения (шаблоны) Perl.В данной главе описывается синтаксис регулярных выражений. Чаще всего в Перл они используюстя в операторах поиска и замены таких как s// m/ операторах связки =~ или != и т.д. Как правило все эти операторы имеют схожие опции такие как: i - не различать строчные и
заглавные буквы Обычно все эти опции обозначают как '/x'. Их можно использовать даже внутри шаблонов использую новую конструкцию (?...) Регулярные выражения или шаблоны (pattern) то же самое что и regexp процедуры в Юниксе. Выражения и синтаксис заимствован из свободно распространяемых процедур V8 Генри Спенсера (Henry Spencer) там же они подробно и описаны. В шаблонах используются следующие метасимволы (символы обозначающие группы других символов) часто называемых egrep - стандартом: \ - считать следующий метасимвол
как обычный символ Метасимволы имеют модификаторы (пишутся после метасимвола): * - повторяется 0 или большее число
раз Во все других случаях фигурные скобки считаются обычными (регулярными) символами. Таким образом '*' эквивалентна {0,} , '+' - {1,} и '?' - {0,1}. n и m не могут быть больше 65536. По умолчанию действие метасимволов "жадно" (greedy). Совпадение распространяется столько раз сколько возможно не учитывая результат действия следуюющих метасимволов. Если вы хотите "уменьшить их аппетит" то используйте символ '?'. Это не изменяет значение метасимволов просто уменьшает распространение. Таким образом: *? - станет 0 и более Шаблоны работают так же, как и двойные кавычки поэтому в них можно использовать `\` - символы (бакслэш-символы): \t - символ табуляции Дополнительно в Перл добавлены следующие метасимволы: \w - алфавитно-цифровой или '_'
символ Обратите внимание что все это "один" символ. Для обозначения последовательности применяйте модификаторы. Так: \w+ - слово Кроме того существуют мнимые метасимволы. Обозначающие не существующие символы в месте смены значения. Такие как: \b - граница слова Граница слова (\b) - это мнимая точка между символами \w и \W. Внутри класса символов '\b' обозначает символ backspace (стирания). Метасимволы \A и \Z - аналогичны '^' и '$' но если началостроки '^' и конец строки '$' действуют для каждой строки в многосторочной строке, то \A и \Z обозначают начало и конец всей многосторчной строки. Если внутри шаблона применяется группировка (круглые скобки) то номер подстроки группы обозначается как '\цифра'. Заметьте что за шаблоном в пределах выражения или блока эти группы обозначаются как '$цифра'. Кроме этого существуют дополнительные переменные: $+ - обозначает последнее
совпадение Пример: $s = "Один 1 два 2 и три 3";
if ($s =~ /(\d+)\D+(\d+)/)
{
print "$1\n"; # Результат '1'
print "$2\n"; # '2'
print "$+\n"; # '2'
print "$&\n"; # '1 два 2'
print "$`\n"; # 'Один '
print "$'\n"; # ' и три 3'
}
Перл версии 5 содержит дополнительные конструкции шаблонов: (?#комментарий) - комментарий в
теле шаблона. Например /\w+(?=\t)/ соответствует слову, за которым идет табуляция, но символ '\t' не включается в результат. Пример: $s = "1+2-3*4";
if ($s =~ /(\d)(?=-)/) # Наити цифру за которой стоит '-'
{
print "$1\n"; # Результат '2'
} else {
print "ошибка поиска\n";
}
(?!шаблон) - "заглядывание" вперед по отрицанию. Пример: $s = "1+2-3*4";
if ($s =~ /(\d)(?!\+)/) # Наити цифру за которой не стоит '+'
{
print "$1\n"; # Результат '2'
} else {
print "ошибка поиска\n";
}
(?ismx) - "внутренние" модификаторы. Удобно применять в шаблонах, где например нужно внутри шаблона указать модификатор. Правила регулярного выражения. (regex)
|