Работа со строками

Строками в языках программирования принято называть упорядоченные последовательности символов, которые используются для представления любой текстовой информации. В Python они являются самостоятельным типом данных, а значит при помощи встроенных функций языка над ними можно производить различные операции и форматировать их для вывода.

Создание

Получить новую строку можно несколькими способами: при помощи соответствующего литерала либо же вызвав готовую функцию. Для начала рассмотрим первый метод, который продемонстрирован ниже. Здесь переменная string получает значение some text, благодаря оператору присваивания. Вывести на экран созданную строку помогает функция print.

string = 'some text'
print(string)

some text

Как видно из предыдущего примера, строковый литерал обрамляется в одиночные кавычки. Если необходимо, чтобы данный символ был частью строки, следует применять двойные кавычки, как это показано в следующем фрагменте кода. Из результатов его работы видно, что новая строка включает в себя текст some ‘new’ text, который легко выводится на экран.

string = "some 'new' text"
print(string)

some 'new' text

Иногда возникает потребность в создании объектов, включающих в себя сразу несколько строк с сохранением форматирования. Эту задачу поможет решить троекратное применение символа двойных кавычек для выделения литерала. Объявив строку таким образом, можно передать ей текст с неограниченным количеством абзацев, что показано в данном коде.

string = """some 'new' text
with new line here"""
print(string)

some 'new' text
with new line here

Специальные символы

Пользоваться тройными кавычками для форматирования строк не всегда удобно, так как это порой занимает слишком много места в коде. Чтобы задать собственное форматирование текста, достаточно применять специальные управляющие символы с обратным слэшем, как это показано в следующем примере. Здесь используется символ табуляции \t, а также знак перехода на новую строку \n. Метод print демонстрирует вывод нового объекта на экран.

string = "some\ttext\nnew line here"
print(string)

some    text
new line here

Служебные символы для форматирования строк выполняют свои функции автоматически, но иногда это мешает, к примеру, когда требуется сохранить путь к файлу на диске. Чтобы их отключить, необходимо применить специальный префикс r перед первой кавычкой литерала. Таким образом, обратные слэши будут игнорироваться программой во время ее запуска.

string = r"D:\dir\new"

Следующая таблица демонстрирует перечень всех используемых в языке Python служебных символов для форматирования строк. Как правило, большинство из них позволяют менять положение каретки для выполнения перевода строки, табуляции или возврата каретки.

Символ Назначение
\n Перевод каретки на новую строку
\b Возврат каретки на один символ назад
\f Перевод каретки на новую страницу
\r Возврат каретки на начало строки
\t Горизонтальная табуляция
\v Вертикальная табуляция
\a Подача звукового сигнала
\N Идентификатор базы данных
\u, \U 16-битовый и 32-битовый символ Unicode
\x Символ в 16-ричной системе исчисления
\o Символ в 8-ричной системе исчисления
\0 Символ Null

Очень часто испльзуется \n. С помощью него осуществляется в Python перенос строки. Рассмотрим пример:

print('first\nsecond')

first
second

Форматирование

Выполнить форматирование отдельных частей строки, задав в качестве ее компонентов некие объекты программы позволяет символ %, указанный после литерала. В следующем примере показано, как строковый литерал включает в себя не только текст, но также строку и целое число. Стоит заметить, что каждой переменной в круглых скобках должен соответствовать специальный символ в самом литерале, обладающий префиксом % и подходящим значением.

string = "text"
number = 10
newString = "this is %s and digit %d" % (string, number)
print(newString)

this is text and digit 10

В приведенном ниже фрагменте кода демонстрируется использование форматирования для вывода строки с выравниванием по правому краю (общая длина символов указана как 10).

string = "text"
newString = "%+10s" % string
print(newString)

text

Данная таблица содержит в себе все управляющие символы для форматирования строк в Python, каждый из которых обозначает определенный объект: числовой либо же символьный.

Символ Назначение
%d, %i, %u Число в 10-ричной системе исчисления
%x, %X Число в 16-ричной системе исчисления с буквами в нижнем и верхнем регистре
%o Число в 8-ричной системе исчисления
%f, %F Число с плавающей точкой
%e, %E Число с плавающей точкой и экспонентой в нижнем и верхнем регистре
%c Одиночный символ
%s, %r Строка из литерала и обычная
%% Символ процента

Более удобное форматирование выполняется с помощью функции format. Ей необходимо передать в качестве аргументов объекты, которые должны быть включены в строку, а также указать места их расположения с помощью числовых индексов, начиная с нулевого.

string = "text"
number = 10
newString = "this is {0} and digit {1}".format(string, number)
print(newString)

this is text and digit 10

В следующем примере показано как можно отцентрировать строку, воспользовавшись методом format и специальными символами. Изначальный текст здесь перемещается в самый центр строки, в то время как пустое пространство заполняется символом *.

string = "text"
newString = "{:*^10}".format(string)
print(newString)

***text***

Следующая таблица отображает специальные символы для выравнивания строк и вывода чисел с необходимым форматом знаков для положительных и отрицательных объектов.

Символ Назначение
‘<‘ Выравнивание строки по левому краю с символами-заполнителями справа
‘>’ Выравнивание строки по правому краю с символами-заполнителями слева
‘=’ Выравнивание с символами-заполнителями после знака числа, но перед его цифрами
‘^’ Выравнивание строки по центру с символами-заполнителями с обеих сторон
‘+’ Применение знака для любых чисел
‘-‘ Применение знака для отрицательных чисел и ничего для положительных
‘ ‘ Применение знака для отрицательных чисел и пробела для положительных

Операции над строками

Прежде чем перейти к функциям для работы со строками, следует рассмотреть основные операции с ними, которые позволяют быстро преобразовывать любые последовательности символов. При помощи знака плюс можно производить конкатенацию строк, соединяя их вместе. В следующем примере продемонстрировано объединение this is new и text.

string = "text"
newString = "this is new " + string
print(newString)

this is new text

Пользуясь символом умножения, программист получает возможность дублировать строку любое количество раз. В данном коде слово text записывается в новую строку трижды.

string = "text "
newString = string * 3
print(newString)

text text text

Как и в случае с числами, со строками можно использовать операторы сравнения, например двойное равно. Очевидно, что литералы some text и some new text разные, поэтому вызов метода print выводит на экран булево значение False для строк string и newString.

string = "some text"
newString = "some new text"
print(string == newString)

False

Операции над строками позволяют получать из них подстроки, делая срезы, как с обычными элементами последовательностей. В следующем примере, необходимо лишь указать нужный интервал индексов в квадратных скобках, помня, что нумерация осуществляется с нуля.

string = "some text"
newString = string[2:4]
print(newString)

me

Отрицательный индекс позволяет обращаться к отдельным символами строки не с начала, а с конца. Таким образом, элемент под номером -2 в строке some text является буквой x.

string = "some text"
print(string[-2])

x

Методы и функции

Очень часто используется для приведения типов к строковому виду функция str. С ее помощью можно создать новую строку из литерала, который передается в качестве аргумента. Данный пример демонстрирует инициализацию переменной string новым значением some text.

string = str("some text")
print(string)

some text

Аргументом этой функции могут быть переменные разных типов, например числа или списки. Эта функция позволяет в Python преобразовать в строку разные типы данных. Если вы создаете свой класс, то желательно определить для него метод __str__. Этот метод должен возвращать строку, которая будет возвращена в случае, когда в качестве аргумента str будет использован объект вашего класса.

В Python получения длины строки в символах используется функция len. Как видно из следующего фрагмента кода, длина объекта some text равняется 9 (пробелы тоже считаются).

string = "some text"
print(len(string))

9

Метод find позволяет осуществлять поиск в строке. При помощи него в Python можно найти одиночный символ или целую подстроку в любой другой последовательности символов. В качестве результата своего выполнения он возвращает индекс первой буквы искомого объекта, при этом нумерация осуществляется с нуля.

string = "some text"
print(string.find("text"))

5

Метод replace служит для замены определенных символов или подстрок на введенную программистом последовательность символов. Для этого необходимо передать функции соответствующие аргументы, как в следующем примере, где пробелы заменяются на символ ‘-‘.

string = "some text"
print(string.replace(" ", "-"))

some-text

Для того чтобы разделить строку на несколько подстрок при помощи указанного разделителя, следует вызвать метод split. По умолчанию его разделителем является пробел. Как показано в приведенном ниже примере, some new text трансформируется в список строк strings.

string = "some new text"
strings = string.split()
print(strings)

['some', 'new', 'text']

Выполнить обратное преобразование, превратив список строк в одну можно при помощи метода join. В следующем примере в качестве разделителя для новой строки был указан пробел, а аргументом выступил массив strings, включающий some, new и text.

strings = ["some", "new", "text"]
string = " ".join(strings)
print(string)

some new text

Наконец, метод strip используется для автоматического удаления пробелов с обеих сторон строки, как это показано в следующем фрагменте кода для значения объекта string.

string = "   some new text   "
newString = string.strip()
print(newString)

some new text

Ознакомиться с функциями и методами, используемыми в Python 3 для работы со строками можно из данной таблицы. В ней также приведены методы, позволяющие взаимодействовать с регистром символов.

Метод Назначение
str(obj) Преобразует объект к строковому виду
len(s) Возвращает длину строки
find(s, start, end), rfind(s, start, end) Возвращает индекс первого и последнего вхождения подстроки в s или -1, при этом поиск идет в границах от start до end
replace(s, ns) Меняет выбранную последовательность символов в s на новую подстроку ns
split(c) Разбивает на подстроки при помощи выбранного разделителя c
join(c) Объединяет список строк в одну при помощи выбранного разделителя c
strip(s), lstrip(s), rstrip(s) Убирает пробелы с обоих сторон s, только слева или только справа
center(num, c), ljust(num, c), rjust(num, c) Возвращает отцентрированную строку, выравненную по левому и по правому краю с длиной num и символом c по краям
lower(), upper() Перевод всех символов в нижний и верхний регистр
startwith(ns), endwith(ns) Проверяет, начинается ли или заканчивается строка подстрокой ns
islower(), isupper() Проверяет, состоит ли строка только из символов в нижнем и верхнем регистре
swapcase() Меняет регистр всех символов на противоположный
title() Переводит первую букву каждого слова в верхний регистр, а все остальные в нижний
capitalize() Переводит первую букву в верхний регистр, а все остальные в нижний
isalpha() Проверяет, состоит ли только из букв
isdigit() Проверяет, состоит ли только из цифр
isnumeric() Проверяет, является ли строка числом

Кодировка

Чтобы задать необходимую кодировку для используемых в строках символов в Python достаточно поместить соответствующую инструкцию в начало файла с кодом, как это было сделано в следующем примере, где используется utf-8. С помощью префикса u, который стоит перед литералом, можно помечать его соответствующей кодировкой. В то же время префикс b применяется для литералов строк с элементами величиной в один байт.

# coding: utf-8
string = u'some text'
newString = b'text'

Производить кодирование и декодирование отдельных строк с заданной кодировкой позволяют встроенные методы decode и encode. Аргументом для них является название кодировки, как в следующем примере кода, где применяется наименование utf-8.

string = string.decode('utf8')
newString = newString.encode('utf8')