连在一起的一串字符组成的一种数据类型,连续的字符序列
a='cat' b='mouse'
content='''人生苦短, 我学python'''
不同字符所占字节数不同,要计算字符串长度,就需要计算每个字符所占的字节数3
一般使用len()函数计算字符串长度
默认情况下,len()函数不区分英文、数字和汉字,所有字符按一个字节计算
然而实际编程中,有时需要获取字符串实际所占的字节数,这时我们可以通过encode()方法对字符串进行解码后再进行获取
编码史简介
最早的字符串编码是美国的标准信息交换码(即ASCII码,只能表示256个符号)
随信息技术的发展,各国文字都需要进行编码,于是逐渐出现了各种编码方式,其中GBK是我国制定的中文编码标准,UTF-8是国际通用的编码(1个字节表示英文字符,3个字节表示中文字符),python3.X版本默认采用编码格式为UTF-8,能够有效解决中文乱码问题
字符串类型
python中有两种常见的字符串类型,str
和bytes
,str表示unicode字符4,bytes表示二进制数据,两种类型不能够拼接在一起使用,一般情况下,str在内存中以unicode表示,一个字符对应若干个字节,但如果在网络上传输就需要将str转换为bytes类型,这两种类型之间的转换就是解码和编码的过程
编码
encode()为str对象的方法,用于将字符串转换为二进制数据(bytes),称为编码
语法格式:str.encode(encoding,errors)
相关参数
参数 | 描述 |
---|---|
str | 需要转换的字符串 |
encoding | 可选参数,用于指定进行转码时采用的字符编码,默认UTF-8,如果使用简体中文 |
errors | 可选参数,用于指定错误处理方式,可选择值:(strict:遇到非法字符抛出异常,ignore:忽略非法字符,replace:使用“?”替换非法字符) |
解码
decode()方法是bytes对象的方法,将二进制数据转换为字符串,可认为与encode()方法互逆
语法格式:bytes.decode(encoding,errors)
相关参数
参数 | 描述 |
---|---|
bytes | 需要进行转换的二进制数据,通常是encode()方法转换的结果 |
encoding | 可选参数,指定解码时采用的字符编码,需要与编码时采用的编码类型相同 ,否则会报错 |
errors | 可选参数,用于指定错误处理方式,可选择值同上 |
字符 | 描述 |
---|---|
\ | 续行符 (后面不能出现任何字符,交互式输入时尤其需要注意) |
\ | 一个反斜杠 |
\’ | 等价于单引号‘ |
\" | 等价于双引号"" |
\000 | 空字符串 |
\b | 退格,将当前位置移到前一列 |
\n | 换行符,将当前位置移到下一行头 |
\r | 回车,将当前位置移到本行开头 |
\t | 制表符(对齐数据的各列,在不试用表格的情况下,可以上下对齐),将当前位置跳到下一个Tab位置 |
在使用Python语言编程时,转义字符可能会造成一定的干扰(如一个文件的系统路径),这时在一个字符串前面加“r”即可忽略该字符串中的所有转义字符
‘%’操作符
使用‘%’格式化字符串时,使用一个字符串作为模板,模板中含有格式符,这些格式符的作用是为真实值预留位置,并控制显示格式
格式化标记 | 控值的显示类型 |
---|---|
%c | 单个字符 |
%s | 字符串 |
%f | 浮点数 |
%b | 二进制整数 |
%o | 八进制整数 |
%d | 十进制整数 |
%x | 十六进制整数 |
%X | 无符号十六进制 |
%e、%E | 科学计数法,分别e和E表示 |
format()方法
字符串对象提供了format()方法进行字符串格式化,语法格式:str.format(需要转换的项)
5
str表示字符串模板,创建模板时,需要使用{}和:指定占位符,语法格式:{<参数序号>:<格式控制标记>}
参数 | 格式控制标记 |
---|---|
填充 | 用于填充的单个字符 |
对齐 | <:左对齐,>:右对齐,^:居中对齐 |
宽度 | 槽设定的输出宽度 |
, | 数字的千位分隔符 |
. | 浮点数精度 |
指定类型 | 整数类型:b,c,d,o,x,X 小数类型:e,E,% |
索引
表示每一个元素的位置的序号就是索引,索引从零开始计数
正向索引值 | 0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|---|
字符串 | p | y | t | h | o | n |
逆向索引值 | -6 | -5 | -4 | -3 | -2 | -1 |
使用格式:字符串[索引值]
切片
切片 | 描述 |
---|---|
str[m:n:p] | 截取字符串中第m+1到n个字符(左开右闭),可选参数p表示步长 |
str[:n] | 截取str第m+1到最后一个字符 |
str[m:] | 截取str第一个到第n个字符 |
str[-m:-n] | 截取倒数第m到倒数第n+1个字符 |
str[m:-n] | 截取第m+1到倒数第n+1个字符 |
分割
字符串的分割和合并分别可以使用字符串对象的strip()方法和join()方法实现
参数 | 描述 |
---|---|
s.join(seq) | 以s为连接符将seq连接为一个字符串(seq为可迭代对象) |
str.split(s) | 以s为分隔符将str分为多个子字符串并返回一个列表(相当于join的反过程) |
拼接
运算符‘+’和‘*’分别用于拼接和重复一个字符串
方法 | 描述 |
---|---|
str.lower() | 将字符串所有字母小写 |
str.upper() | 将字符串中所有字母大写 |
str.title() | 字符串所有单词首字母大写 |
str.capitalize() | 将字符串第一个字符转为大写(不改变原字符串) |
方法 | 描述 |
---|---|
str.count(str1) | 返回str1在str中出现的次数,str1不存在则返回0 |
str.find(str1) | 查找str1是否在str中,在返回其首字符的起始索引,否则返回-1 |
str.index(str1) | 检索str1在str中起始位置的索引(str1不存在则抛出异常) |
str.rindex(str1) | 从右边查找str1,找到后返回其正向索引 |
str.startswith(str1) | 判断字符串是否以str1开头 |
str.endswith(str2) | 判断字符串是否以str1结尾 |
str.replace(str1,str2) | 将str1替换为str2 |
replace用法举例
方法 | 描述 |
---|---|
str.strip([char]) | 去除字符串左右两侧的空格和特殊符号 ,可选参数char表示要去除的特殊符号(默认去除所有空白符) |
str.lstrip([char]) | 去除字符串左侧空格和特殊符号,参数同strip |
str.rstrip([char]) | 去除字符串右边的空格和特殊符号,参数同strip |
定义字符串不论使用单引号还是双引号,python中都以单引号储存
↩︎
(’’’ ‘’’)或(""" “”")括起来的字符串可以被当作文档字符串,文档字符串出现在一个模块、函数、类、方法的定义的第一个语句,给代码段提供解释说明,可以使用**doc**方法查看
↩︎
python中,数字、英文、小数点、下划线、空格占一个字节,一个汉字占2~4个字节(GBK中占用2字节,UTF-8中一般占用3字节) ↩︎
Unicode(统一码、万国码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求,可以说,“Unicode是世界各国合作开发的一种语言” ↩︎
format()方法一种简写的方法是在字符串前添加f,然后直接使用变量填充大括号
↩︎