【第7周笔记】文件和数据格式化

2022-05-03

10 min read

Python

Hits

课程笔记和选择题

notes

文件的理解

文件是数据的抽象和集合

文件是存储在辅助存储器上的数据序列

文件是数据存储的一种形式

文件展现形态：文本文件和二进制文件

文本文件 vs. 二进制文件

文本文件和二进制文件只是文件的展示方式

本质上，所有文件都是二进制形式存储

形式上，所有文件采用两种方式展示

文本文件
- 由单一特定编码组成的文件，如 UTF-8 编码
- 由于存在编码，也被看成是存储着的长字符串
- 适用于例如：.txt 文件、.py 文件等
二进制文件
- 直接由比特 0 和 1 组成，没有统一字符编码
- 一般存在二进制 0 和 1 的组织结构，即文件格式
- 适用于例如：.png 文件、.avi 文件等

“中国是个伟大的国家!”

文本形式：中国是个伟大的国家!
二进制形式：b’\xd6\xd0\xb9\xfa\xca\xc7\xb8\xf6\xce\xb0\xb4\xf3\xb5\xc4\xb9\xfa\xbc\xd2\xa3\xa1'

f.txt 文件保存: “中国是个伟大的国家!”

tf = open("f.txt", "rt")     # 文本形式打开文件
print(tf.readline())     # 输出：中国是个伟大的国家!
tf.close()

bf = open("f.txt", "rb")     # 二进制形式打开文件
print(bf.readline())     # 输出：b'\xd6\xd0\xb9\xfa\xca\xc7\xb8\xf6\xce\xb0\xb4\xf3\xb5\xc4\xb9\xfa\xbc\xd2\xa3\xa1'
bf.close()

文件的打开关闭

文件处理的步骤: 打开-操作-关闭

graph LR; A[文件的存储状态] -->|"a=open(,)"| B[文件的占用状态] B -->|"a.close()"| A

# 读文件
a.read(size)
a.readline(size)
a.readlines(hint)

# 写文件
a.write(s)
a.writelines(lines)
a.seek(offset)

<变量名> = open(<文件名>, <打开模式>)     # 文件的打开
<变量名>.close()     # 文件的关闭

文件的打开模式	描述
‘r’	只读模式，默认值，如果文件不存在，返回 FileNotFoundError
‘w’	覆盖写模式，文件不存在则创建，存在则完全覆盖
‘x’	创建写模式，文件不存在则创建，存在则返回 FileExistsError
‘a’	追加写模式，文件不存在则创建，存在则在文件最后追加内容
‘b’	二进制文件模式
’t'	文本文件模式，默认值
‘+’	与 r/w/x/a 一同使用，在原功能基础上增加同时读写功能

f = open("f.txt")     # 文本形式、只读模式、默认值
f = open("f.txt", "rt")     # 文本形式、只读模式、同默认值
f = open("f.txt", "w")     # 文本形式、覆盖写模式
f = open("f.txt", "a+")     # 文本形式、追加写模式+ 读文件
f = open("f.txt", "x")     # 文本形式、创建写模式
f = open("f.txt", "b")     # 二进制形式、只读模式
f = open("f.txt", "wb")     # 二进制形式、覆盖写模式

文件内容的读取

操作方法	描述	举例	输出
.read(size=-1)	读入全部内容，如果给出参数，读入前 size 长度	s = f.read(2)	中国
.readline(size=-1)	读入一行内容，如果给出参数，读入该行前 size 长度	s = f.readline()	中国是一个伟大的国家！
.readlines(hint=-1)	读入文件所有行，以每行为元素形成列表，如果给出参数，读入前 hint 行	s = f.readlines()	[‘中国是一个伟大的国家！’]

文件的全文本操作：遍历全文本

一次读入，统一处理

fname = input("请输入要打开的文件名称:")
fo = open(fname,"r")
txt = fo.read()     # 对全文 txt 进行处理
fo.close()

按数量读入，逐步处理

fname = input("请输入要打开的文件名称:")
fo = open(fname,"r")
txt = fo.read(2)
while txt != "":     # 对 txt 进行处理
    txt = fo.read(2)
fo.close()

文件的逐行操作：逐行遍历文件

一次读入，分行处理

fname = input("请输入要打开的文件名称:")
fo = open(fname,"r")
for line in fo.readlines():
    print(line)
fo.close()

分行读入，逐行处理

fname = input("请输入要打开的文件名称:")
fo = open(fname,"r")
for line in fo:
    print(line)
fo.close()

数据的文件写入

操作方法	描述	举例
.write(s)	向文件写入一个字符串或字节流	f.write(“中国是一个伟大的国家!”)
.writelines(lines)	将一个元素全为字符串的列表写入文件	ls = [“中国”, “法国”, “美国”] f.writelines(ls)
.seek(offset)	改变当前文件操作指针的位置，offset 含义如下：0 – 文件开头； 1 – 当前位置； 2 – 文件结尾	f.seek(0) # 回到文件开头

fo = open("output.txt","w+")
ls = ["中国", "法国", "美国"]
fo.writelines(ls)     # 写入一个字符串列表
for line in fo:
    print(line)     #（没有任何输出）
fo.close()

fo = open("output.txt","w+")
ls = ["中国", "法国", "美国"]
fo.writelines(ls)
fo.seek(0)     # 写入一个字符串列表
for line in fo:
    print(line)     # 输出：中国法国美国
fo.close()

数据组织的维度

一维数据
- 由对等关系的有序或无序数据构成，采用线性方式组织
- 对应列表、数组和集合等概念
二维数据
- 由多个一维数据构成，是一维数据的组合形式
- 表格是典型的二维数据，其中，表头是二维数据的一部分
多维数据：由一维或二维数据在新维度上扩展形成
高维数据：仅利用最基本的二元关系展示数据间的复杂结构

{
    "firstName" : "Tian" ,
    "lastName" : "Song" ,
    "address" : {
                "streetAddr" : "中关村南大街5号" ,
                "city" : "北京市" ,
                "zipcode" : "100081"
                } ,
    "professional" : ["Computer Networking" , "Security"]
}

数据的操作周期：存储 <-> 表示 <-> 操作

一维数据的格式化和处理

一维数据的表示

如果数据间有序：使用列表类型：ls = [3.1398, 3.1349, 3.1376]
- 列表类型可以表达一维有序数据
- for 循环可以遍历数据，进而对每个数据进行处理
如果数据间无序：使用集合类型：st = {3.1398, 3.1349, 3.1376}
- 集合类型可以表达一维无序数据
- for 循环可以遍历数据，进而对每个数据进行处理

一维数据的存储

空格分隔：中国美国日本德国法国英国意大利
- 使用一个或多个空格分隔进行存储，不换行
- 缺点：数据中不能存在空格
逗号分隔：中国,美国,日本,德国,法国,英国,意大利
- 使用英文半角逗号分隔数据进行存储，不换行
- 缺点：数据中不能有英文逗号
其他方式：中国$美国$日本$德国$法国$英国$意大利
- 使用其他符号或符号组合分隔，建议采用特殊符号
- 缺点：需要根据数据特点定义，通用性较差

一维数据的处理

存储 <-> 表示

将存储的数据读入程序

将程序表示的数据写入文件

一维数据的读入处理

txt = open(fname).read()
ls = txt.split()     # 从空格分隔的文件中读入数据
f.close()

txt = open(fname).read()
ls = txt.split("$")     # 从特殊符号分隔的文件中读入数据
f.close()

一维数据的写入处理

ls = ['中国', '美国', '日本']
f = open(fname, 'w')
f.write(' '.join(ls))     # 采用空格分隔方式将数据写入文件
f.close()

ls = ['中国', '美国', '日本']
f = open(fname, 'w')
f.write('$'.join(ls))     # 采用特殊分隔方式将数据写入文件
f.close()

二维数据的格式化和处理

二维数据的表示

列表类型可以表达二维数据

使用二维列表

使用两层 for 循环遍历每个元素

外层列表中每个元素可以对应一行，也可以对应一列

数据维度是数据的组织形式

一维数据：列表和集合类型
1. [3.1398, 3.1349, 3.1376] 数据间有序
2. {3.1398, 3.1349, 3.1376} 数据间无序

二维数据：列表类型

[ [3.1398, 3.1349, 3.1376], 
[3.1413, 3.1404, 3.1401] ]

CSV 数据存储格式

CSV：Comma-Separated Values

国际通用的一二维数据存储格式，一般 .csv 扩展名

每行一个一维数据，采用逗号分隔，无空行

Excel 和一般编辑软件都可以读入或另存为 csv 文件

如果某个元素缺失，逗号仍要保留

二维数据的表头可以作为数据存储，也可以另行存储

逗号为英文半角逗号，逗号与数据之间无额外空格

二维数据的存储

按行存或者按列存都可以，具体由程序决定

一般索引习惯：ls[row][column]，先行后列

根据一般习惯，外层列表每个元素是一行，按行存

二维数据的处理

fo = open(fname)
ls = []
for line in fo:
    line = line.replace("\n","")
    ls.append(line.split(","))     # 从 CSV 格式的文件中读入数据
fo.close()

ls = [[], [], []] #二维列表
f = open(fname, 'w')
for item in ls:
f.write(','.join(item) + '\n')     # 将数据写入 CSV 格式的文件
f.close()

二维数据的逐一处理：采用二层循环

ls = [[1,2], [3,4], [5,6]]     # 二维列表
for row in ls:
    for column in row:
        print(column)

wordcloud 库概述

wordcloud 是优秀的词云展示第三方库

词云以词语为基本单位，更加直观和艺术地展示文本

pip install wordcloud     # 安装 wordcloud 库

wordcloud 库基本使用

wordcloud 库把词云当作一个 WordCloud 对象

wordcloud.WordCloud() 代表一个文本对应的词云

可以根据文本中词语出现的频率等参数绘制词云

词云的绘制形状、尺寸和颜色都可以设定

wordcloud 库常规方法

w = wordcloud.WordCloud()

以 WordCloud 对象为基础

配置参数、加载文本、输出文件

wordcloud 库常规方法

方法	描述	举例
w.generate(txt)	向 WordCloud 对象 w 中加载文本 txt	w.generate(“Python and WordCloud”)
w.to_file(filename)	将词云输出为图像文件，.png 或.jpg 格式	w.to_file(“outfile.png”)

import wordcloud
c = wordcloud.WordCloud()     # 步骤1：配置对象参数
c.generate("wordcloud by Python")     # 步骤2：加载词云文本
c.to_file("pywordcloud.png")     # 步骤3：输出词云文件

文本 → 词云

分隔: 以空格分隔单词
统计: 单词出现次数并过滤
字体: 根据统计配置字号
布局: 颜色环境尺寸

配置对象参数

w = wordcloud.WordCloud(<参数>)

参数	描述	举例
width	指定词云对象生成图片的宽度，默认 400 像素	w=wordcloud.WordCloud(width=600)
height	指定词云对象生成图片的高度，默认 200 像素	w=wordcloud.WordCloud(height=400)
min_font_size	指定词云中字体的最小字号，默认 4 号	w=wordcloud.WordCloud(min_font_size=10)
max_font_size	指定词云中字体的最大字号，根据高度自动调节	w=wordcloud.WordCloud(max_font_size=20)
font_step	指定词云中字体字号的步进间隔，默认为 1	w=wordcloud.WordCloud(font_step=2)
font_path	指定字体文件的路径，默认 None	w=wordcloud.WordCloud(font_path=“msyh.ttc”)
max_words	指定词云显示的最大单词数量，默认 200	w=wordcloud.WordCloud(max_words=20)
stop_words	指定词云的排除词列表，即不显示的单词列表	w=wordcloud.WordCloud(stop_words={“Python”})
mask	指定词云形状，默认为长方形，需要引用 imread() 函数	»>from scipy.misc import imread »>mk=imread(“pic.png”) »>w=wordcloud.WordCloud(mask=mk)
background_color	指定词云图片的背景颜色，默认为黑色	w=wordcloud.WordCloud(background_color=“white”)

测验 7

以下选项对文件描述错误的是：B
A. 文件是存储在辅助存储器上的数据序列
B. 文件是程序的集合和抽象
C. 文件可以包含任何内容
D. 文件是数据的集合和抽象

函数或类是程序的集合和抽象，文件不是。

关于文件关闭的 close() 方法，哪个选项的描述是正确的？D
A. 如果文件是只读方式打开，仅在这种情况下可以不用 close() 方法关闭文件
B. 文件处理结束之后，一定要用 close() 方法关闭文件
C. 文件处理遵循严格的“打开-操作-关闭”模式
D. 文件处理后可以不用 close() 方法关闭文件，程序退出时会默认关闭

打开文件后采用 close() 关闭文件是一个好习惯。如果不调用 close()，当前 Python 程序完全运行退出时，该文件引用被释放，即程序退出时，相当于调用了 close()。

对于 Python 文件，以下描述正确的是：C
A. 当文件以文本方式打开时，读取按照字节流方式
B. 根据不同类型的文件，打开方式只能是文本或者二进制中的一种
C. 同一个文件可以既采用文本方式打开，也可以采用二进制方式打开
D. 当文件以二进制文件方式打开时，读取按照字符串方式

文件就在那里，二进制或文本方式打开只是对其不同的程序理解。

二维列表 ls=[[1,2,3], [4,5,6],[7,8,9]]，哪个选项能获取其中元素 5？C
A. ls[4]
B. ls[-1][-1]
C. ls[1][1]
D. ls[-2][-1]

这是二维切片的使用方式。

关于 CSV 文件的描述，哪个选项的描述是错误的？D
A. CSV 文件格式是一种通用的、相对简单的文件格式，应用于程序之间转移表格数据
B. 整个 CSV 文件是一个二维数据
C. CSV 文件的每一行是一维数据，可以使用Python中的列表类型表示
D. CSV 文件通过多种编码表示字符

一般来说，CSV 文件都是文本文件，由相同编码字符组成。

给定列表 ls = [1, 2, 3, “1”, “2”, “3”]，其元素包含 2 种数据类型，哪个选项是列表 ls 的数据组织维度？A
A. 一维数据
B. 高维数据
C. 二维数据
D. 多维数据

列表元素如果都是列表，其可能表示二维数据，例如：[[1,2], [3,4], [5,6]]。
如果列表元素不都是的将列表，则它表示一维数据。

以下选项不是 Python 文件读操作的是：C
A. readline()
B. read()
C. readtext()
D. readlines()

没有 readtext() 方法

关于 Python 文件的 ‘+’ 打开模式，哪个选项的描述是正确的？C
A. 追加写模式
B. 只读模式
C. 与 r/w/a/x 一同使用，在原功能基础上增加同时读写功能
D. 覆盖写模式

‘+’ 打开模式的精髓在于它能够同时赋予文件的读写权限。

关于数据组织的维度，哪个选项的描述是错误的？A
A. 数据组织存在维度，字典类型用于表示一维和二维数据
B. 二维数据采用表格方式组织，对应于数学中的矩阵
C. 高维数据由键值对类型的数据构成，采用对象方式组织
D. 一维数据采用线性方式组织，对应于数学中的数组和集合等概念

字典用于表示高维数据，一般不用来表示一二维数据。

Python 对文件操作采用的统一步骤是：A
A. 打开—操作—关闭
B. 操作—读取—写入
C. 打开—读取—写入—关闭
D. 打开—读写—写入

打开—操作—关闭是一个统一步骤，其中，关闭可以省略。

【第7周笔记】文件和数据格式化

notes

文件的理解

文本文件 vs. 二进制文件

文件的打开关闭

文件内容的读取

数据的文件写入

数据组织的维度

一维数据的格式化和处理

二维数据的格式化和处理

二维数据的表示

CSV 数据存储格式

二维数据的存储

二维数据的处理

wordcloud 库概述

wordcloud 库基本使用

wordcloud 库常规方法

wordcloud 库常规方法

配置对象参数

测验 7

Safé.Café - 安全咖

On This Page