产品介绍网站html,怀化优化办,wordpress引导页html,苏州网站建设极简幕枫为了能用深度学习来解决现实世界的问题#xff0c;我们经常从预处理原始数据开始#xff0c; 而不是从那些准备好的张量格式数据开始。 在Python中常用的数据分析工具中#xff0c;我们通常使用pandas软件包。 像庞大的Python生态系统中的许多其他扩展包一样#xff0c;pan…为了能用深度学习来解决现实世界的问题我们经常从预处理原始数据开始 而不是从那些准备好的张量格式数据开始。 在Python中常用的数据分析工具中我们通常使用pandas软件包。 像庞大的Python生态系统中的许多其他扩展包一样pandas可以与张量兼容。 本节我们将简要介绍使用pandas预处理原始数据并将原始数据转换为张量格式的步骤。 后续将介绍更多的数据预处理技术。
读取数据集
举一个例子我们首先(创建一个人工数据集并存储在CSV逗号分隔值文件)../data/house_tiny.csv中。 以其他格式存储的数据也可以通过类似的方式进行处理。下面我们将数据集按行写入CSV文件中。
下面先简单介绍一下CSV文件
CSVComma-Separated Values文件即逗号分隔值文件是一种常见的简单文件格式用于存储表格数据。特点和用途- **简单易读**CSV 文件以纯文本形式存储表格数据每行数据表示一条记录**字段之间用逗号分隔**也可以使用其他字符如分号等作为分隔符但逗号是最常见的。
- **广泛支持**几乎所有的电子表格软件如Microsoft Excel、Google Sheets等和数据分析工具如Python的pandas库、R语言等都支持CSV文件的读取和写入使其成为数据交换的通用格式。
- **数据存储和传输**常用于在不同系统和软件之间传输和存储数据例如从数据库中导出数据、在网站上提供数据下载等。CSV文件因其简单性和通用性在数据处理和分析领域中被广泛应用是数据存储和交换的重要格式之一。import osos.makedirs(os.path.join(.., data), exist_okTrue)
data_file os.path.join(.., data, house_tiny.csv)
with open(data_file, w) as f:f.write(NumRooms,Alley,Price\n) # 列名f.write(NA,Pave,127500\n) # 每行表示一个数据样本f.write(2,NA,106000\n)f.write(4,NA,178100\n)f.write(NA,NA,140000\n)以下是对这段代码的解读### 1. 导入os模块import osos模块提供了与操作系统交互的功能例如文件和目录操作等。### 2. 创建目录os.makedirs(os.path.join(.., data), exist_okTrue)- os.path.join(.., data)使用os.path.join函数将..上一级目录和data拼接成一个完整的路径表示要在上一级目录下创建一个名为data的目录。
- os.makedirs用于创建多层目录。exist_okTrue表示如果目录已经存在不会引发异常而是直接跳过创建操作。### 3. 定义数据文件路径data_file os.path.join(.., data, house_tiny.csv)再次使用os.path.join将上一级目录、data目录和文件名house_tiny.csv拼接成完整的文件路径并将其赋值给变量data_file以便后续操作该文件。### 4. 写入CSV文件内容with open(data_file, w) as f:f.write(NumRooms,Alley,Price\n) # 列名f.write(NA,Pave,127500\n) # 每行表示一个数据样本f.write(2,NA,106000\n)f.write(4,NA,178100\n)f.write(NA,NA,140000\n)- with open(data_file, w) as f使用with语句打开文件data_file以写入模式w打开。with语句可以确保在操作完成后自动关闭文件即使在操作过程中出现异常也能正确关闭文件避免资源泄漏。
- 接下来的几行f.write语句分别写入了CSV文件的列名NumRooms,Alley,Price和几行数据样本每行数据样本由逗号分隔的字段组成分别对应房屋的房间数量NumRooms、小巷类型Alley和价格Price。其中NA表示缺失值。这段代码的主要作用是创建一个目录和一个简单的CSV文件并向该文件中写入一些房屋数据为后续的数据处理和分析提供基础数据。例如可以使用pandas等库读取这个CSV文件进行进一步的操作。要[从创建的CSV文件中加载原始数据集]我们导入pandas包并调用read_csv函数。该数据集有四行三列。其中每行描述了房间数量“NumRooms”、巷子类型“Alley”和房屋价格“Price”。
import pandas as pddata pd.read_csv(data_file)
print(data)处理缺失值
注意“NaN”项代表缺失值。[为了处理缺失的数据典型的方法包括 插值法 和 删除法] 其中插值法用一个替代值弥补缺失值而删除法则直接忽略缺失值。在(这里我们将考虑插值法)。
通过位置索引iloc我们将data分成inputs和outputs 其中前者为data的前两列而后者为data的最后一列。 对于inputs中缺少的数值我们用同一列的均值替换“NaN”项。
inputs, outputs data.iloc[:, 0:2], data.iloc[:, 2]
inputs inputs.fillna(inputs.mean())
print(inputs)[对于inputs中的类别值或离散值我们将“NaN”视为一个类别。] 由于“巷子类型”“Alley”列只接受两种类型的类别值“Pave”和“NaN”pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。 巷子类型为“Pave”的行会将“Alley_Pave”的值设置为1“Alley_nan”的值设置为0。缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。
inputs pd.get_dummies(inputs, dummy_naTrue)
print(inputs)转换为张量格式
[现在inputs和outputs中的所有条目都是数值类型它们可以转换为张量格式。] 当数据采用张量格式后可以通过在 :numref:sec_ndarray中引入的那些张量函数来进一步操作。
import torchX torch.tensor(inputs.to_numpy(dtypefloat))
y torch.tensor(outputs.to_numpy(dtypefloat))
X, y