本教程将向您介绍如何在tf.estimator中创建输入函数。 您将了解如何构建input_fn
以预处理数据并将数据输入到模型中。 然后,您将执行input_fn
,将训练,评估和预测数据输入到神经网络回归器中,以预测房屋中值的中位数。
input_fn
用于将特征和目标数据传递给列车
,评估
和预测
用户可以在T4>估算 T4>。
input_fn
中执行特征工程或预处理。 下面是从tf.estimator快速入门教程中的一个示例:
import numpy as np
training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
filename=IRIS_TRAINING, target_dtype=np.int, features_dtype=np.float32)
train_input_fn = tf.estimator.inputs.numpy_input_fn(
x={"x": np.array(training_set.data)},
y=np.array(training_set.target),
num_epochs=None,
shuffle=True)
classifier.train(input_fn=train_input_fn, steps=2000)
以下代码演示了输入函数的基本框架:
def my_input_fn():
# Preprocess your data here...
# ...then return 1) a mapping of feature columns to Tensors with
# the corresponding feature data, and 2) a Tensor containing labels
return feature_cols, labels
输入函数的主体包含用于预处理输入数据的特定逻辑,例如清理不好的示例或特征缩放。
输入函数必须返回以下两个值,其中包含要输入到模型中的最终特征和标签数据(如上面的代码框架所示):
feature_cols
Tensor
s(或SparseTensor
)的键/值对的词典,其中包含相应的要素数据。
标签
张量
:您的模型旨在预测的值。
如果你的特征/标签数据是一个python数组或存储在pandas数据框或numpy数组中,你可以使用以下方法来构造input_fn
:
import numpy as np
# numpy input_fn.
my_input_fn = tf.estimator.inputs.numpy_input_fn(
x={"x": np.array(x_data)},
y=np.array(y_data),
...)
import pandas as pd
# pandas input_fn.
my_input_fn = tf.estimator.inputs.pandas_input_fn(
x=pd.DataFrame({"x": x_data}),
y=pd.Series(y_data),
...)
对于稀疏分类数据(大多数值为0的数据),您将改为填充SparseTensor
,该实例使用三个参数实例化:
dense_shape
dense_shape = [3,6]
指定了一个二维3x6张量,dense_shape = [2,3,4]
指定了一个三维2x3x4张量,并且dense_shape = [9]
指定具有9个元素的一维张量。
指数
indices = [[1,3],[2,4]]
指定索引为[1,3]和[2,4]的元素具有非零值。
值
i
in values
对应于indices
中的i
项并指定其值。 例如,给定indices = [[1,3],[2,4]]
,参数values = [18,3.6]
指定元素[1,3 ]的张量值为18,张量元素[2,4]的值为3.6。
以下代码定义了具有3行和5列的二维SparseTensor
。 索引为[0,1]的元素的值为6,索引为[2,4]的元素的值为0.5(所有其他值均为0):
sparse_tensor = tf.SparseTensor(indices=[[0,1], [2,4]],
values=[6, 0.5],
dense_shape=[3, 5])
这对应于以下稠密张量:
[[0, 6, 0, 0, 0]
[0, 0, 0, 0, 0]
[0, 0, 0, 0, 0.5]]
有关SparseTensor
的更多信息,请参见tf.SparseTensor
。
要将数据提供给您的模型进行培训,只需将您创建的输入函数作为input_fn
参数的值传递给train
操作,例如:
classifier.train(input_fn=my_input_fn, steps=2000)
请注意,input_fn
参数必须接收函数对象(即input_fn = my_input_fn
),而不是函数调用的返回值(input_fn = my_input_fn / T2>)。
这意味着如果您尝试将参数传递给train
调用中的input_fn
,如下面的代码所示,它将导致TypeError
:
classifier.train(input_fn=my_input_fn(training_set), steps=2000)
但是,如果您希望能够对输入函数进行参数化,还有其他方法可以这样做。 你可以使用一个不包含参数的包装函数作为你的input_fn
,并用它来调用你所需要的参数的输入函数。 例如:
def my_input_fn(data_set):
...
def my_input_fn_training_set():
return my_input_fn(training_set)
classifier.train(input_fn=my_input_fn_training_set, steps=2000)
或者,您可以使用Python的functools.partial
函数构建一个新的函数对象,其中所有参数值都是固定的:
classifier.train(
input_fn=functools.partial(my_input_fn, data_set=training_set),
steps=2000)
第三个选项是将input_fn
调用包装在lambda
中,并将其传递给input_fn
参数:
classifier.train(input_fn=lambda: my_input_fn(training_set), steps=2000)
如上所示设计输入流水线的一大优势 - 接受数据集的参数 - 您可以将相同的input_fn
传递给evaluate
和predict < / t2>操作,只需更改数据集参数即可,例如:
classifier.evaluate(input_fn=lambda: my_input_fn(test_set), steps=2000)
This approach enhances code maintainability: no need to define multiple input_fn
(e.g. input_fn_train
, input_fn_test
, input_fn_predict
) for each type of operation.
最后,您可以使用tf.estimator.inputs
中的方法从numpy或pandas数据集创建input_fn
。 额外的好处是你可以使用更多的参数,比如num_epochs
和shuffle
来控制input_fn
如何迭代数据:
import pandas as pd
def get_input_fn_from_pandas(data_set, num_epochs=None, shuffle=True):
return tf.estimator.inputs.pandas_input_fn(
x=pdDataFrame(...),
y=pd.Series(...),
num_epochs=num_epochs,
shuffle=shuffle)
import numpy as np
def get_input_fn_from_numpy(data_set, num_epochs=None, shuffle=True):
return tf.estimator.inputs.numpy_input_fn(
x={...},
y=np.array(...),
num_epochs=num_epochs,
shuffle=shuffle)
In the remainder of this tutorial, you'll write an input function for preprocessing a subset of Boston housing data pulled from the UCI Housing Data Set and use it to feed data to a neural network regressor for predicting median house values.
波士顿郊区的波士顿CSV数据集您将用于训练您的神经网络包含以下特征数据:<
特征 | 描述 |
---|---|
CRIM | 人均犯罪率 |
ZN | 划分为25,000平方英尺以上的住宅用地 |
INDUS | 非零售业务的土地部分 |
NOX | 一氧化氮浓度每1000万份中的一部分 |
R M | 每间住宅的平均房间数 |
年龄 | 1940年以前建成的自住住宅部分 |
DIS | 距离波士顿地区的就业中心 |
税 | 每10,000美元的房产税税率 |
PTRATIO | 师生比例 |
你的模型预测的标签是MEDV,即自住住宅的中值,以千美元计。
下载以下数据集:boston_train.csv,boston_test.csv和boston_predict.csv。
以下部分将逐步介绍如何创建输入函数,将这些数据集提供给神经网络回归器,训练和评估模型,并进行房屋价值预测。 完整的最终代码在这里可用。
首先,设置您的导入(包括pandas
和tensorflow
)并将日志记录详细程度设置为INFO
以获取更详细的日志输出:
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function
import itertools
import pandas as pd
import tensorflow as tf
tf.logging.set_verbosity(tf.logging.INFO)
在COLUMNS
中定义数据集的列名。 为了区分标签中的特征,还要定义FEATURES
和LABEL
。 Then read the three CSVs (tf.train
, tf.test
, and predict) into pandas DataFrame
s:
COLUMNS = ["crim", "zn", "indus", "nox", "rm", "age",
"dis", "tax", "ptratio", "medv"]
FEATURES = ["crim", "zn", "indus", "nox", "rm",
"age", "dis", "tax", "ptratio"]
LABEL = "medv"
training_set = pd.read_csv("boston_train.csv", skipinitialspace=True,
skiprows=1, names=COLUMNS)
test_set = pd.read_csv("boston_test.csv", skipinitialspace=True,
skiprows=1, names=COLUMNS)
prediction_set = pd.read_csv("boston_predict.csv", skipinitialspace=True,
skiprows=1, names=COLUMNS)
接下来,为输入数据创建FeatureColumn
列表,它正式指定用于训练的一组要素。 Because all features in the housing data set contain continuous values, you can create their FeatureColumn
s using the tf.contrib.layers.real_valued_column()
function:
feature_cols = [tf.feature_column.numeric_column(k) for k in FEATURES]
注意:有关功能列的更深入概述,请参阅本介绍,以及说明如何为分类数据定义FeatureColumns
的示例,请参阅线性模型教程。
现在,为神经网络回归模型实例化一个DNNRegressor
。 您需要在这里提供两个参数:hidden_units
,一个超参数,指定每个隐藏层中的节点数(这里是两个隐藏层,每个隐藏层各有10个节点),feature_columns t1 >,包含您刚定义的
FeatureColumns
的列表:
regressor = tf.estimator.DNNRegressor(feature_columns=feature_cols,
hidden_units=[10, 10],
model_dir="/tmp/boston_model")
要将输入数据传递到regressor
,请写入一个接受pandas Dataframe
的工厂方法并返回input_fn
:
def get_input_fn(data_set, num_epochs=None, shuffle=True):
return tf.estimator.inputs.pandas_input_fn(
x=pd.DataFrame({k: data_set[k].values for k in FEATURES}),
y = pd.Series(data_set[LABEL].values),
num_epochs=num_epochs,
shuffle=shuffle)
请注意,输入数据在data_set
参数中传递到input_fn
,这意味着该函数可以处理您导入的任何DataFrame
:training_set
,test_set
和prediction_set
。
提供了两个附加参数:* num_epochs
:控制迭代数据的历元数量。 对于训练,将其设置为None
,以便input_fn
不断返回数据,直到达到所需的训练步数。 For evaluate and predict, set this to 1, so the input_fn
will iterate over the data once and then raise OutOfRangeError
. 该错误将会告诉Estimator
停止评估或预测。 * 随机播放
:是否要洗牌数据。 为了进行评估和预测,将其设置为False
,以便input_fn
顺序遍历数据。 对于列车,请将此设置为True
。
为了训练神经网络回归器,运行train
,并将training_set
传递给input_fn
,如下所示:
regressor.train(input_fn=get_input_fn(training_set), steps=5000)
您应该看到类似于以下内容的日志输出,该输出每100步报告一次培训损失:
INFO:tensorflow:Step 1: loss = 483.179
INFO:tensorflow:Step 101: loss = 81.2072
INFO:tensorflow:Step 201: loss = 72.4354
...
INFO:tensorflow:Step 1801: loss = 33.4454
INFO:tensorflow:Step 1901: loss = 32.3397
INFO:tensorflow:Step 2001: loss = 32.0053
INFO:tensorflow:Step 4801: loss = 27.2791
INFO:tensorflow:Step 4901: loss = 27.2251
INFO:tensorflow:Saving checkpoints for 5000 into /tmp/boston_model/model.ckpt.
INFO:tensorflow:Loss for final step: 27.1674.
接下来,看看训练的模型如何针对测试数据集执行。 运行evaluate
,并且这次将test_set
传递给input_fn
:
ev = regressor.evaluate(
input_fn=get_input_fn(test_set, num_epochs=1, shuffle=False))
从ev
结果中检索损失并将其打印输出:
loss_score = ev["loss"]
print("Loss: {0:f}".format(loss_score))
您应该看到类似于以下的结果:
INFO:tensorflow:Eval steps [0,1) for training step 5000.
INFO:tensorflow:Saving evaluation summary for 5000 step: loss = 11.9221
Loss: 11.922098
最后,您可以使用该模型预测prediction_set
的房屋中值,其中包含以下六个示例的特征数据但没有标签:
y = regressor.predict(
input_fn=get_input_fn(prediction_set, num_epochs=1, shuffle=False))
# .predict() returns an iterator of dicts; convert to a list and print
# predictions
predictions = list(p["predictions"] for p in itertools.islice(y, 6))
print("Predictions: {}".format(str(predictions)))
您的结果应该包含六个以千美元计的房屋价值预测,例如:
Predictions: [ 33.30348587 17.04452896 22.56370163 34.74345398 14.55953979
19.58005714]
本教程专注于为神经网络回归器创建input_fn
。 要详细了解如何将input_fn
用于其他类型的模型,请查看以下资源:
带TensorFlow的大型线性模型:TensorFlow中的线性模型介绍提供了用于转换输入数据的特征列和技术的高级概述。
TensorFlow线性模型教程:本教程介绍了根据人口普查数据预测收入范围的线性分类模型创建FeatureColumn
和input_fn
。
TensorFlow Wide & Deep Learning Tutorial: Building on the Linear Model Tutorial, this tutorial covers FeatureColumn
and input_fn
creation for a "wide and deep" model that combines a linear model and a neural network using DNNLinearCombinedClassifier
.