我如何初始化网络的权重和偏差(通过例如He或Xavier初始化)?
当前回答
因为到目前为止我还没有足够的声誉,我不能在下面添加评论
prosti在19年6月26日13:16发布的答案。
def reset_parameters(self):
init.kaiming_uniform_(self.weight, a=math.sqrt(3))
if self.bias is not None:
fan_in, _ = init._calculate_fan_in_and_fan_out(self.weight)
bound = 1 / math.sqrt(fan_in)
init.uniform_(self.bias, -bound, bound)
但我想指出的是,实际上我们知道何开明的论文《深入研究整流器:在ImageNet分类上超越人类的性能》中的一些假设是不合适的,尽管看起来刻意设计的初始化方法在实践中取得了成功。
例如,在反向传播案例的分段中,它们假设$w_l$和$\delta y_l$是相互独立的。但我们都知道,以分数映射$\delta y^L_i$为例,如果我们使用典型的交叉熵损失函数目标,它通常是$y_i-softmax(y^L_i)=y_i-softmax(w^L_ix^L_i)$。
所以我认为,为什么他的初始化工作得很好,真正的潜在原因还有待解开。因为每个人都见证了它在促进深度学习训练方面的力量。
其他回答
抱歉这么晚才来,希望我的回答能有所帮助。
用正态分布初始化权重:
torch.nn.init.normal_(tensor, mean=0, std=1)
或者使用常数分布:
torch.nn.init.constant_(tensor, value)
或者使用均匀分布:
torch.nn.init.uniform_(tensor, a=0, b=1) # a: lower_bound, b: upper_bound
你可以用其他方法来初始化张量
import torch.nn as nn
# a simple network
rand_net = nn.Sequential(nn.Linear(in_features, h_size),
nn.BatchNorm1d(h_size),
nn.ReLU(),
nn.Linear(h_size, h_size),
nn.BatchNorm1d(h_size),
nn.ReLU(),
nn.Linear(h_size, 1),
nn.ReLU())
# initialization function, first checks the module type,
# then applies the desired changes to the weights
def init_normal(m):
if type(m) == nn.Linear:
nn.init.uniform_(m.weight)
# use the modules apply function to recursively apply the initialization
rand_net.apply(init_normal)
要初始化层,通常不需要做任何事情。
PyTorch会为你做这件事。仔细想想,这就说得通了。为什么我们要初始化层,当PyTorch可以遵循最新的趋势时?
例如,线性层的__init__方法将进行开明河初始化:
init.kaiming_uniform_(self.weight, a=math.sqrt(5))
if self.bias is not None:
fan_in, _ = init._calculate_fan_in_and_fan_out(self.weight)
bound = 1 / math.sqrt(fan_in) if fan_in > 0 else 0
init.uniform_(self.bias, -bound, bound)
类似地,这也适用于其他层类型。例如,Conv2d,检查这里。
注意:适当的初始化的好处是更快的训练速度。如果您的问题需要特殊的初始化,您仍然可以在之后进行初始化。
因为到目前为止我还没有足够的声誉,我不能在下面添加评论
prosti在19年6月26日13:16发布的答案。
def reset_parameters(self):
init.kaiming_uniform_(self.weight, a=math.sqrt(3))
if self.bias is not None:
fan_in, _ = init._calculate_fan_in_and_fan_out(self.weight)
bound = 1 / math.sqrt(fan_in)
init.uniform_(self.bias, -bound, bound)
但我想指出的是,实际上我们知道何开明的论文《深入研究整流器:在ImageNet分类上超越人类的性能》中的一些假设是不合适的,尽管看起来刻意设计的初始化方法在实践中取得了成功。
例如,在反向传播案例的分段中,它们假设$w_l$和$\delta y_l$是相互独立的。但我们都知道,以分数映射$\delta y^L_i$为例,如果我们使用典型的交叉熵损失函数目标,它通常是$y_i-softmax(y^L_i)=y_i-softmax(w^L_ix^L_i)$。
所以我认为,为什么他的初始化工作得很好,真正的潜在原因还有待解开。因为每个人都见证了它在促进深度学习训练方面的力量。
迭代参数
如果模型没有直接实现Sequential,则不能使用apply for instance:
所有人都一样
# see UNet at https://github.com/milesial/Pytorch-UNet/tree/master/unet
def init_all(model, init_func, *params, **kwargs):
for p in model.parameters():
init_func(p, *params, **kwargs)
model = UNet(3, 10)
init_all(model, torch.nn.init.normal_, mean=0., std=1)
# or
init_all(model, torch.nn.init.constant_, 1.)
取决于形状
def init_all(model, init_funcs):
for p in model.parameters():
init_func = init_funcs.get(len(p.shape), init_funcs["default"])
init_func(p)
model = UNet(3, 10)
init_funcs = {
1: lambda x: torch.nn.init.normal_(x, mean=0., std=1.), # can be bias
2: lambda x: torch.nn.init.xavier_normal_(x, gain=1.), # can be weight
3: lambda x: torch.nn.init.xavier_uniform_(x, gain=1.), # can be conv1D filter
4: lambda x: torch.nn.init.xavier_uniform_(x, gain=1.), # can be conv2D filter
"default": lambda x: torch.nn.init.constant(x, 1.), # everything else
}
init_all(model, init_funcs)
你可以试试torch.nn.init。Constant_ (x, len(x.shape))来检查它们是否正确初始化:
init_funcs = {
"default": lambda x: torch.nn.init.constant_(x, len(x.shape))
}
推荐文章
- ValueError: numpy。Ndarray大小改变,可能表示二进制不兼容。期望从C头得到88,从PyObject得到80
- Anaconda /conda -安装特定的软件包版本
- 我在哪里调用Keras的BatchNormalization函数?
- 打印测试执行时间并使用py.test锁定缓慢的测试
- 插入一行到熊猫数据框架
- 要列出Pandas DataFrame列
- 在Django模型中存储电话号码的最佳方法是什么?
- 从导入的模块中模拟函数
- 滚动或滑动窗口迭代器?
- python的方法找到最大值和它的索引在一个列表?
- 如何读取文件的前N行?
- 如何删除matplotlib中的顶部和右侧轴?
- 解析.py文件,读取AST,修改它,然后写回修改后的源代码
- Visual Studio Code:如何调试Python脚本的参数
- 使用元组/列表等等。从输入vs直接引用类型如list/tuple/etc