Title: 一文浅谈深度学习泛化能力 · Issue #46 · aialgorithm/Blog · GitHub
Open Graph Title: 一文浅谈深度学习泛化能力 · Issue #46 · aialgorithm/Blog
X Title: 一文浅谈深度学习泛化能力 · Issue #46 · aialgorithm/Blog
Description: 谷歌最近出品的82页论文《ON THE GENERALIZATION MYSTERY IN DEEP LEARNING》,在此我简单归纳下论文的思想,有兴趣的看看原论文。 论文链接:github.com/aialgorithm/Blog 一、DNN泛化能力的问题 论文主要探讨的是, 为什么过参数的神经网络模型还能有不错的泛化性?即并不是简单记忆训练集,而是从训练集中总结出一个通用的规律,从而可以适配于测试集(泛化能力)。 以经典的决策树模型为例, 当树模型学习数据集的通...
Open Graph Description: 谷歌最近出品的82页论文《ON THE GENERALIZATION MYSTERY IN DEEP LEARNING》,在此我简单归纳下论文的思想,有兴趣的看看原论文。 论文链接:github.com/aialgorithm/Blog 一、DNN泛化能力的问题 论文主要探讨的是, 为什么过参数的神经网络模型还能有不错的泛化性?即并不是简单记忆训练集,而是从训练集中总结出一个通用的规律,从而...
X Description: 谷歌最近出品的82页论文《ON THE GENERALIZATION MYSTERY IN DEEP LEARNING》,在此我简单归纳下论文的思想,有兴趣的看看原论文。 论文链接:github.com/aialgorithm/Blog 一、DNN泛化能力的问题 论文主要探讨的是, 为什么过参数的神经网络模型还能有不错的泛化性?即并不是简单记忆训练集,而是从训练集中总结出一个通用的规律,从而...
Opengraph URL: https://github.com/aialgorithm/Blog/issues/46
X: @github
Domain: github.com
{"@context":"https://schema.org","@type":"DiscussionForumPosting","headline":"一文浅谈深度学习泛化能力","articleBody":"谷歌最近出品的82页论文《ON THE GENERALIZATION MYSTERY IN DEEP LEARNING》,在此我简单归纳下论文的思想,有兴趣的看看原论文。\r\n\u003e[论文链接:](https://github.com/aialgorithm/Blog)github.com/aialgorithm/Blog\r\n\r\n\r\n## 一、DNN泛化能力的问题\r\n\r\n论文主要探讨的是, 为什么过参数的神经网络模型还能有不错的泛化性?即并不是简单记忆训练集,而是从训练集中总结出一个通用的规律,从而可以适配于测试集(泛化能力)。\r\n\r\n\r\n以经典的决策树模型为例, 当树模型学习数据集的通用规律时:一种好的情况,假如树第一个分裂节点时,刚好就可以良好区分开不同标签的样本,深度很小,相应的各叶子上面的样本数是够的(即统计规律的数据量的依据也是比较多的),那这会得到的规律就更有可能泛化到其他数据。(即:拟合良好, 有泛化能力)。\r\n\r\n\r\n\r\n另外一种较差的情况,如果树学习不好一些通用的规律,为了学习这个数据集,那树就会越来越深,可能每个叶子节点分别对应着少数样本(少数据带来统计信息可能只是噪音),最后,死记硬背地记住所有数据(即:过拟合 无泛化能力)。我们可以看到过深(depth)的树模型很容易过拟合。\r\n\r\n\r\n**那么过参数化的神经网络如何达到良好的泛化性呢?**\r\n\r\n## 二、 DNN泛化能力的原因\r\n\r\n本文是从一个简单通用的角度解释——在神经网络的梯度下降优化过程上,探索泛化能力的原因:\r\n\r\n我们总结了**梯度相干理论** :来自不同样本的梯度产生相干性,是神经网络能有良好的泛化能力原因。当不同样本的梯度在训练过程中对齐良好,即当它们相干时,梯度下降是稳定的,可以很快收敛,并且由此产生的模型可以有良好的泛化性。 否则,如果样本太少或训练时间过长,可能无法泛化。\r\n\r\n\r\n\r\n**基于该理论,我们可以做出如下解释。**\r\n\r\n### 2.1 宽度神经网络的泛化性\r\n\r\n更宽的神经网络模型具有良好的泛化能力。这是因为,更宽的网络都有更多的子网络,对比小网络更有产生梯度相干的可能,从而有更好的泛化性。 换句话说,梯度下降是一个优先考虑泛化(相干性)梯度的特征选择器,更广泛的网络可能仅仅因为它们有更多的特征而具有更好的特征。\r\n\u003e原文:Generalization and width. Neyshabur et al. [2018b] found that wider networks generalize better. Can we now explain this? Intuitively, wider networks have more sub-networks at any given level, and so the sub-network with maximum coherence in a wider network may be more coherent than its counterpart in a thinner network, and hence generalize better. In other words, since—as discussed in Section 10—gradient descent is a feature selector that prioritizes well-generalizing (coherent) features, wider networks are likely to have better features simply because they have more features. In this connection, see also the Lottery Ticket Hypothesis [Frankle and Carbin, 2018]\r\n\r\n但是个人觉得,这还是要区分下网络输入层/隐藏层的宽度。特别对于数据挖掘任务的输入层,由于输入特征是通常是人工设计的,需要考虑下做下特征选择(即减少输入层宽度),不然直接输入特征噪音,对于梯度相干性影响不也是有干扰的。\r\n\r\n### 2.2 深度神经网络的泛化性\r\n越深的网络,梯度相干现象被放大,有更好的泛化能力。\r\n\r\n在深度模型中,由于层之间的反馈加强了有相干性的梯度,存在相干性梯度的特征(W6)和非相干梯度的特征(W1)之间的相对差异在训练过程中呈指数放大。从而使得更深的网络更偏好相干梯度,从而更好泛化能力。\r\n\r\n\r\n### 2.3 早停(early-stopping)\r\n通过早停我们可以减少非相干梯度的过多影响,提高泛化性。\r\n\r\n在训练的时候,一些容易样本比其他样本(困难样本)更早地拟合。训练前期,这些容易样本的相干梯度做主导,并很容易拟合好。训练后期,以困难样本的非相干梯度主导了平均梯度g(wt),从而导致泛化能力变差。\r\n\r\n(注:简单的样本,是那些在数据集里面有很多梯度共同点的样本,正由于这个原因,大多数梯度对它有益,收敛也比较快。)\r\n\r\n\r\n\r\n### 2.4 全梯度下降 VS 学习率\r\n\r\n我们发现全梯度下降也可以有很好的泛化能力。此外,仔细的实验表明随机梯度下降并不一定有更优的泛化,但这并不排除随机梯度更易跳出局部最小值、起着正则化等的可能性。\r\n\u003eBased on our theory, finite learning rate, and mini-batch stochasticity\r\nare not necessary for generalization\r\n\r\n我们认为较低的学习率可能无法降低泛化误差,因为较低的学习率意味着更多的迭代次数(与早停相反)。\r\n\u003eAssuming a small enough learning rate, as training progresses, the generalization gap cannot decrease. This follows from the iterative stability analysis of training: with 40 more steps, stability can only degrade. If this is violated in a practical setting, it would point to an interesting limitation of the theory\r\n\r\n\r\n\r\n### 2.5 L2、L1正则化\r\n目标函数加入L2、L1正则化,相应的梯度计算, L1正则项需增加的梯度为sign(w) ,L2梯度为w。以L2正则为例,相应的梯度W(i+1)更新公式为:\r\n\r\n我们可以把“L2正则化(权重衰减)”看作是一种“背景力”,可将每个参数推近于数据无关的零值 ( L1容易得到稀疏解,L2容易得到趋近0的平滑解) ,来消除在弱梯度方向上影响。只有在相干梯度方向的情况下,参数才比较能脱离“背景力”,基于数据完成梯度更新。\r\n\r\n\r\n\r\n\r\n### 2.6 梯度下降算法的进阶\r\n- Momentum 、Adam等梯度下降算法\r\n\r\nMomentum 、Adam等梯度下降算法,其参数W更新方向不仅由当前的梯度决定,也与此前累积的梯度方向有关(即,保留累积的相干梯度的作用)。这使得参数中那些梯度方向变化不大的维度可以加速更新,并减少梯度方向变化较大的维度上的更新幅度,由此产生了加速收敛和减小震荡的效果。\r\n\r\n\r\n- 抑制弱梯度方向的梯度下降\r\n\r\n我们可以通过优化批次梯度下降算法,来抑制弱梯度方向的梯度更新,进一步提高了泛化能力。比如,我们可以使用梯度截断(winsorized gradient descent),排除梯度异常值后的再取平均值。或者取梯度的中位数代替平均值,以减少梯度异常值的影响。\r\n\r\n\r\n\r\n### 小结\r\n文末说两句,对于深度学习的理论,有兴趣可以看下论文提及的相关研究。个人水平有限,不足之处还望指教,有什么见解,欢迎学习群相互讨论下。\r\n\r\n---\r\n文章首发公众号“算法进阶”,欢迎关注。公众号阅读原文可访问文章[相关代码及资料](https://github.com/aialgorithm/Blog)\r\n","author":{"url":"https://github.com/aialgorithm","@type":"Person","name":"aialgorithm"},"datePublished":"2022-03-25T16:20:16.000Z","interactionStatistic":{"@type":"InteractionCounter","interactionType":"https://schema.org/CommentAction","userInteractionCount":0},"url":"https://github.com/46/Blog/issues/46"}
| route-pattern | /_view_fragments/issues/show/:user_id/:repository/:id/issue_layout(.:format) |
| route-controller | voltron_issues_fragments |
| route-action | issue_layout |
| fetch-nonce | v2:6739c4f7-1ecd-b357-e5ee-e409669953e6 |
| current-catalog-service-hash | 81bb79d38c15960b92d99bca9288a9108c7a47b18f2423d0f6438c5b7bcd2114 |
| request-id | BA18:F5661:11C23CB:18727E2:696A9A29 |
| html-safe-nonce | ac67a0af3a672a1689cee2a1b1816d59ec1f40f9b2ed5cac98e7f1a9a3376271 |
| visitor-payload | eyJyZWZlcnJlciI6IiIsInJlcXVlc3RfaWQiOiJCQTE4OkY1NjYxOjExQzIzQ0I6MTg3MjdFMjo2OTZBOUEyOSIsInZpc2l0b3JfaWQiOiI2OTIxODMyNDYyMDg2MjE2MjMzIiwicmVnaW9uX2VkZ2UiOiJpYWQiLCJyZWdpb25fcmVuZGVyIjoiaWFkIn0= |
| visitor-hmac | 16e349539ec13f99ccc6188a1f6cd260ceb3e3fe2d8e39efc78091cef057b9db |
| hovercard-subject-tag | issue:1180989121 |
| github-keyboard-shortcuts | repository,issues,copilot |
| google-site-verification | Apib7-x98H0j5cPqHWwSMm6dNU4GmODRoqxLiDzdx9I |
| octolytics-url | https://collector.github.com/github/collect |
| analytics-location | / |
| fb:app_id | 1401488693436528 |
| apple-itunes-app | app-id=1477376905, app-argument=https://github.com/_view_fragments/issues/show/aialgorithm/Blog/46/issue_layout |
| twitter:image | https://opengraph.githubassets.com/9950e571486ffa5e0bc0c9f588bbecad4b8b4450a144f9d2f77b663bd03ad994/aialgorithm/Blog/issues/46 |
| twitter:card | summary_large_image |
| og:image | https://opengraph.githubassets.com/9950e571486ffa5e0bc0c9f588bbecad4b8b4450a144f9d2f77b663bd03ad994/aialgorithm/Blog/issues/46 |
| og:image:alt | 谷歌最近出品的82页论文《ON THE GENERALIZATION MYSTERY IN DEEP LEARNING》,在此我简单归纳下论文的思想,有兴趣的看看原论文。 论文链接:github.com/aialgorithm/Blog 一、DNN泛化能力的问题 论文主要探讨的是, 为什么过参数的神经网络模型还能有不错的泛化性?即并不是简单记忆训练集,而是从训练集中总结出一个通用的规律,从而... |
| og:image:width | 1200 |
| og:image:height | 600 |
| og:site_name | GitHub |
| og:type | object |
| og:author:username | aialgorithm |
| hostname | github.com |
| expected-hostname | github.com |
| None | c0d8175e41e0e55b9e984c935b24b808cabab919dd3174aa45dac3ef503ed1af |
| turbo-cache-control | no-preview |
| go-import | github.com/aialgorithm/Blog git https://github.com/aialgorithm/Blog.git |
| octolytics-dimension-user_id | 33707637 |
| octolytics-dimension-user_login | aialgorithm |
| octolytics-dimension-repository_id | 147093233 |
| octolytics-dimension-repository_nwo | aialgorithm/Blog |
| octolytics-dimension-repository_public | true |
| octolytics-dimension-repository_is_fork | false |
| octolytics-dimension-repository_network_root_id | 147093233 |
| octolytics-dimension-repository_network_root_nwo | aialgorithm/Blog |
| turbo-body-classes | logged-out env-production page-responsive |
| disable-turbo | false |
| browser-stats-url | https://api.github.com/_private/browser/stats |
| browser-errors-url | https://api.github.com/_private/browser/errors |
| release | 99aab454e5ddc8df30805fb76c114c3008a15842 |
| ui-target | full |
| theme-color | #1e2327 |
| color-scheme | light dark |
Links:
Viewport: width=device-width