【好书推荐】Don’t use deep learning your data isn’t that big?正反双方撕起来了

yejia80550708 发表于 2017-09-13 16:07

获奖公布：

本次获得奖励的童鞋有：tree_fox william_djj lbseraphnail78fenyun689

请以上5位的童鞋在11月30日前将姓名、电话、邮箱、公司、职务、快递地址站短给yejia80550708

会尽快寄技术图书《深度学习优化与识别》(焦李成) 给大家

争论，随时可能爆发。

比方当你看到一篇名为（Don’t use deep learning your data isn’t that big）的博客时。
作者Jeff Leek在这篇博客中指出，深度学习已经进入一定程度的狂热状态，人们正试图用这个技术解决每一个问题。但真正的挑战在于：“只有极少数情况下有足够的数据进行深度学习”，不是每家都有科技巨头的数据。
深度学习与更简单的模型相比，优点在于有足够的数据来调整大量的参数，博主建议当数据集不是那么大的时候，应该采用一些更简单、更可解释的办法，而且不用担心过拟合等问题。
Leek这篇文章火了不到一周，哈佛大学药学院的生物医药信息学专业博士后Andrew Beam写了篇文章来反驳：《就算数据不够大，也能玩深度学习》。
Beam开篇就说，之前Jeff Leek那篇文章看得他有点不爽。核心论点他大致同意，他也不觉得深度学习是万能良药。但是，你确定深度学习在数据量不足100的时候效果不好是因为过拟合？怎么看都是因为模型没调好啊……
有人举例说明，有人现身说法。讨论甚至从数据大小，一直延伸到各种深度学习方法的比较，乃至应用领域等。

传送门：Jeff Leak的文章：
https://simplystatistics.org/2017/05/31/deeplearning-vs-leekasso/
Andrew Beam的文章：
http://beamandrew.github.io/deeplearning/2017/06/04/deep_learning_works.html
Andrew Beam的代码：
https://github.com/beamandrew/deep_learning_works
话题背景：随着研究的不断深入，后深度学习时代已经超越了目前机器学习模型的神经科学观点，学习多层次、多通道组合的这一设计原则更加具有吸引力。深度学习是人工智能领域最能体现智能的一个分支，在未来，它将会不断出现激动人心的理论进展和应用实践，深刻影响我们生活的方方面面。

话题讨论：
1．数据不够大，别玩深度学习？还是就算数据不够大，也能玩深度学习。2．深度学习中，训练模型需要多少数据？应该如何发掘这些数据？3．深度学习对无监督数据的学习能力严重不足，那么要解决的是有监督学习问题，还是无监督学习问题？如果是无监督学习问题，如何获取无监督学习能力？4．脑神经科学的进步为深度模型的发展提供更多的可能性，深度神经网络的优化问题的困难性是阻碍它们成为主流的一个重要因素，优化神经网络的“困难性”在哪里？

活动时间：9月13日—10月13日
活动奖励：我们将会选取5个精彩回复，各送技术图书《深度学习优化与识别》(焦李成) 一本

作者：焦李成出版社：清华大学出版社ISBN：9787302473671出版时间：2017-07-01开本：16开版次：1分类：计算机与互联网 > 人工智能 > 深度学习

购书入口：https://item.jd.com/12088783.htm ... 33_.0&ADPUBNO=26719
样章试读：file:///C:/Users/aaa/Documents/tencent%20files/2504593583/filerecv/第3章.pdf
file:///C:/Users/aaa/Documents/tencent%20files/2504593583/filerecv/样章-第十五章.pdf

SACC 2017 来啦~
2017中国系统架构师大会（SACC2017）将于10月19-21日在北京新云南皇冠假日酒店震撼来袭！
今年，大会以“云智未来”为主题，云集国内外顶级专家，围绕云计算、人工智能、大数据、移动互联网、产业应用等热点领域展开技术探讨与交流。本届大会共设置2大主会场，18个技术专场；邀请来自互联网、金融、制造业、电商等多个领域，100余位技术专家及行业领袖来分享他们的经验；并将吸引4000+人次的系统运维、架构师及IT决策人士参会，为他们提供最具价值的交流平台。
官网链接：http://sacc.it168.com/index.html#top
购票链接：http://sacc.it168.com/goupiao.html
欢迎扫码关注SACC官方微信，获取最新信息

-------------------------------------------------------------------------------

欢迎大家发帖讨论，分享是美德，也希望CU这个平台带给大家进步和成长，有任何问题，请站短联系！
技术讨论，请加QQ群：203848540
ChinaUnix公众微信：

tree_fox 发表于 2017-09-14 20:43

深度学习对无监督数据的学习能力严重不足，那么要解决的是有监督学习问题，还是无监督学习问题？如果是无监督学习问题，如何获取无监督学习能力？讨论一下这个话题！！！

首先，深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。因此，“深度模型”是手段，“特征学习”是目的。区别于传统的浅层学习，深度学习的不同在于：1）强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；2）明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。
深度学习在训练上的难度，可以通过“逐层初始化”（layer-wise pre-training）来有效克服，逐层初始化是通过无监督学习实现的。所以要解决的是无监督学习问题。

那么如何获取呢，我觉得应该通过如下训练过程：

1）使用自下上升非监督学习（就是从底层开始，一层一层的往顶层训练）：

   采用无标定数据（有标定数据也可）分层训练各层参数，这一步可以看作是一个无监督训练过程，是和传统神经网络区别最大的部分（这个过程可以看作是feature learning过程）：

   具体的，先用无标定数据训练第一层，训练时先学习第一层的参数（这一层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层），由于模型capacity的限制以及稀疏性约束，使得得到的模型能够学习到数据本身的结构，从而得到比输入更具有表示能力的特征；在学习得到第n-1层后，将n-1层的输出作为第n层的输入，训练第n层，由此分别得到各层的参数；

2）自顶向下的监督学习（就是通过带标签的数据去训练，误差自顶向下传输，对网络进行微调）：

   基于第一步得到的各层参数进一步fine-tune整个多层模型的参数，这一步是一个有监督训练过程；第一步类似神经网络的随机初始化初值过程，由于DL的第一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果；所以deep learning效果好很大程度上归功于第一步的feature learning过程。

nail78 发表于 2017-09-19 15:07

1．数据不够大，别玩深度学习？还是就算数据不够大，也能玩深度学习。
从技术层面上来说，数据不够大，也是能玩深度学习的，通过dropout或卷积神经网络，是能够把少量数据的扩大的，从而避免训练模型因数据少而不能收敛。关键是训练模型的数据集的分布是否就能代表整个数据集的分布，不然训练出来的模型会过拟合的，而不适合整个数据集。

heguangwu 发表于 2017-09-22 10:29

这是一个很高深的话题，我只能仰望:mrgreen:

yejia80550708 发表于 2017-09-22 11:06

回复 4# heguangwu

{:qq2:}随意谈论自己关于深度学习的一些想法也可以，或者对该领域有任何疑问也可以在此提出（也有礼物可以拿~）
其他人也可以回答讨论关于你提出的问题呢（讨论出彩都有礼物拿的呢）

fenyun689 发表于 2017-09-25 10:26

1．数据不够大，别玩深度学习？还是就算数据不够大，也能玩深度学习。
数据不够大，别玩深度学习.深度学习要数据达到一定的基础。太少的数据很难有用的价值。

william_djj 发表于 2017-09-29 15:40

本帖最后由 william_djj 于 2017-09-29 15:43 编辑

回复 1# yejia80550708
A：请说出萝莉的特征
B：萝莉的特征是萌！
A：萌的特征是？
B：哥特裙 + 小花伞 + 娇小身 + 公主脸 + 白丝袜 + 内八站 + 。。。
A：你毫无深度可言。。。
B：那你说是啥！
A：深度卷积 + 海量萝莉写真集
B：##￥%&#@#￥*！！

这就很好的说出了深度学习的特质，就是海量数据加复杂的网络。如果没有海量数据支撑，如何验证结果预判的正确性，通俗点说，如果没有大量的御姐，淑女，小清新女对比，又怎么凸显萝莉的特征。而近来的模型也是构建复杂层次的网络，通过大量的数据训练出来，结构决定的要有大量数据验证。所以俺认为没了海量的数据，确实没有深度学习可言了。

lbseraph 发表于 2017-10-04 18:00

1．数据不够大，别玩深度学习？还是就算数据不够大，也能玩深度学习。
个人觉得数据大不大和能不能玩深度学习之间不是绝对的因果关系，否则很多学校里面教深度学习都没用，因为大部分都没有足够大的数据量。用少量的数据来学习深度学习的算法、框架不是不可以，但如果真正需要训练出一个好的DL模型，数据不够的缺点就会凸显了。

2．深度学习中，训练模型需要多少数据？应该如何发掘这些数据？
深度学习里面，看你的训练模型复杂程度，如果是简单的模型可能要求的数据量不多，不过数量不多的时候很可能造成过拟合；就我的理解来说，这种情况也就是供你学习深度学习的一个途径。很多时候，深度学习适合处理高维空间的学习，但在维度增加的时候所需要的样本数是呈指数级增长的，比如Lipschitz连续的函数，其error rate在高维度比低维度函数需要的样本数多太多了。

3．深度学习对无监督数据的学习能力严重不足，那么要解决的是有监督学习问题，还是无监督学习问题？如果是无监督学习问题，如何获取无监督学习能力？
个人觉得长远来说，还是无监督数据的学习更重要，因为这可以让AI去发现新领域和获取新知识（人类目前没有接触的领域和知识）。而有监督学习在有足够的人提供和训练数据（比如数据公司开放数据后，网络上的人都可以训练），能得到很高的准确率，但其实这个更多是人为的。无监督数据的学习在短期内估计还是比不上无监督数据的学习，个人觉得可能是机器的AI水平还比较低，如果机器的AI到一定程度后，无监督数据的学习就不是问题了。

4．脑神经科学的进步为深度模型的发展提供更多的可能性，深度神经网络的优化问题的困难性是阻碍它们成为主流的一个重要因素，优化神经网络的“困难性”在哪里？
网络越深，优化问题就越来越难。另外优化的方法、运算的机器和硬件等等都会影响神经网络的优化过程，也许，如果量子计算机普及后，甚至出现50比特位的量子计算机后，这些都不是问题了。

页: [1]

Chinaunix's Archiver

【好书推荐】Don’t use deep learning your data isn’t that big?正反双方撕起来了