登陆

极彩娱乐手机客户端-原创花钱买大腿?奖牌明码标价?含金量被质疑后,咱们找Kaggle合规会聊了聊规矩

admin 2019-11-10 267人围观 ,发现0个评论

大数据文摘出品

作者:曹培信

关于机器学习爱好者来说,在一个大型竞赛中摘金夺银或许是证明自己实力的好办法。每一年,国内外各种竞赛集合,参与者也涵盖了高校学霸、工作大佬等各路精英,竞赛渠道已然成为了数据高手集合的“战场”。

这全球许多竞赛中,Kaggle能够说是全球认可度最高的数据科学竞赛渠道了。现在Kaggle现已举办了356场竞赛,有些竞赛的奖金乃至高达百万美元。各路英雄在这个渠道上实战操练、崇拜大神、打怪晋级,简而言之,Kaggle 是玩数据、机器学习的开发者们展现功力、扬名立万的江湖。

而最近,Kaggle成果在业界的认可度正在被质疑。

一个关于“简历中附上Kaggle成果,对找工作会有协助吗?”的帖子登上了Reddit热搜;一起在知乎上,“Kaggle竞赛暗里有偿同享代码”、“买‘大腿’打竞赛”、“奖牌明码标价”的论题也引发了国内竞赛圈的热议。

的确,国内竞赛圈在付费社群(微信、QQ、常识星球等)小范围评论代码和“带人上竞赛”的现象在现已继续了一段时刻,并被不少竞赛选手以为是“约定俗成”的现象。可是,这种行为真的契合Kaggle的规矩吗?更进一步,这样的行为会否被Kaggle发现而且影响终究成果呢?

就此,咱们也联络到了Kaggle合规委员会,就相关问题跟他们聊了聊。

含金量与含“金”量,参赛选手看中什么?

不管是参与国内的竞赛仍是参与Kaggle竞赛和世界选手同场PK,不同的参赛选手参与竞赛的意图有这样两类:

  • 一种是以奖金和排名为意图,包含靠奖金为生的工作选手。这些人是有着丰厚的数据剖析、机器学习工作经历的业界人士或许学术大佬。
  • 另一种是以进步相关技术和布景为意图业余爱好者。一般是在校学生或许刚入职场的新“码农”,他们有必定技术才能,但项目经历短缺,想在竞赛中进步自己的才能和经历。

关于榜首种选手来说,自己在机器学习范畴的实力现已不需求证明晰,进入竞赛便是为了摘金夺银,赢取大额奖金,更重视的是竞赛的含“金”量;而关于第二类选手来说,胜败不重要,重要的是在竞赛中获得了什么,更重视的是竞赛自身的含金量

可是,比较安稳的奖金,Kaggle奖牌自身的价值正在遭到越来越多的争议。

依据知乎用户@幻云羽音的数据,2015年以来参与Kaggle竞赛的人数暴增,上一年现已达到了68010人次,手握Kaggle奖牌的人数也越来越多了。

据统计,在参与了竞赛的30多万人次中,合计有 148284 位不同的用户。获得过奖牌的用户有 27226 位(占总人数的 18.36%),其间:

  • 获得过金牌的用户有3681位 (占总人数的 2.48%)
  • 获得过银牌的用户有13450位 (占总人数的 9.07%)
  • 获得过铜牌的用户有16475位 (占总人数的 11.11%)

统计数据来历:

https://zhuanlan.zhihu.com/p/29421791

之前也有网友表明自己在招聘时将Kaggle获奖作为一个规范,可是这三年该规范现已连调两级了。

链接:

https://www.zhihu.com/question/32032932/answer/58810196

训练仍是带打?被明码标价的奖牌

近几年,我国人参与Kaggle竞赛的热心日益高涨,本年也诞生了我国首个高中生Master。

可是并不是一切人像这位同学相同能够经过看书、看网课自学就能打到Kaggle Master。所以,针对Kaggle竞赛的训练班开端呈现。这也印证了一句话:只需有竞赛,在我国就能找到相应的训练班。

其实在Kaggle奖牌成为一个进步自身布景的有力条件后,就有许多从事数据科学的求职者和预备出国留学需求加强自身简历的学生都将目光投向了Kaggle竞赛,可是自身的才能又不足以单独参赛获得成果。

这些训练班针对的便是这类人群。咱们在百度上查找“Kaggle 训练班”,能够看到排在查找榜首位的查找成果便是一家训练安排。

在网页的介绍中,咱们能够看到,该安排声称在竞赛中能够承受大咖的辅导,并许诺获得奖牌。

而比较于训练,更让人惊讶的是Kaggle奖牌被明码标价挂在网上卖

咱们也向参与过Kaggle竞赛的一位大佬进行了求证,这位受访人清晰表明,现在市面上Kaggle奖牌的确能够经过组队带打的办法获得,自己也从前收到过“有偿代打竞赛”的约请,市价极彩娱乐手机客户端-原创花钱买大腿?奖牌明码标价?含金量被质疑后,咱们找Kaggle合规会聊了聊规矩在“银牌8000左右,金牌20000左右”,可是金牌不能确保必定拿到。

针对这个问题,咱们也向Kaggle官方进行了咨询,Kaggle清晰回复不支持这样的行为,可是这种状况是存在的。

咱们不支持生意Kaggle奖牌,可是能够以为这种状况是或许的。
Kaggle

Kaggle窘境:难以拟定的规矩

2010年,安东尼高德布卢姆(Anthony Goldbloom)喜提体在墨尔本创建Kaggle时,也不会想到短短9年,Kaggle的注册用户就超过了250万。

有人的当地就有江湖,更何况一个集合了如此多人的大社区。

Kaggle自身是鼓舞同享和开源的,Kaggle官网上也有一个评论的社区,可是为了确保竞赛的公平性,Kaggle又不得不拟定很严厉的规矩。

比方为了避免刷榜,Kaggle约束了每个部队每天答应的最大提交次数,一般是5次,假设一个竞赛继续时刻是三个月,那么总提交次数差不多便是 590=450次。

可是,要约束这群“最聪明的脑袋”谈何容易。许多人为了躲过提交次数的约束或许“节约提交次数”,专门注册了小号,这被称为multiple accounts,是会被Kaggle的反做弊体系侦查出来的。

而许多人关怀的private sharing,是指Kaggle制止部队之间暗里同享代码,要同享只能经过揭露的kernel或discussion区同享,确保每个参与竞赛的部队都看见。

Kaggle针对private sharing的清晰法令

可是对Kaggle来说,判别谁私底下极彩娱乐手机客户端-原创花钱买大腿?奖牌明码标价?含金量被质疑后,咱们找Kaggle合规会聊了聊规矩同享了代码依然是一个大难题。

咱们也针对这个条款,向Kaggle寻求了更具体的的解说。Kaggle表明,假如是一个现已完结的竞赛,那么不管在付费参与或许免费进入的group,怎样评论都能够,而假如是针对一个正在进行的竞赛,那么同享的代码就要一切的参赛选手都能够看到,假如只在一个关闭的group中同极彩娱乐手机客户端-原创花钱买大腿?奖牌明码标价?含金量被质疑后,咱们找Kaggle合规会聊了聊规矩享,就算private sharing。

(Kaggle)不答应在团队之外暗里同享代码或数据。只需所评论的信息不是关于一场正在进行的竞赛,运用Kaggle进行小规模同享(不管付费仍是免费)是能够的。假如信息是关于一个正在进行的竞赛,那它有必要经过相关论坛向一切Kaggle参与者揭露。
Kaggle

这样部分答复了之前在竞赛圈引发了轩然大波的“IEEE-CIS Fraud Detection”竞赛事情,名为YB(Orange)和AIR地点的部队、以及宁缺(广工榜首关羽)地点的部队被撤销成果一事。过后,相关方也向咱们说明晰原因:两个部队有队友彼此知道,想对模型做个交融,可是提交了相同的Sub导致被Kaggle撤销成果。

在咱们向Kaggle求证这两支部队被撤销的原因时,Kaggle表明不能向咱们泄漏特定部队被撤销成果的原因,可是能够必定的是他们违反了规矩,而且最常见的原因是运用了相同的账户或许private sharing。

咱们不会发布特定竞赛参与者的信息,也不会发布他们被撤销成果的状况,也不会发布咱们查看参赛者做弊的进程。可是,能够奉告的是,咱们只要在有充沛的理由断定参赛者违反了竞赛规矩的状况下才会撤销成果,而且被撤销成果最常见原因是运用多个帐户或在Kaggle团队之外暗里同享代码。
Kaggle

在和一位常常参与Kaggle竞赛的同学评论private sharing时,他表明这个现象在国内很常见,我国的Kaggle圈子会集在北上广等一线城市,许多人都彼此知道,私底下也会关于某场竞赛同享思路和模型。

而这一现象不止存在于国内竞赛圈,包含俄罗斯和日本也有公司安排几个部队集体参赛,彼此学习模型进行全体进步。

而这也正是Kaggle制止private sharing的原因,由于这样不只会影响竞赛的公平性,还会构成使竞赛失掉悬念,究竟集体的力气是大于个人的,尤其是一群“高手”组成的集体,这会让竞赛变成不同安排之间的对立,大大影响其他参极彩娱乐手机客户端-原创花钱买大腿?奖牌明码标价?含金量被质疑后,咱们找Kaggle合规会聊了聊规矩赛选手的积极性。

参极彩娱乐手机客户端-原创花钱买大腿?奖牌明码标价?含金量被质疑后,咱们找Kaggle合规会聊了聊规矩与Kaggle竞赛正确态度?

最近Reddit也有人开端提出疑问:Kaggle上获得好成果真的会对求职有协助吗?

其间有个答案是这么说的:

“在 Kaggle 上做得好不代表便是一名好的 ML 工程师,Kaggle 过分重视纯数据科学,寻觅构思集合体,然后花费许多时刻(或许你还要花许多钱)进行试验,一起尽或许削减过拟合。关于竞赛而言,最好的模型便是能够供整个社区运用,你的主要任务也是做到这点。”

Pranay Dave也在Medium上写过一篇名为“为什么Kaggle不会让你成为一名超卓的数据科学家”的文章,他指出了几点原因:

  • 数据科学不只仅是猜测
  • 无法进步图算法方面的技术
  • 无法进步算法可解说性
  • 短少出资回报率的剖析环节
  • 不会涉及到模仿和优化问题
  • 无法体会模型布置和操作

原文链接:

https://towardsdatascience.com/why-kaggle-will-not-make-you-a-great-data-scientist-a2c2f506a23f

所以说,Kaggle作为一场竞赛,能够表现你在数据科学方面的实力,可是打赢Kaggle和成为一个好的数据科学家并不能划等号,对任何人来说,数据科学的这条路必定是越走越深化,Kaggle或许仅仅一个证明自己的进程。

而关于那些花钱“买大腿”混奖牌的人来说,布景的进步、简历的充分更是海市蜃楼,除了把Kaggle圈子搞乱,于人于己都没有任何优点。

那么什么才是参与竞赛的正确姿态呢?

咱们无妨来看看在洛杉矶金融城(City of LA)与 Kaggle协作的那场竞赛的优胜者Shivam Bansal,在Kaggle官网进行的优胜者访谈中描绘自己挑选这场竞赛的原因。

文章链接:

http://blog.kaggle.com/2019/07/15/winner-interview-with-shivam-bansal-data-science-for-good-challenge-city-of-los-angeles/

Q: 是什么让你决议参与这个竞赛?

A:这次竞赛中提出的问题十分具有应战性和趣味性。问题的更大部分是自然界中的非结构化常识,都需求创造性和立异性的办法。这个应战要求在一切方面都有一个完好的解决方案——代码、文档、工作流、流水线、讲故事、模块化、可重用性、可视化和自然语言处理的运用。在阅读了更多关于这个问题的文章之后,我意识到这是一个很好的机会去测验、实践和测试数据科学、工程和演示技术。

搞清楚为什么做一件事,比做这件事自身更重要。参与Kaggle竞赛也是如此。

请关注微信公众号
微信二维码
不容错过
Powered By Z-BlogPHP