百度就"人工大赛作弊"道歉 曾称成绩超谷歌微软 ...

来源:百度文库 编辑:超级军网 时间:2024/04/29 04:37:36
网易科技讯 6月4日消息,据国外媒体报道,百度(NASDAQ:BIDU)此前曾表示,公司在一项备受关注的人工智能标准测试中超过了谷歌、微软等竞争对手。但该公司在周二道歉称,自己的成绩有不实之嫌。

由于全球顶级科技公司竞相开发人工智能技术,让计算机识别图像、控制机器人、理解人类语言并进行其他目前仍需要人类参与的任务,百度的过失亦标志着公司越来越看重这种竞争。拥有丰富计算资源的大型互联网公司都宣称自己在该领域领先,这样做既能获得名望,也有望获得商业上的好处。

除了百度、谷歌、微软之外,包括苹果、Facebook以及IBM在内的科技公司一直都在大量招聘人工智能研究人员,并争抢这方面的荣誉。

百度在今年5月中旬曾表示,公司在ImageNet的图像识别测试中,将错误率降至4.58%,创下了记录。在最新的测试中,微软软件的错误率为4.94%,而谷歌为4.8%。通过练习,人类能达到的错误率在5%左右。

然而在本周二,负责此项测试的计算机科学家指出,百度在测试中作弊,其参与测试的频率超过了举办方规定的标准。ImageNet允许参赛者每周提交两组测试成绩。而在3月份,百度在为期5天的时间里提交了40多次成绩。ImageNet的组织者表示,百度设立了30个帐号,在6个月的时间里提交了200次测试成绩。

ImageNet测试基于一个图片数据库,其中有大约100万张图片被分成大约1000个类目。研究人员通常只使用数据库中的一部分内容,来调整他们的图像识别软件,然后再使用另一部分内容进行测试。像百度这样测试多次,工程师便可以让自家的软件适应那些本应不熟悉的信息,从而建立优势。

人工智能公司Clarifai的首席执行官马修·蔡勒(Matthew Zeiler)表示:“这种做法非常糟糕。比赛所用的测试数据是有规定的,放置在单独的服务器上,访问次数有限。这样做就是为了防止这种情况出现。如果知道了测试数据,就可以修改模型的参数,想怎么优化都可以。”蔡勒的公司此前曾在ImageNet比赛中获奖。

赛事组织者禁止百度明年提交测试成绩。

百度拒绝就此事接受采访,但在ImageNet网站贴出的一份声明中,百度科学家Ren Wu就此道歉,称这是一次失误。“我们已经在研究报告中添加了一条注释……并会继续通报我们得知的情况,”他写到。除此之外,声明未做更多解释。(亚比)
http://tech.163.com/15/0604/05/AR8B5U7B000915BF.html网易科技讯 6月4日消息,据国外媒体报道,百度(NASDAQ:BIDU)此前曾表示,公司在一项备受关注的人工智能标准测试中超过了谷歌、微软等竞争对手。但该公司在周二道歉称,自己的成绩有不实之嫌。

由于全球顶级科技公司竞相开发人工智能技术,让计算机识别图像、控制机器人、理解人类语言并进行其他目前仍需要人类参与的任务,百度的过失亦标志着公司越来越看重这种竞争。拥有丰富计算资源的大型互联网公司都宣称自己在该领域领先,这样做既能获得名望,也有望获得商业上的好处。

除了百度、谷歌、微软之外,包括苹果、Facebook以及IBM在内的科技公司一直都在大量招聘人工智能研究人员,并争抢这方面的荣誉。

百度在今年5月中旬曾表示,公司在ImageNet的图像识别测试中,将错误率降至4.58%,创下了记录。在最新的测试中,微软软件的错误率为4.94%,而谷歌为4.8%。通过练习,人类能达到的错误率在5%左右。

然而在本周二,负责此项测试的计算机科学家指出,百度在测试中作弊,其参与测试的频率超过了举办方规定的标准。ImageNet允许参赛者每周提交两组测试成绩。而在3月份,百度在为期5天的时间里提交了40多次成绩。ImageNet的组织者表示,百度设立了30个帐号,在6个月的时间里提交了200次测试成绩。

ImageNet测试基于一个图片数据库,其中有大约100万张图片被分成大约1000个类目。研究人员通常只使用数据库中的一部分内容,来调整他们的图像识别软件,然后再使用另一部分内容进行测试。像百度这样测试多次,工程师便可以让自家的软件适应那些本应不熟悉的信息,从而建立优势。

人工智能公司Clarifai的首席执行官马修·蔡勒(Matthew Zeiler)表示:“这种做法非常糟糕。比赛所用的测试数据是有规定的,放置在单独的服务器上,访问次数有限。这样做就是为了防止这种情况出现。如果知道了测试数据,就可以修改模型的参数,想怎么优化都可以。”蔡勒的公司此前曾在ImageNet比赛中获奖。

赛事组织者禁止百度明年提交测试成绩。

百度拒绝就此事接受采访,但在ImageNet网站贴出的一份声明中,百度科学家Ren Wu就此道歉,称这是一次失误。“我们已经在研究报告中添加了一条注释……并会继续通报我们得知的情况,”他写到。除此之外,声明未做更多解释。(亚比)
http://tech.163.com/15/0604/05/AR8B5U7B000915BF.html
百度的图像搜索确实不咋地,再加上没有年龄分级,希望家长千万别让小孩子用百度图片搜索和图片识别哦。
我靠,这也太无耻了吧!
中国互联网毒瘤
百度一直如此
人工智能训练和测试用的数据不能有交集,而imagenet在一定时间内能够提供用于测试的数据是有限的,被百度这样子反复频繁调用,测试用的数据中很大的一部分就被套走。这些被套走的测试数据如果被用来训练AI,AI再进行测试的时候,遇到的测试数据中就有很多是训练中已经遇到的,自然准确率会越来越高。

这就跟考试透题是同样性质的问题,确实是严重的作弊行为。
各种丢人。
国内的互联网公司除了在赚钱上超人一等,用各种恶心的手段毫无廉耻的赚钱之外,技术方面乏善可陈,抄抄抄也就罢了,连作弊都用上了。
互联网最大毒瘤百度,最大流氓360,最大抄袭者腾讯,呵呵
无聊无耻。
反正我实际体验来看,以图识图百度远不如Google ,完全不在一个档次,所以我根本不相信图片搜索百度超越Google
百度也就是听话配合和谐,论技术和谷歌差得太远,只是谷歌被封无奈用它
百度图片一点不和谐
百度招的人才算是不错了吧,为啥做出的东西体验这么差?一点都不精致,百度视频,百度百科还是撤了算了
公然作弊,太无耻了
是人工智能大赛不是人工大赛,写出这样的标题,网易的记者小学毕业没有?
什么叫人工大赛楼主?少打一个“口”字吧?
百度啊,搜黄图啥的一搜一个准,搜正经的就呵呵了。
幸亏百度是私企,某些人无从下嘴。
幸亏百度是私企,某些人无从下嘴。
百度也就是听话配合和谐,论技术和谷歌差得太远,只是谷歌被封无奈用它
闹呢。。啥时候封谷歌了?
百度招的人才算是不错了吧,为啥做出的东西体验这么差?一点都不精致,百度视频,百度百科还是撤了算了
百度视频就是垃圾
DEEP LEARNING。呵呵,这属于失误,不是作弊。大家不要过度解读了。因为基于比较典型的DL的模型比如DRB,DCNN DRCNN等,当训练数据足够大时,再更换其中部分训练数据,效果不见得会提高。
百度的DEEP LEARNING实力还是可以的,有一说一。
现在FEI FEI LI搞IMAGENET,成了计算机视觉女皇,但是像这种商业公司大量参与的竞赛,出于学者习惯,可能没想到把每条细则都明列出来。百度这么做,可能会通过增加训练数据的多样性来得到更好的效果,但是如果能,为啥不呢?只要规则没有禁止。
当然,从学术规范这个角度考虑,这个过程应该说清楚,不管多利用这种优势是否会给自己带来利益,至少起码应该把多利用的优势是什么写清楚。
而且看李老师的留言:We are welcoming a broad range of entries, including submissions from teams which may not wish to reveal the details of their methods and from teams which use extra data for training their models.

可以用EXTRA DATA, 多次提交测试来获得EXTRA DATA到底算不算呢?本身就给了人钻空子的空间。商业公司从来不是道德模范
好吧,李老师不点名批评百度。。。
It was recently brought to our attention that one group has circumvented our policy of allowing only 2 evaluations on the test set per week. (As stated on our test server page: "Please note that you cannot make more than 2 submissions per week."). This group submitted evaluation requests to our test server more frequently than permitted by creating and using multiple ImageNet accounts.
这个是那个在硅谷的美国百度科学家吧?
百度的图像搜索确实不咋地,再加上没有年龄分级,希望家长千万别让小孩子用百度图片搜索和图片识别哦。
搜索骆驼趾嘿嘿
一向无耻,始终下流
ImageNet允许参赛者每周提交两组测试成绩。

这算不算明确的规则?
awpdragon01 发表于 2015-6-4 10:25
互联网最大毒瘤百度,最大流氓360,最大抄袭者腾讯,呵呵
腾讯还好,搞点所谓的微创新还算是干事。360就是坑人
从来只用Bing的路过,BAIDU太恶心了
失落的神庙 发表于 2015-6-4 20:21
DEEP LEARNING。呵呵,这属于失误,不是作弊。大家不要过度解读了。因为基于比较典型的DL的模型比如DRB,DCN ...
当训练数据足够大时,再更换其中部分训练数据,效果不见得会提高。
————————
问题就死在于训练数据是有限的。数据量都没有达到那个拐点时,数据就是越多越好。
熬锅肉 发表于 2015-6-4 21:47
腾讯还好,搞点所谓的微创新还算是干事。360就是坑人
QQ邮箱的中转站是不是第一个这么搞得邮箱?
幸亏百度是私企,某些人无从下嘴。
在墙内被墙保护起来的互联网企业,没有充分的参与市场竞争,和那一票国企也没太大区别!
DEEP LEARNING。呵呵,这属于失误,不是作弊。大家不要过度解读了。因为基于比较典型的DL的模型比如DRB,DCN ...
失误就算了吧,30个账号刷分的总次数比其他所有刷的都多
失落的神庙 发表于 2015-6-4 20:21
DEEP LEARNING。呵呵,这属于失误,不是作弊。大家不要过度解读了。因为基于比较典型的DL的模型比如DRB,DCN ...
增加数据的话为什么要换多个马甲?
百度我也就只能呵呵了
百度好说歹说也是搜索引擎,自家难道连做训练用的资料库都没有现成的?
虽然一样很无耻,但百度的技术还不如360,各种造假、误导倒是用得登峰造极。
百度还可以。
Wv875d5v 发表于 2015-6-4 19:38
闹呢。。啥时候封谷歌了?
看来你是用校园网的,普通网络上谷歌被封杀已经1年了,据说考虑到百度搜索学术资料是在是渣,所以对校园网 教育网网开一面还可以继续GOOGLE