"用数据说话,看Google 怎样被陷害"一文之分析 ...

来源:百度文库 编辑:超级军网 时间:2024/05/06 11:47:52


原文见链接 http://blog.sina.com.cn/s/blog_60676a3f0100e0xk.html
新浪blog 已经删掉此文 故给出一个转帖链接:
http://www.javaeye.com/news/8465 ... set-up-carried-sina


这几天这个话题很火。
俺也当一回好事者,对上文提到的Google趋势分析做了下验证,发现了一些问题 写出来供诸位讨论。

首先,文中称: 这些搜索量100%来自北京,并给出了图片

但此图片故意剪裁掉了上半部分,故无法知道其搜索选项。(先打开http://www.javaeye.com/news/8465 ... set-up-carried-sina才能看到图片)

      而我搜索的结果如下:http://www.google.com/insights/s ... %201-m&cmpt=geo

在全中国范围内搜索的结果

在全中国范围内搜索的结果


从上图可看出搜索量排第一是河北,然后是山东,再次才是北京。不知作者是如何得出搜索量100%来自北京的结论的?


第二, 通过对比中文版的google趋势 和英文版的google  insights,得出了一个有趣的结果。
   
          下面是中文版的搜索结果:http://www.google.com/trends?q=% ... e=2009-6&sort=0

峰值出现在6月18日

峰值出现在6月18日


           可以看到峰值发生在6月18日 也就是CCTV播出相关报道后。


            而英文搜索结果是:http://www.google.com/insights/s ... 201-m&cmpt=date

峰值出现在6月17日

峰值出现在6月17日


            可以看到峰值发生在6月17日 。
            而且同一页面多次搜索的结果并不一致 有时峰值会出现在18日

第二次点Search,峰值出现在6月18日

第二次点Search,峰值出现在6月18日


由此可以推测, 按美国时间 搜索峰值出现在6月17日和18日交界处。

      至此我们可以得出合理的结论:由于CCTV在18日播出了相关报道,网民们为了一试真假, 纷纷上Google搜索,造成相关关键词的搜索量在18日暴增。
而英文版的峰值有时会出现在6月17日,则是因为时差(中国和美国加州时差达17小时)。

      TG阴谋论可以休矣

原文见链接 http://blog.sina.com.cn/s/blog_60676a3f0100e0xk.html
新浪blog 已经删掉此文 故给出一个转帖链接:
http://www.javaeye.com/news/8465 ... set-up-carried-sina


这几天这个话题很火。
俺也当一回好事者,对上文提到的Google趋势分析做了下验证,发现了一些问题 写出来供诸位讨论。

首先,文中称: 这些搜索量100%来自北京,并给出了图片

但此图片故意剪裁掉了上半部分,故无法知道其搜索选项。(先打开http://www.javaeye.com/news/8465 ... set-up-carried-sina才能看到图片)

      而我搜索的结果如下:http://www.google.com/insights/s ... %201-m&cmpt=geo

在全中国范围内搜索的结果

在全中国范围内搜索的结果


从上图可看出搜索量排第一是河北,然后是山东,再次才是北京。不知作者是如何得出搜索量100%来自北京的结论的?


第二, 通过对比中文版的google趋势 和英文版的google  insights,得出了一个有趣的结果。
   
          下面是中文版的搜索结果:http://www.google.com/trends?q=% ... e=2009-6&sort=0

峰值出现在6月18日

峰值出现在6月18日


           可以看到峰值发生在6月18日 也就是CCTV播出相关报道后。


            而英文搜索结果是:http://www.google.com/insights/s ... 201-m&cmpt=date

峰值出现在6月17日

峰值出现在6月17日


            可以看到峰值发生在6月17日 。
            而且同一页面多次搜索的结果并不一致 有时峰值会出现在18日

第二次点Search,峰值出现在6月18日

第二次点Search,峰值出现在6月18日


由此可以推测, 按美国时间 搜索峰值出现在6月17日和18日交界处。

      至此我们可以得出合理的结论:由于CCTV在18日播出了相关报道,网民们为了一试真假, 纷纷上Google搜索,造成相关关键词的搜索量在18日暴增。
而英文版的峰值有时会出现在6月17日,则是因为时差(中国和美国加州时差达17小时)。

      TG阴谋论可以休矣
今天的last 30days  是2009-5-26到2009-6-26 期间的访问地区分布结果
几天前(我假设是22号)的last 30days   是2009-5-22到2009-6-22 期间的访问地区分布

这个都不晓得就没意思了。


回ls
这个我只能验证今天(26日)往前30天的,Google上没有选项可以选择从几号到几号的。

但有个有趣的现象 选择从今天往前7天(20日至26日),Google统计显示全部访问来自北京。
而图中访问量是从10日开始增加, 到17、18日达到峰值,按上面的结果5月26至6月26访问量第一为河北 而6月20日至6月26日访问量全来自北京 推测 则10到20日的访问量肯定不会是100%来至北京。

回ls
这个我只能验证今天(26日)往前30天的,Google上没有选项可以选择从几号到几号的。

但有个有趣的现象 选择从今天往前7天(20日至26日),Google统计显示全部访问来自北京。
而图中访问量是从10日开始增加, 到17、18日达到峰值,按上面的结果5月26至6月26访问量第一为河北 而6月20日至6月26日访问量全来自北京 推测 则10到20日的访问量肯定不会是100%来至北京。


纯探讨哈

1.你的词和ccav曝光的词不同
2.看我抓的图未命名.jpg
后面的数字加起来不是百分百
看你的图  为什么Regional interest后面的数字都不见了?
Regional interest不是搜索人数占总搜索人数的百分比

纯探讨哈

1.你的词和ccav曝光的词不同
2.看我抓的图未命名.jpg
后面的数字加起来不是百分百
看你的图  为什么Regional interest后面的数字都不见了?
Regional interest不是搜索人数占总搜索人数的百分比
支持理性分析,对错,姑且不论,这真假总是要弄请的
TG要陷害GG不会用这个手段的。。呵呵。。别忘了GG的牌照还是别人的呢!要端窝很容易的!支持楼主!
欢迎来自夜郎自大的教主!
只要智商超过80都应该知道峰值不说明问题,而楼主给出的图充分说明这个关键词的搜索频率突然大幅上升出现在什么时间,嘿嘿。

这恰恰证明了原帖啊。


等真相

等真相
我是来打酱油的
8# 猪不戒


你当是串联啊!那么多人集体搜一个词汇????????
主要得看啥时候搜索量开始突增的,不是看峰值啊。
其实道理太简单了,CCTV,报纸大肆宣传,搜索量自然会上升,然后热度过去了,搜索量自然会下降。搜索量本身跟能搜索出不良内容无逻辑必然关系。
当然我不认为任何搜索引擎能过滤掉不良内容,真要封也要从网站内容源头上封,跟搜索引擎毫无关系。指责搜索引擎属于IT盲的白痴行为。
关键在于搜索量开始上升的时间点究竟是18日还是之前。如果是之前,显然有问题。

只要智商超过80都应该知道峰值不说明问题,而楼主给出的图充分说明这个关键词的搜索频率突然大幅上升出现在什么时间,嘿嘿。

这恰恰证明了原帖啊。
猪不戒 发表于 2009-6-26 12:34


请理性讨论 ,上来就人生攻击 只能暴露自己低劣的素质。

Google给出的是一个拟合曲线,从英文搜索图中10日到18日完全是一条直线便可以看出来。

而中文搜索结果http://www.google.com/trends?q=% ... e=2009-6&sort=0
则是17日为0 ,18日一个峰值 ,这个可以更加确切的证实我的观点。

中英文搜索结果的差异 估计是拟合算法不同或者纳入统计的门限值不同引起的。
只要智商超过80都应该知道峰值不说明问题,而楼主给出的图充分说明这个关键词的搜索频率突然大幅上升出现在什么时间,嘿嘿。

这恰恰证明了原帖啊。
猪不戒 发表于 2009-6-26 12:34


请理性讨论 ,上来就人生攻击 只能暴露自己低劣的素质。

Google给出的是一个拟合曲线,从英文搜索图中10日到18日完全是一条直线便可以看出来。

而中文搜索结果http://www.google.com/trends?q=% ... e=2009-6&sort=0
则是17日为0 ,18日一个峰值 ,这个可以更加确切的证实我的观点。

中英文搜索结果的差异 估计是拟合算法不同或者纳入统计的门限值不同引起的。
gnome2130 发表于 2009-6-26 12:51
那请你对楼主给出的图片中关键词的搜索频率从6月14日开始突然大幅上升做出一个合情合理的解释吧。
猪不戒 发表于 2009-6-26 13:09

有可能是算法差异造成的。如果把统计时间间隔放宽到5天甚至更长是有可能出现这样的结果的。
lgthunders 发表于 2009-6-26 13:08
有人生攻击请去站务投诉,我不像某些人揣着明白装糊涂。

多说一点:这条曲线肯定是随着时间的推移而变化的,离事发越久,肯定峰值会往后推移一段,而最能说明问题的反而是峰值前的变化趋势。而根据算法的差异,虽然峰值应该发生在CCTV新闻之后的某一个时段,但是峰值之前的变化趋势则有可能随着时间的推移而失真。显然,在离出现峰值的时间段更近的统计趋势图比时隔一周之后的统计图更能反应真实的变化趋势。
deam 发表于 2009-6-26 13:11

一个月内的统计图以5天甚至更长的时间来做统计时间间隔,这种可能性有多大呢?呵呵。
猪不戒 发表于 2009-6-26 13:30

从上面的“儿子和母亲”及“儿子和父亲”的搜索结果来看,统计间隔似乎是1周。
某些人如果不是揣着明白装糊涂,为何会对我的发言那么敏感而非要对号入座呢?

就这样的人品还有脸讲什么素质高低啊?


去搜索其它内容看趋势图会发现统计时间可以是每天
开始上升到峰值之间的是什么有没内行人知道。

去搜索其它内容看趋势图会发现统计时间可以是每天
开始上升到峰值之间的是什么有没内行人知道。
ttface 发表于 2009-6-26 13:46
其实可以看出这个关键词的数据统计明显失真,已经人工干预过了。至于是什么原因,我等P民怎么可能知道。
统计时间并不是周 而是天

They don't represent absolute search volume numbers, because the data is normalized and presented on a scale from 0-100;

数字是量化值 不是搜索结果绝对值 也就是统计间隔内最高点为100。拿ccav曝光的关键字 搜最近一个月 抓包结果

这个是儿子母亲不正当关系的抓包记录
        'DATA=\n' +
          '1243382400,1.0\n' +
          '1243468800,1.0\n' +
          '1243555200,1.0\n' +
          '1243641600,1.0\n' +
          '1243728000,1.0\n' +
          '1243814400,1.0\n' +
          '1243900800,1.0\n' +
          '1243987200,1.0\n' +
          '1244073600,1.0\n' +
          '1244160000,1.0\n' +
          '1244246400,1.0\n' +
          '1244332800,1.0\n' +
          '1244419200,1.0\n' +
          '1244505600,1.0\n' +
          '1244592000,1.0\n' +
          '1244678400,15.0\n' +
          '1244764800,29.0\n' +
          '1244851200,43.0\n' +
          '1244937600,57.0\n' +
          '1245024000,72.0\n' +
          '1245110400,86.0\n' +
          '1245196800,100.0\n' +
          '1245283200,83.0\n' +
          '1245369600,65.0\n' +
          '1245456000,48.0\n' +
          '1245542400,31.0\n' +
          '1245628800,14.0\n' +
          '1245715200,NaN\n' +
          '1245801600,NaN\n' +
          '1245888000,NaN\n' +
          '1245974400,NaN\n'

1245196800就是17日

这个是不正当关系的记录
          '1244678400,16.0\n' +
          '1244764800,30.0\n' +
          '1244851200,44.0\n' +
          '1244937600,58.0\n' +
          '1245024000,72.0\n' +
          '1245110400,86.0\n' +
          '1245196800,100.0\n'

这个是 儿子母亲 的记录

  '1245024000,1.0\n' +
          '1245110400,1.0\n' +
          '1245196800,1.0\n' +
          '1245283200,100.0\n' +
          '1245369600,45.0\n' +
          '1245456000,22.0\n' +
          '1245542400,13.0\n' +
          '1245628800,8.0\n' +
          '1245715200,7.0\n' +
          '1245801600,8.0\n' +

结果:
1.数据比较怪 基本是直线。
2.和‘儿子母亲’的搜索影响不大   和‘不正当关系’影响很大 曝光的关键词 是‘儿子母亲不正当关系’
3.我单独搜了 儿子 母亲 发现是一日内上升 关系也有上升 不过变化不大
失真难说,只是不准确,它不是准确到小时单位这趋势图没多大意义,天知道这个峰值是开播前还是后造成的
Google的统计曲线是不断变化的,这是因为曲线上的数据不是搜索次数,而是经过“归一化”之后的数据,简单地说,很可能就是取时间区间(30天或者1年)里的搜索最大次数的数值作为‘1’(也可以是另外一个值),然后做归一处理,最后得到的所有值都是0-1之间的小数(同样,也可以是0-100内的数)。
这种处理的目的是为了,反映某个给定时间内的采样数据的变化规律。是统计数据处理的常用方法。
这也解释了,为什么只有中国人搜索“儿子和母亲的不正当关系”,就算侨居外国的人少,但是总还是有的吧?因为来支外国IP的搜索像对中国太少,所以在归一化之后,国外的记录趋于0,而不能被现实。

再根据几乎所有的关键词曲线都是直线两连,可以猜测,Google对数据不光归一化处理,而且进行了线性的曲线拟合,剔除了杂点(噪声)。

所以,你今天看到的曲线,后天再重新查,两者很可能就是不一样的,但是如果这两天里的数据变化量不是特别大的话,曲线的趋势将会保留下来。

结合CCAV的情况。我们可以这么分析。
最开始曝光这些统计数据的是大约20号之前(具体我忘了,有心的可以去查查),距离今天26号,相差了7天时间,由于CCAV的曝光,18号之后大量的用户抱着试试看的心态上Google去搜索了,所以曲线的峰值被逐级推后,趋向上升的时间起点也逐级靠后,但是大趋势是不变的,由于诸如归一化和去噪等数据后处理,数据细节已经失真。也就是说,越早收集证据,越好,越能反映真实情况。
最开始曝光的那个图,是截图,不太可能造假。而今天只能看到大概趋势了,还原那几天的原貌已经不可能了,有心的人1个月以后再来看这个帖子,你在重新搜索,你一定会发现不同的曲线,峰值很可能会更加靠后,曲线上升的时间起点也会更加靠后。

有着十多年统计数据处理经验的人士飘过。。。

我的结论,最开始曝光的数据可信度很高,现在各位自己验证的数据能够反映一定的问题,但是由于数据处理方法和Google Trends的功能相对简单的缘故,已经不可能重现当时的那张曲线图了。
但是从曲线特征来看,CCAV作假的可能性非常高。
指责搜索引擎属于IT盲的白痴行为。
google这个证据本身就不值得怀疑吗?
文盲 发表于 2009-6-26 22:00
只是相对于CCAV而已。
ericcui1 发表于 2009-6-26 22:05
这只能说屁股决定脑子。