关于领美元发民意贴的民主发帖机器人,大家搜集到的都贴 ...

来源:百度文库 编辑:超级军网 时间:2024/05/01 13:25:19


这玩意是从商业竞争中的发帖机器人改进来的
我是做市场研究的,经常有客户提及在论坛,博客等有竞争对手进行用发帖机器人进行恶意攻击
因为企业、品牌、产品名称独特性高,因此这种发帖机器人的匹配率可以达到80%甚至更多
反正不管主帖说的什么,赞扬或者批评
按关键字匹配就可以了

但是一旦用于“代表民意”,因为匹配的复杂程度急剧升高,关键词的独特性很低
因此笑话百出

先贴上自己搜集的,各位有好笑的也贴上来让大家开心开心吧


http://lt.cjdby.net/thread-1116129-1-1.html
关键字 病房
http://lt.cjdby.net/thread-1116714-1-1.html
关键字 旗子
http://lt.cjdby.net/thread-1115855-1-1.html
关键字 演习
http://lt.cjdby.net/viewthread.php?tid=1122464
关键字 背景
http://lt.cjdby.net/thread-1116096-1-1.html
关键字 伊拉克
http://lt.cjdby.net/viewthread.php?tid=1116001
关键字 救
http://lt.cjdby.net/thread-1122527-1-1.html
关键字 药

各位兄弟的陆续补充
http://lt.cjdby.net/thread-1123458-1-1.html
关键字 海外
http://lt.cjdby.net/thread-1123400-1-1.html
关键字 红旗
http://lt.cjdby.net/thread-1123573-1-1.html
关键字 户口

这玩意是从商业竞争中的发帖机器人改进来的
我是做市场研究的,经常有客户提及在论坛,博客等有竞争对手进行用发帖机器人进行恶意攻击
因为企业、品牌、产品名称独特性高,因此这种发帖机器人的匹配率可以达到80%甚至更多
反正不管主帖说的什么,赞扬或者批评
按关键字匹配就可以了

但是一旦用于“代表民意”,因为匹配的复杂程度急剧升高,关键词的独特性很低
因此笑话百出

先贴上自己搜集的,各位有好笑的也贴上来让大家开心开心吧


http://lt.cjdby.net/thread-1116129-1-1.html
关键字 病房
http://lt.cjdby.net/thread-1116714-1-1.html
关键字 旗子
http://lt.cjdby.net/thread-1115855-1-1.html
关键字 演习
http://lt.cjdby.net/viewthread.php?tid=1122464
关键字 背景
http://lt.cjdby.net/thread-1116096-1-1.html
关键字 伊拉克
http://lt.cjdby.net/viewthread.php?tid=1116001
关键字 救
http://lt.cjdby.net/thread-1122527-1-1.html
关键字 药

各位兄弟的陆续补充
http://lt.cjdby.net/thread-1123458-1-1.html
关键字 海外
http://lt.cjdby.net/thread-1123400-1-1.html
关键字 红旗
http://lt.cjdby.net/thread-1123573-1-1.html
关键字 户口
赞楼主的认真精神!
学习了
我就再CD那天见了个转基因石油。。
好东西
  我说怎么感觉回帖不正常呢?


叶子系列啊,有才
那个从“药”加薪联想到看不起病的呢

叶子系列啊,有才
那个从“药”加薪联想到看不起病的呢
rcoolduck 发表于 2011-4-22 20:01


    还有“药”“高铁”
标记一下,收藏了
汉字的一阶条件熵为5.31以上,为全球最高,如果只统计5000汉字及其常用组合,这个一阶条件熵更加会到达9.71以上

因为现代汉语的组合不想文言文那么随心所欲,每次独立语素在追加一个语素之后,不会使到敏感文本的一个语素的熵增加。因此,我觉得他们只使用了一重的Markov链,而汉语起码是三重以上的,

还有这个事情可以看出来,比如药家鑫三个字,我们要构建他的语法树:

药肯定不能作为树的根节点,因为现代汉语没有核心语素前置的习惯,这是错误一,

而家鑫很明显非汉语常用组合词,不能单独分开作为叶子节点,这是错误二

当递归到药家鑫时候,并没有完整的使用有限形式自动机对这三个字组成的独自成分进行状态转换,比如药可以做形容词,可以做动词,这些这个程序完全都没有做

以后谁再说一个高中生就可以做程序员,你们就好好用这个事例去砸他,写好一个程序不是仅仅懂得CSDN上面那些花拳绣腿的功夫,更是要扎扎实实的做好每一个基础工作
我收集的那个和谐关键字被删了
http://lt.cjdby.net /thread-1116714-1-1.html
第一楼被删了,第3楼回复中可看到1楼的内容。
难怪看见些莫名其妙地歪楼帖……
华夏冉闵 发表于 2011-4-23 23:29

现在太多的IT民工只是在写些数据库增删改查这种类似于数据库前端界面的东西
稍微有点技术含量的都搞不出来啊,有木有!!!
我要外包商写个只有10个约束条件的样本抽样算法5个人写了1个月,这尼玛什么水平啊
rcoolduck 发表于 2011-4-23 23:40


    他公司都是真正的民工吧,IT民工哪里会这样啊

他公司都是真正的民工吧,IT民工哪里会这样啊
华夏冉闵 发表于 2011-4-23 23:56


100W样本
10个约束条件类别,每个约束条件类别内可能有一系列选项
比如
约束条件收入:1000-2000 2000-3000 等等
约束条件年龄: 18-20 20-25 等等
约束条件职业:  公务员、教师、职员等等

然后实现交叉配额
比如要求从100W样本中抽取1W人
年龄25岁以下性别为女月收入为3000以上的公务员占5%
年龄20岁以上性别为男月收入为2000以下的教师占3%
以此类推,覆盖全部选择的约束条件
同时加上约束条件的优先级排序
这种算法实现起来很困难吗?
他公司都是真正的民工吧,IT民工哪里会这样啊
华夏冉闵 发表于 2011-4-23 23:56


100W样本
10个约束条件类别,每个约束条件类别内可能有一系列选项
比如
约束条件收入:1000-2000 2000-3000 等等
约束条件年龄: 18-20 20-25 等等
约束条件职业:  公务员、教师、职员等等

然后实现交叉配额
比如要求从100W样本中抽取1W人
年龄25岁以下性别为女月收入为3000以上的公务员占5%
年龄20岁以上性别为男月收入为2000以下的教师占3%
以此类推,覆盖全部选择的约束条件
同时加上约束条件的优先级排序
这种算法实现起来很困难吗?
机器人嘛,你得理解,毕竟终结者只是电影里出现过。:D
PS:难怪有些贴子看了觉得是精神病院的病人跑出来发的[:a6:]
rcoolduck 发表于 2011-4-24 00:03


  这个,这个,excel里面,随便编写一个简单的VBA的算法就可以实现了

高中的时候大家不都学过的嘛

说过最简单的思路,你先定一个随机数根据他来选取随机抽取量
然后把诸条件用你的哪个百分比条件进行匹配

每一步都检查一次匹配百分率,成功的归入,不成功落入可选部分
当百分比用完之后,终止这个匹配不就可以了?
这个可以有,哈哈
华夏冉闵 发表于 2011-4-23 23:29

     有才!


-0-机器真欢乐……
赤果果啊赤果果
求米帝籍水属性叶子系机器萌娘图……

-0-机器真欢乐……
赤果果啊赤果果
求米帝籍水属性叶子系机器萌娘图……


http://lt.cjdby.net/thread-1123458-1-1.html8楼
海外

http://lt.cjdby.net/thread-1123458-1-1.html8楼
海外
wodengrenaa 发表于 2011-4-24 00:47

刚想发呢O(∩_∩)O~
gyp000 发表于 2011-4-24 00:49
这机器的准确率太低了。
华夏冉闵 发表于 2011-4-24 00:14


    围观IT前辈,现在不上专业网站,不看专业论文,已经很少人讨论算法问题,更别说编译原理这样的东西
华夏大大能不能建议的介绍下现在在汉语分词和语义识别方面的技术呀
顶LZ,今天才知道还可以这样

那么是不是设置发贴需要填验证码就可以避免这种情况了呢?
呵呵~~~~搞这种东西的是脑残吧,刚开始可能有人会上当,久了就会起反效果了
这不就是终结者一的水平么:莎拉康纳?……是!……叭!
美分党V5

“社会的阴暗面”就是这样制造出来的。
叶子系列
机器人真低能啊
水平有待提高~~
机器人好NB
建议以后发帖都加几个莫名其妙的关键字
这贴应该置顶呐
这个帖子好,LZ目光敏锐
应该利用一些词汇钓鱼,把那些机器人钓出来。
回复 10# 华夏冉闵

然后发现这是上下文无关文法,“药”“家”“鑫”是三个素短语。
大元帅 发表于 2011-4-24 11:29
不知发贴机器人的制造者们知不知道。知道后又是什么想法:D
http://lt.cjdby.net/thread-1123400-1-1.html

这次是“红旗”。
楼主有相关软件?借来用用