近来由于科(ban)研(zhuan)需求,博主不得不从各大电商那里淘一些中文商品评论数据。由此发现了一些问题,且在此扯扯闲话。
就数据而言:
好了,啰啰嗦嗦地大概介绍了几家大电商的情况,于是综合对数据需求的考虑,博主选择了狗东下手,默默地爬了近百万数据。
然而就在这几天博主尝试重新整理一下爬虫和数据时,不经意间发现了评论数据有很多重复。一开始还以为是我数据处理的程序有问题,经过深入的Debug,发现重复的真的是数据,是数据,数据,据。。。
而且,情况很严重。举个例子,商品编号为297032
的某鼠标,商品评论显示 303796 条,爬取json文件3W+(每个文件10个评论),前几百页的数据挺好,后几页的数据也很好,以至于博主最初看数据格式是根本就没发现问题,但中间大片的数据重复的很厉害,比如(808,809),也就是第[8081-8090]条数据和第[8091-8100]条数据是一模一样的。最终整理下来,去重之后的评论仅有 23994 条。。。这还不算最过分的,商品编号为423478
的鼠标,评论从狗东显示的 218720 条缩水到 3140 条。。。呵呵呵呵呵呵呵 :joy: 。。。
好了,主要问题已经说清楚了,之前对某东的好感瞬间消失。然而,难道这样做的仅仅只是狗东吗?某宝不公开数据难道仅仅是为了防爬虫?当然,狗东中也会有很多商品没有那么多评论,但看一看的话可能也不至于缩水这么严重吧——于是很自然地可以想到,某些卖家与狗东之间肮脏的XX交易。而中文亚马逊倒是看起来很实在,评论虽少,但个个都是很用心的评论,100字以上的绝对是大多数,没有重复。
消费者该如何擦亮自己的眼睛,这种猫腻用砂纸擦也看不出来吧。如今计算机应用发达,电子商务发展很快,但用这种方式增加评论数、刷好评率、刷交易量,以此让用户感觉这是大品牌放心,这是赤果果的欺骗。
在此仅以此事吐槽一番中国的电商,根本没有什么底限可讲,要想不被骗,还是要处处警惕,更重要的是,人穷还是多读书吧。。。
ps: 本文禁止转发,仅供吐槽、警醒、反思。
pps: 之前数据没有处理完善,发现由于京东服务器端更新数据导致去重后的数据仍有一部分重复,现已更新统计数据,更多数据后续更新...
商品ID | 显示评论数 | 实际评论数 | 缩水率 |
297032 | 303796 | 23994 | 7.9% |
423478 | 218720 | 3140 | 1.4% |
992362 | 166820 | 5870 | 3.5% |
392573 | 146260 | 3135 | 2.1% |
592896 | 85160 | 3140 | 3.7% |
133117 | 76290 | 3147 | 4.1% |
326551 | 73960 | 3143 | 4.2% |
981261 | 43900 | 3040 | 6.9% |
711881 | 40470 | 3125 | 7.7% |
293263 | 39020 | 3166 | 8.1% |
总体: | 1194396 | 54900 | 4.6% |
Copyright © 2015-2016 zhyack. All Rights Reserved.
如对文章有任何疑问,请移步问题聚集区一览~