Zhy's Blog~

View My GitHub Profile

Archive
Categories
About

说说浮夸的中国电商

近来由于科(ban)研(zhuan)需求,博主不得不从各大电商那里淘一些中文商品评论数据。由此发现了一些问题,且在此扯扯闲话。

就数据而言:

好了,啰啰嗦嗦地大概介绍了几家大电商的情况,于是综合对数据需求的考虑,博主选择了狗东下手,默默地爬了近百万数据。
然而就在这几天博主尝试重新整理一下爬虫和数据时,不经意间发现了评论数据有很多重复。一开始还以为是我数据处理的程序有问题,经过深入的Debug,发现重复的真的是数据,是数据,数据,据。。。
而且,情况很严重。举个例子,商品编号为297032的某鼠标,商品评论显示 303796 条,爬取json文件3W+(每个文件10个评论),前几百页的数据挺好,后几页的数据也很好,以至于博主最初看数据格式是根本就没发现问题,但中间大片的数据重复的很厉害,比如(808,809),也就是第[8081-8090]条数据和第[8091-8100]条数据是一模一样的。最终整理下来,去重之后的评论仅有 23994 条。。。这还不算最过分的,商品编号为423478的鼠标,评论从狗东显示的 218720 条缩水到 3140 条。。。呵呵呵呵呵呵呵 :joy: 。。。

好了,主要问题已经说清楚了,之前对某东的好感瞬间消失。然而,难道这样做的仅仅只是狗东吗?某宝不公开数据难道仅仅是为了防爬虫?当然,狗东中也会有很多商品没有那么多评论,但看一看的话可能也不至于缩水这么严重吧——于是很自然地可以想到,某些卖家与狗东之间肮脏的XX交易。而中文亚马逊倒是看起来很实在,评论虽少,但个个都是很用心的评论,100字以上的绝对是大多数,没有重复。
消费者该如何擦亮自己的眼睛,这种猫腻用砂纸擦也看不出来吧。如今计算机应用发达,电子商务发展很快,但用这种方式增加评论数、刷好评率、刷交易量,以此让用户感觉这是大品牌放心,这是赤果果的欺骗。
在此仅以此事吐槽一番中国的电商,根本没有什么底限可讲,要想不被骗,还是要处处警惕,更重要的是,人穷还是多读书吧。。。

ps: 本文禁止转发,仅供吐槽、警醒、反思。
pps: 之前数据没有处理完善,发现由于京东服务器端更新数据导致去重后的数据仍有一部分重复,现已更新统计数据,更多数据后续更新...

商品ID 显示评论数 实际评论数 缩水率
297032 303796 23994 7.9%
423478 218720 3140 1.4%
992362 166820 5870 3.5%
392573 146260 3135 2.1%
592896 85160 3140 3.7%
133117 76290 3147 4.1%
326551 73960 3143 4.2%
981261 43900 3040 6.9%
711881 40470 3125 7.7%
293263 39020 3166 8.1%
总体: 1194396 54900 4.6%
© 个人原创,未经允许,不得转载!

Copyright © 2015-2016 zhyack. All Rights Reserved.

如对文章有任何疑问,请移步问题聚集区一览~