微信邦

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 4727|回复: 0

致同行:不必再爬我们数据了

[复制链接]
发表于 2021-8-6 21:17:40 | 显示全部楼层 |阅读模式
致某一家或几家同行公司:

不必再爬 就诊问问 这款产品的数据了。如果想用什么数据,来找我们打个招呼,合作一下就行了。




最近几天,我看同事在处理反爬虫策略,因为有人在反复用爬虫抓取就诊问问网页端(见页面底部的「阅读原文」)的数据。其实说来无奈,我们不做反爬虫策略任由别人爬的话还真不行,爬虫访问频率太高,还吃掉我们不小带宽。

互联网上很多数据之所以爬来爬去的,一个原因就是重复建设太多,到处爬别人的,自己爬回来质量奇差的数据之后又不做持续的迭代改进,最后留下一大堆烂尾工程。我们在处理医疗和健康相关信息的时候,如果已经有符合预期质量的数据,绝对不想再做重复工作。比如,就诊问问疾病相关的医生信息,整个中国互联网也没有这个东西。这个就没办法,只能自己做。但做完了,如果你觉得这个对贵公司有用,合作一下就行了,你还可以得到后续持续的更新。

我之前调侃过,中国互联网行业通行的 API 其实是爬虫。但无码科技既然已经做了不少工作,趟过了一些坑,深知做这些事情不那么容易,还不如给同行提供一下数据接口服务,降低彼此的成本。

不要一听到「合作」就觉得必须花钱,即使是需要一点费用也不过是象征性的而已。诸位同行,可以自己算一下,你用工程师(可能还是个团队)折腾那么长时间,数据弄回来还要清洗整理,不需要成本么?这个成本算下来真的更贵。

我们最近几年已经对不少合作伙伴提供了相关服务。欢迎合作。

医疗行业本来就赚不到什么钱,互相之间还折腾什么呢,是不是。

节省下来的成本,干点啥不好?

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

微信邦网联系QQ|Archiver|手机版|小黑屋|鲁公网安备 37082802000167号|微信邦 ( 鲁ICP备19043418号-5 )

GMT+8, 2024-12-22 22:18 , Processed in 0.076887 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2013 Wxuse Inc. | Style by ytl QQ:1400069288

快速回复 返回顶部 返回列表