致同行：不必再爬我们数据了

微信邦 · 发表于 2021-8-6 21:17:40

致某一家或几家同行公司：

不必再爬就诊问问这款产品的数据了。如果想用什么数据，来找我们打个招呼，合作一下就行了。

最近几天，我看同事在处理反爬虫策略，因为有人在反复用爬虫抓取就诊问问网页端（见页面底部的「阅读原文」）的数据。其实说来无奈，我们不做反爬虫策略任由别人爬的话还真不行，爬虫访问频率太高，还吃掉我们不小带宽。

互联网上很多数据之所以爬来爬去的，一个原因就是重复建设太多，到处爬别人的，自己爬回来质量奇差的数据之后又不做持续的迭代改进，最后留下一大堆烂尾工程。我们在处理医疗和健康相关信息的时候，如果已经有符合预期质量的数据，绝对不想再做重复工作。比如，就诊问问疾病相关的医生信息，整个中国互联网也没有这个东西。这个就没办法，只能自己做。但做完了，如果你觉得这个对贵公司有用，合作一下就行了，你还可以得到后续持续的更新。

我之前调侃过，中国互联网行业通行的 API 其实是爬虫。但无码科技既然已经做了不少工作，趟过了一些坑，深知做这些事情不那么容易，还不如给同行提供一下数据接口服务，降低彼此的成本。

不要一听到「合作」就觉得必须花钱，即使是需要一点费用也不过是象征性的而已。诸位同行，可以自己算一下，你用工程师（可能还是个团队）折腾那么长时间，数据弄回来还要清洗整理，不需要成本么？这个成本算下来真的更贵。

我们最近几年已经对不少合作伙伴提供了相关服务。欢迎合作。

医疗行业本来就赚不到什么钱，互相之间还折腾什么呢，是不是。

节省下来的成本，干点啥不好？

		自动登录	找回密码
密码			立即注册

致同行：不必再爬我们数据了

相关帖子