致某一家或几家同行公司:
不必再爬 就诊问问 这款产品的数据了。如果想用什么数据,来找我们打个招呼,合作一下就行了。
最近几天,我看同事在处理反爬虫策略,因为有人在反复用爬虫抓取就诊问问网页端(见页面底部的「阅读原文」)的数据。其实说来无奈,我们不做反爬虫策略任由别人爬的话还真不行,爬虫访问频率太高,还吃掉我们不小带宽。
互联网上很多数据之所以爬来爬去的,一个原因就是重复建设太多,到处爬别人的,自己爬回来质量奇差的数据之后又不做持续的迭代改进,最后留下一大堆烂尾工程。我们在处理医疗和健康相关信息的时候,如果已经有符合预期质量的数据,绝对不想再做重复工作。比如,就诊问问疾病相关的医生信息,整个中国互联网也没有这个东西。这个就没办法,只能自己做。但做完了,如果你觉得这个对贵公司有用,合作一下就行了,你还可以得到后续持续的更新。
我之前调侃过,中国互联网行业通行的 API 其实是爬虫。但无码科技既然已经做了不少工作,趟过了一些坑,深知做这些事情不那么容易,还不如给同行提供一下数据接口服务,降低彼此的成本。
不要一听到「合作」就觉得必须花钱,即使是需要一点费用也不过是象征性的而已。诸位同行,可以自己算一下,你用工程师(可能还是个团队)折腾那么长时间,数据弄回来还要清洗整理,不需要成本么?这个成本算下来真的更贵。
我们最近几年已经对不少合作伙伴提供了相关服务。欢迎合作。
医疗行业本来就赚不到什么钱,互相之间还折腾什么呢,是不是。
节省下来的成本,干点啥不好?
|