贴一个python的需求

有上万个域名需要查询如图所示。

我的想法是使用python进行读写,然后循环让这些域名批量去站长之家去查询,用爬虫把结果爬回来写入excel。有更好的办法吗

要看你需求结果的精度.存在几个问题

  • 域名如果对应 CDN 或者 WAF 的时候,你的结果如何处理?
  • 备案号查询有验证码,如何解决?
  • 爬虫频率被限制,如何解决?

我真的小看这事了。没想到只爬一个页面还不够。
1.客户也不会真的去检查的。2.看截图,不需要验证码。
3.额。。。还不知道。

同事用java写的,8000多条,几分钟就弄好了。擦擦擦

所以我最开始问你的问题就是精度,能否接受缓存数据,没有验证码的那些数据精度都不高.
这些和语言没啥关系.

给你写了个爬你那个页面的例子,在ruby 2.4测试通过.

https://gist.github.com/046569/01e483094456b39168663386e49ad2aa

使用:

# 网址,每个一行
cat u.txt
# => baidu.com
# => 163.com
# => qq.com
# 执行
ruby urls.rb u.txt
# 结果:
# => 北京百度网讯科技有限公司|企业|京ICP证030173号-1|百度|www.baidu.com|2017-03-07
# => 广州网易计算机系统有限公司|企业|粤B2-20090191-18|网易|www.163.com|2017-03-13
# => 深圳市腾讯计算机系统有限公司|企业|粤B2-20090059-5|腾讯网|izhuye.qq.com|2017-05-05