有上万个域名需要查询如图所示。
我的想法是使用python进行读写,然后循环让这些域名批量去站长之家去查询,用爬虫把结果爬回来写入excel。有更好的办法吗
要看你需求结果的精度.存在几个问题
同事用java写的,8000多条,几分钟就弄好了。擦擦擦
所以我最开始问你的问题就是精度,能否接受缓存数据,没有验证码的那些数据精度都不高.
这些和语言没啥关系.
给你写了个爬你那个页面的例子,在ruby 2.4
测试通过.
https://gist.github.com/046569/01e483094456b39168663386e49ad2aa
使用:
# 网址,每个一行
cat u.txt
# => baidu.com
# => 163.com
# => qq.com
# 执行
ruby urls.rb u.txt
# 结果:
# => 北京百度网讯科技有限公司|企业|京ICP证030173号-1|百度|www.baidu.com|2017-03-07
# => 广州网易计算机系统有限公司|企业|粤B2-20090191-18|网易|www.163.com|2017-03-13
# => 深圳市腾讯计算机系统有限公司|企业|粤B2-20090059-5|腾讯网|izhuye.qq.com|2017-05-05