|
本帖最后由 lm752213730 于 2012-6-16 16:24 编辑
import inet.whttp;
var whttp = ..inet.whttp();
whttp.setTimeouts (
99999,//连接超时
99999,//请求超时
99999 //接收超时
)
//获取目标页内容
var getUrlHtml=function(url){
var ok,j=..string.find(url,'@http://');
if(not ok){
url='http://'+url;
}
var html = whttp.get(url);
var charset="";
for m in ..string.gmatch(html,'charset\\=\\"{0,2}(.+?)\\"'){
charset=m;
break ;
}
if(..string.lower(charset)=="utf-8"){
//..console.log(charset)
html=..string.fromto(html);
}
return html;
}
//查询所有的友情链接以及对应的锚文字
checkAizhan=function(url){
var links={};
var linkTitle={};
var html=getUrlHtml("www.danxi120.com");
for m,n in ..string.gmatch(html,'id="linkhref'+"\d+"+'" target\\=\\"\\_blank"\\>(.+?)\\<br \\/\\>(.+?)\\<\\/a\\>\\<\\/div\\>\\<\\/td\\>'){
..table.push(links,n);
..table.push(linkTitle,m);
}
return links,linkTitle;
}
//查询外链对应的锚文字
checkSlTitle=function(url/*对方的url*/,domain/*我的域名*/){
var html=getUrlHtml(url);
for m in ..string.gmatch(html,'\\<a href\\=\\"http\\:\\/\\/www(.+?)\\<\\/a\\>'){
..console.log(m)
}
return "不存在";
}
o.open()
console.log(checkSlTitle("www.csyc120.com","danxi120.com"));
console.pause()
说明:类似
<a href='http://www.danxi120.com/' target='_blank'>子宫肌瘤是怎么引起的</a>
我要拿到这个里面对应网址的文字,也就是友情链接的锚文字(前面必须是以 <a href='http:// 开头),问题是有的链接是单引号,有的是双引号,有的还有其他参数。
求哪个高手给帮下忙。
|
|