aardio 官方社区

 找回密码
 注册会员

QQ登录

只需一步,快速开始

搜索
查看: 6788|回复: 4

请教一下inet.http读取网页的问题

[复制链接]

5

主题

5

回帖

144

积分

一级会员

积分
144
发表于 2017-12-27 12:01:48 | 显示全部楼层 |阅读模式
今天尝试了下innet.http结合web.mshtml的jQuery解析网页,发现打开美图录这个网站时返回的数据是乱码,可这个网页明明是utf-8编码的,使用io.print也不行,但是解析其他网页没问题。
  1. import win.ui;
  2. /*DSG{{*/
  3. var winform = win.form(text="aardio form";right=759;bottom=469)
  4. winform.add(
  5. edit={cls="edit";text="edit";left=140;top=59;right=641;bottom=398;edge=1;multiline=1;z=1}
  6. )
  7. /*}}*/

  8. import console
  9. import inet.http
  10. io.open()
  11. var net=inet.http()
  12. var html=net.get("https://www.meitulu.com/item/12647_2.html")
  13. console.log(html)
  14. winform.edit.text=(html)
  15. console.pause(true)
  16. winform.show()
  17. win.loopMessage();
复制代码

求解,用string。fromto(html,0,65001)转码也不行。

1

主题

47

回帖

1434

积分

新手入门

积分
1434
发表于 2017-12-27 12:09:15 | 显示全部楼层
压缩了,在前面导入zlib会自动解压
  1. import zlib;
复制代码

5

主题

5

回帖

144

积分

一级会员

积分
144
 楼主| 发表于 2017-12-27 12:21:26 | 显示全部楼层
松江 发表于 2017-12-27 12:09
压缩了,在前面导入zlib会自动解压

非常感谢,完美解决了,非常感谢楼主的及时解答。
我也知道有些网站网页传输时压缩了,不过以前看python等爬虫教程时,没见用解压这一步,所有想当然了

5

主题

5

回帖

144

积分

一级会员

积分
144
 楼主| 发表于 2017-12-27 13:15:40 | 显示全部楼层
推荐个检测网页是否压缩网站
http://tool.chinaz.com/Gzips

170

主题

2184

回帖

1万

积分

管理员

积分
13236
发表于 2017-12-27 15:50:23 | 显示全部楼层
aslyr 发表于 2017-12-27 12:21
非常感谢,完美解决了,非常感谢楼主的及时解答。
我也知道有些网站网页传输时压缩了,不过以前看python ...

一般只有客户端请求头加了 "Accept-Encoding:gzip"才会返回gzip压缩后的网页。
所以爬虫并不需要处理这个东西。

当然,没有一个教程能解决所有问题,世上总有一些网站会例外。
您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

手机版|未经许可严禁引用或转载本站文章|aardio.com|aardio 官方社区 ( 皖ICP备09012014号 )

GMT+8, 2024-4-15 03:37 , Processed in 0.054998 second(s), 22 queries .

Powered by Discuz! X3.5

Copyright © 2001-2023 Tencent Cloud.

快速回复 返回顶部 返回列表