非标准HTML无法被解析的问题解决

当爬虫请求一个网页，这个网页是非标准HTML的时候，那么一般方式都是无法正常解析成dom的；比如：

错误示例

from lxml import etree
tree = etree.HTML(res.text)

from lxml import etree

parser = etree.HTMLParser()
tree = etree.fromstring(res.text, parser)

from bs4 import BeautifulSoup
tree = BeautifulSoup(html, 'html.parser')

原理是修复缺损的HTML，以及修复非标准的HTML

from lxml.html import soupparser
tree = soupparser.fromstring(res.text)

原理是HTML文本中存在非标准ASCCI码导致解析异常，将其统一转换成ASCCI码

from lxml import etree
tree = etree.HTML(res.text.encode("ascii", "xmlcharrefreplace").decode("ascii"))

S3CloudHub - Dec 25

Chris Jarvis - Dec 23

Sokuen Ryan - Dec 25

Ishaan Sheikh - Dec 25