观点1.
不用
来源
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454
链接内容简言之:
1) HTML 不是正则语言,无法用正则表达式解析;
2) 如果 HTML 是已知的,问题还可以掌控;
3) 类似爬虫这种,你永远不会知道你会遇到怎样复杂的 HTML;
4) 合法的 HTML 都无法用正则解析,更不用说你还会碰到不合法但是浏览器可以支持的 HTML 了。
观点2
推荐使用
来源
http://www.cnblogs.com/-ajian/p/3606306.html
获取链接建议用正则表达式,解析整个HTML非常耗时,哪怕使用最快的lxml,依然会比Python里的正则表达式慢四倍以上。而且还有大量的不规范HTML,处理起来很麻烦。正则的问题是会匹配到script里的网址,可以简单总结一下遇到的不正常URL,过滤一下即可。
我个人是简单网页用正则,复杂网页正则搞不定的用xpath
不知道大家如何处理的?
不用
来源
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454
链接内容简言之:
1) HTML 不是正则语言,无法用正则表达式解析;
2) 如果 HTML 是已知的,问题还可以掌控;
3) 类似爬虫这种,你永远不会知道你会遇到怎样复杂的 HTML;
4) 合法的 HTML 都无法用正则解析,更不用说你还会碰到不合法但是浏览器可以支持的 HTML 了。
观点2
推荐使用
来源
http://www.cnblogs.com/-ajian/p/3606306.html
获取链接建议用正则表达式,解析整个HTML非常耗时,哪怕使用最快的lxml,依然会比Python里的正则表达式慢四倍以上。而且还有大量的不规范HTML,处理起来很麻烦。正则的问题是会匹配到script里的网址,可以简单总结一下遇到的不正常URL,过滤一下即可。
我个人是简单网页用正则,复杂网页正则搞不定的用xpath
不知道大家如何处理的?