1.正文
<html>
<head>
<title></title>
</head>
<body>
<div>test</div>
<h3>hh33</h3>
<p>asdf</p>
</body>
</html>
想取出<div></div>之间和<p></p>之间的东西,用:
<div>(.*)</div>[^.]*<p>(.*)</p>
就能找出来,但是换了:
</div>(.*)</div>[.\n\s\r]*<p>(.*)</p>
就匹配出不来了?
感觉两对角标之间的那些东西,就是换行符、空白符、再加上.,应该就能全部找到了吧?但是实际不行?
2.尝试着用python来进行正则匹配
import re
p = re.compile('xml') #define re:p
m = p.match('xml') #这样子m就有内容<_sre.SRE_Match object at 0x101a82100>
但是换成:
m = p.match('<xml') #这样子m就是None
#
想了下,<好像不用需要转义字符吧?
<html>
<head>
<title></title>
</head>
<body>
<div>test</div>
<h3>hh33</h3>
<p>asdf</p>
</body>
</html>
想取出<div></div>之间和<p></p>之间的东西,用:
<div>(.*)</div>[^.]*<p>(.*)</p>
就能找出来,但是换了:
</div>(.*)</div>[.\n\s\r]*<p>(.*)</p>
就匹配出不来了?
感觉两对角标之间的那些东西,就是换行符、空白符、再加上.,应该就能全部找到了吧?但是实际不行?
2.尝试着用python来进行正则匹配
import re
p = re.compile('xml') #define re:p
m = p.match('xml') #这样子m就有内容<_sre.SRE_Match object at 0x101a82100>
但是换成:
m = p.match('<xml') #这样子m就是None
#
想了下,<好像不用需要转义字符吧?