', reset=True) with self.assertRaisesRegex(compat_HTMLParseError, "malnested closing tag 'div', expected after '

'"): parser.taglist('

', reset=True) with self.assertRaisesRegex(compat_HTMLParseError, "malnested closing tag 'div', expected after '

'"): parser.taglist('

/p>

', reset=True) with self.assertRaisesRegex(compat_HTMLParseError, "malformed closing tag 'p<<'"): parser.taglist('

', reset=True) with self.assertRaisesRegex(compat_HTMLParseError, "stray closing tag 'img'"): parser.taglist('must be empty', reset=True) def test_relaxed_html_parsing(self): Tag = HTMLTagParser.Tag parser = HTMLTagParser() self.assertEqual(parser.taglist('

', reset=True), []) tags = parser.taglist('

', reset=True) self.assertEqual(tags, [Tag('div'), Tag('p')]) self.assertEqual(tags[0].text_and_html(), ('', '

')) self.assertEqual(tags[1].text_and_html(), ('', '

')) tags = parser.taglist('

', reset=True) self.assertEqual(tags, [Tag('div'), Tag('p')]) self.assertEqual(tags[0].text_and_html(), ('

', '

')) self.assertEqual(tags[1].text_and_html(), ('

', '

')) tags = parser.taglist('

/p>

', reset=True) self.assertEqual(tags, [Tag('div'), Tag('p')]) self.assertEqual(tags[0].text_and_html(), ('

/p>', '

/p>

')) self.assertEqual(tags[1].text_and_html(), ('', '

')) tags = parser.taglist('

paragraph

', reset=True) self.assertEqual(tags, [Tag('div'), Tag('p')]) self.assertEqual(tags[0].text_and_html(), ('

paragraph', '

paragraph

')) self.assertEqual(tags[1].text_and_html(), ('paragraph', '

paragraph')) tags = parser.taglist('must be empty', reset=True) self.assertEqual(tags, [Tag('img')]) self.assertEqual(tags[0].text_and_html(), ('', '')) def test_compliant_html_parsing(self): # certain elements don't need to be closed (see HTMLTagParser.VOID_TAGS) Tag = HTMLTagParser.Tag html = ''' no error without closing tag: self closing is ok: ''' parser = HTMLTagParser() tags = parser.taglist(html, reset=True) self.assertEqual(tags, [Tag('img'), Tag('img')]) # don't get fooled by '>' in attributes html = '''''' tags = parser.taglist(html, reset=True) self.assertEqual(tags[0].text_and_html(), ('', html)) def test_tag_return_order(self): Tag = HTMLTagParser.Tag html = ''' ''' parser = HTMLTagParser() tags = parser.taglist(html, reset=True) self.assertEqual( str(tags), str([Tag('t0'), Tag('t1'), Tag('t2'), Tag('t3'), Tag('t4'), Tag('t5'), Tag('t6'), Tag('t7'), Tag('t8')])) tags = parser.taglist(html, reset=True, depth_first=True) self.assertEqual( str(tags), str([Tag('t3'), Tag('t4'), Tag('t2'), Tag('t1'), Tag('t6'), Tag('t5'), Tag('t0'), Tag('t8'), Tag('t7')])) # return tags in nested order tags = parser.taglist(html, reset=True, depth_first=None) self.assertEqual( str(tags), str([ [Tag('t0'), [Tag('t1'), [Tag('t2'), [Tag('t3')], [Tag('t4')]]], [Tag('t5'), [Tag('t6')]]], [Tag('t7'), [Tag('t8')]]])) def test_html_ignored_ranges(self): def mark_comments(_string, char='^', nochar='-'): cmts = HTMLIgnoreRanges(_string) return "".join(char if _idx in cmts else nochar for _idx in range(len(_string))) html_string = ''' no comments in this line --------------------------------------------------------------------- ----^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^--- before after -----------^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^----------- this is a leftover comment --> and end ----------------^^^^^^^^^^^----------------^^^^^^^^^^^^^^^^^--------- --------^^^^^^^^^^^^^-----------------------------^^^^^^^^^^--------- ''' lines = textwrap.dedent(html_string).strip().splitlines() for line, marker in zip(lines[0::2], lines[1::2]): self.assertEqual((line, mark_comments(line)), (line, marker)) # yet we must be able to match script elements test_string = '''''' items = get_element_text_and_html_by_tag('script', test_string) self.assertEqual(items, ("var foo = 'bar';", test_string))