파이썬으로 HTML에서 태그 제거 및 글자수 세기 파이썬으로 HTML의 태그들을 제거하고 내용만 확인해 보도록 하겠습니다. HTML의 태그는 종류도 다양하고 대소문자도 구분하지 않지만 기본적으로 로 끝나는 규칙이 있습니다. 이런 일정한 규칙들을 갖는 문자열들을 다루는 데는 정규 표현식(Regular Expression)이 효율적이니 이를 가지고 태그들을 제거해 보겠습니다. 일단은 샘플 HTML으로 간단히 테스트를 하고 마지막에는 원하는 주소의 HTML을 가져와서 적용해보도록 하겠습니다. 다음은 일반적인 html의 예제입니다. 으로 진행되며 그 안에 script도 있고 주석도 있고 여러 태그들도 있습니다. 한글도 있고 영어도 있고 여러 줄(\n)로 이루어져 있습니다. 1 2 3 4 5html = " \ it's start. \ some.. 더보기 이전 1 ··· 12 13 14 15 16 17 18 ··· 49 다음