Back End/Java

Jsoup API를 이용한 웹크롤링

DevHam94 2023. 7. 27. 00:27

Jsoup은 HTML문서를 웹 크롤링, 웹스크랩핑, 데이터 추출 등을 할 수 있게 도와주는 자바 라이브러리이다.

Jsoup.connect(url) 주어진 Url에 연결을 시도한다. Connection 객체를 반환하여 GET, POST 요청을 할 수 있다.
document.get() Connection 객체를 사용해 웹 페이지의 내용을 가져오고. Document 객체를 반환한다. 
Jsoup.parse(html) 주어진 html 문자열을 파싱해 document 객체를 생성한다.
document.getElementById(id) 주어진 id에 해당하는 요소를 찾아 element객체로 반환한다.
document.select(selector) 주어진 css 선택자와 일치하는 모든 요소를 찾아 elements객체(복수의 element를 포함하는 클래스)로 반환한다.
element.text() 주어진 요소의 텍스트 내용을 가져온다.
element.attr(attribute) 주어진 요소의 속성 값을 가져온다.
element.html() 주어진 요소의 내부 html을 가져온다.
element.outerHtml() 주어진 요소와 그 내부 html을 모두 가져온다.
element.tagName() 주어진 요소의 태그 이름을 가져온다.
element.parent() 주어진 요소의 부모 요소를 반환한다.
element.children() 주어진 요소의 자식 요소를 반환한다.
element.nextElementSibling() 주어진 요소의 다음 형제 요소를 반환한다.
element.previousElementSibling() 주어진 요소의 이전 형제 요소를 반환한다.
element.addClass(className) 주어진 요소에 클래스를 추가한다.
element.removeClass(className) 주어진 요소에서 클래스를 제거한다.
element.hasClass(className) 주어진 요소가 해당 클래스를 가지고있는지 확인한다.
element.attr(attribute, value) 주어진 요소의 속성 값을 설정한다.
element.append(html) 주어진 요소에 내부 html의 끝에 추가할 html을 지정한다.
element.prepend(html) 주어진 요소에 내부 html의 시작 부분에 추가할 html을 지정한다.
element.remove() 주어진 요소를 dom에서 제거한다.

 

'Back End > Java' 카테고리의 다른 글

poi(excel 라이브러리), iText(pdf 라이브러리)  (0) 2023.07.27
URLConnection 네트워킹 API  (0) 2023.07.27
기타 API들  (0) 2023.07.26
스트림 API(stream)  (0) 2023.07.24
람다식, 함수형 인터페이스  (0) 2023.07.20