웹 크롤링 실습

728x90

저번 포스트를 참조해주세요.

저번 시간에 이어 이번에는 명언을 말한 사람의 데이터를 크롤링 해보겠습니다.

명언을 말한 사람은 class가 qoute 인 div태그 -> span 태그-> small 태그 중 class 이름이 author인 부분입니다.

quote_author = quote_html.select('div.quote > span > small.author')
quote_author_list = [i.text for i in quote_author]
print(quote_author_list)

이번에는 명언을 말한 사람에 대한 정보 링크들을 크롤링 해보겠습니다.

span 태그 -> a 태그의 href 속성 -> 속성 값

링크에 해당하는 href 속성값에 접근하는 방법은 우선 select를 통해 들어갈 수 있는 태그 까지 들어간 후에

리스트에 들어가서 ['href']를 뒤에 작성해주면 됩니다. 아래의 코드를 보는 것이 이해가 쉬울 것입니다.

quote_link = quote_html.select('div.quote > span> a')

#인덱스0을 통해 리스트를 들어간 후, ['href']를 통해 링크 접근 가능
print(quote_link[0]['href']) 

quote_link_list = [i['href'] for i in quote_link]
print(quote_link_list)

저작자표시

'파이썬으로 퀀트 프로그램 만들기 project > 웹 크롤링' 카테고리의 다른 글

웹 크롤링 실습_5 - 테이블 데이터 크롤링 하기(pandas) (0)	2023.09.04
웹 크롤링 실습_4 - 금융 속보 제목 추출하기 (0)	2023.09.04
웹 크롤링 실습_2 - find_all(), select() (0)	2023.09.04
UnicodeEncodeError: 'cp949' codec can't encode character 해결 (0)	2023.09.04
웹 크롤링 실습_1 - GET, POST (0)	2023.09.04

Park's WorkSpace

웹 크롤링 실습_3

'파이썬으로 퀀트 프로그램 만들기 project > 웹 크롤링' 카테고리의 다른 글

티스토리툴바

웹 크롤링 실습_3

'파이썬으로 퀀트 프로그램 만들기 project > 웹 크롤링' 카테고리의 다른 글

'파이썬으로 퀀트 프로그램 만들기 project/웹 크롤링' Related Articles

티스토리툴바