본문 바로가기

파이썬으로 퀀트 프로그램 만들기 project/웹 크롤링

웹 크롤링 실습_3

728x90

저번 포스트를 참조해주세요.

저번 시간에 이어 이번에는 명언을 말한 사람의 데이터를 크롤링 해보겠습니다.

명언을 말한 사람은 class가 qoute 인 div태그 -> span 태그-> small 태그 중 class 이름이 author인 부분입니다.

quote_author = quote_html.select('div.quote > span > small.author')
quote_author_list = [i.text for i in quote_author]
print(quote_author_list)

 

이번에는 명언을 말한 사람에 대한 정보 링크들을 크롤링 해보겠습니다.

span 태그 -> a 태그의 href 속성 -> 속성 값

링크에 해당하는 href 속성값에 접근하는 방법은 우선 select를 통해 들어갈 수 있는 태그 까지 들어간 후에

리스트에 들어가서 ['href']를 뒤에 작성해주면 됩니다. 아래의 코드를 보는 것이 이해가 쉬울 것입니다.

quote_link = quote_html.select('div.quote > span> a')

#인덱스0을 통해 리스트를 들어간 후, ['href']를 통해 링크 접근 가능
print(quote_link[0]['href']) 

quote_link_list = [i['href'] for i in quote_link]
print(quote_link_list)