728x90
저번 포스트를 참조해주세요.
저번 시간에 이어 이번에는 명언을 말한 사람의 데이터를 크롤링 해보겠습니다.
명언을 말한 사람은 class가 qoute 인 div태그 -> span 태그-> small 태그 중 class 이름이 author인 부분입니다.
quote_author = quote_html.select('div.quote > span > small.author')
quote_author_list = [i.text for i in quote_author]
print(quote_author_list)
이번에는 명언을 말한 사람에 대한 정보 링크들을 크롤링 해보겠습니다.
span 태그 -> a 태그의 href 속성 -> 속성 값
링크에 해당하는 href 속성값에 접근하는 방법은 우선 select를 통해 들어갈 수 있는 태그 까지 들어간 후에
리스트에 들어가서 ['href']를 뒤에 작성해주면 됩니다. 아래의 코드를 보는 것이 이해가 쉬울 것입니다.
quote_link = quote_html.select('div.quote > span> a')
#인덱스0을 통해 리스트를 들어간 후, ['href']를 통해 링크 접근 가능
print(quote_link[0]['href'])
quote_link_list = [i['href'] for i in quote_link]
print(quote_link_list)
'파이썬으로 퀀트 프로그램 만들기 project > 웹 크롤링' 카테고리의 다른 글
웹 크롤링 실습_5 - 테이블 데이터 크롤링 하기(pandas) (0) | 2023.09.04 |
---|---|
웹 크롤링 실습_4 - 금융 속보 제목 추출하기 (0) | 2023.09.04 |
웹 크롤링 실습_2 - find_all(), select() (0) | 2023.09.04 |
UnicodeEncodeError: 'cp949' codec can't encode character 해결 (0) | 2023.09.04 |
웹 크롤링 실습_1 - GET, POST (0) | 2023.09.04 |