刘翔新闻：昔日田径偶像的退役生活，如今过得怎样？

今天跟大家聊聊我折腾“刘翔新闻”这件事儿，纯属个人兴趣，记录一下。

最初的起因很简单，就是想看看能不能快速抓取一些关于刘翔的新闻，解下他的近况。毕竟当年也是看着他比赛长大的，挺感慨的。

第一步：确定目标和工具

我得知道去哪里找新闻。简单搜索一下，发现几个大的新闻门户网站都有比如XX新闻、XX体育之类的。确定目标网站，接下来就是选择工具。我比较熟悉Python，加上它在网络爬虫方面有很多成熟的库，所以就决定用Python来搞。

常用的爬虫库，像Requests、BeautifulSoup、Scrapy，我都解一些。考虑到这回需求比较简单，就是抓取新闻标题和链接，Requests+BeautifulSoup就足够。Scrapy有点重，杀鸡焉用牛刀嘛

第二步：网页分析

选好工具，就开始分析网页结构。打开XX新闻关于刘翔的页面，右键“检查”，打开开发者工具，看看新闻标题和链接是怎么组织的。一般来说，新闻网站都会有一定的规律，比如新闻标题都放在某个特定的class或者id的标签里。

这一步很重要，直接关系到你后面能不能准确地抓取到想要的内容。我发现，新闻标题都在<h3>标签里，链接在<a>标签里，而且这些标签都有特定的class属性。记下来，下一步就要写代码。

第三步：编写爬虫代码

刘翔新闻：昔日田径偶像的退役生活，如今过得怎样？

接下来就是撸代码的环节。代码很简单，主要就是这几个步骤：

发送HTTP请求，获取网页内容。
用BeautifulSoup解析网页内容，提取新闻标题和链接。
把提取到的数据保存起来，比如保存到CSV文件或者数据库。

刘翔新闻：昔日田径偶像的退役生活，如今过得怎样？

我写个简单的脚本，大概长这样：


import requests
from bs4 import BeautifulSoup
url = '目标网页地址'

response = *(url)
* = 'utf-8'  # 防止乱码
soup = BeautifulSoup(*, '*')
news_list = *_all('h3', class_='新闻标题的class') # 找到所有新闻标题
for news in news_list:
title = *

link = *('a')['href']
print(title, link)