Selenium实现微博爬虫-白红宇

Selenium实现微博爬虫

阅读量：182 次

发布时间：2019-02-28

本文共 302 字，大约阅读时间需要 1 分钟。

抓取节点：将每条评论作为一个节点（包含用户信息、评论内容及发布时间等信息）。若一页有20条评论，则节点数量即为20。

节点获取：通过CSS选择器div.card > div.card-feed > div.content找到所有符合条件的节点。

节点处理：逐个遍历节点列表，判断每个节点是否包含“展开全文”链接。操作步骤如下：

检查节点中是否存在p > a[action-type='fl_unfold']元素

判断该链接的显示状态

如果满足条件，且链接文本以“展开全文c”开头：

点击该链接，获取指定位置的评论内容

否则，直接获取评论文本

同时，提取用户信息

注：该操作需确保唯一性，避免误选其他元素。

转载地址：http://tdfn.baihongyu.com/

你可能感兴趣的文章

PowerDesigner版本控制器设置权限

PowerDesigner生成数据模型并导出报告

QGIS中导入dwg文件并使用GetWKT插件获取绘制元素WKT字符串以及QuickWKT插件实现WKT显示在图层

PowerDesigner逆向工程从SqlServer数据库生成PDM(图文教程)

PowerEdge T630服务器安装机器学习环境（Ubuntu18.04、Nvidia 1080Ti驱动、CUDA及CUDNN安装）

PowerPC-object与elf中的符号引用

QFileSystemModel

Powershell DSC 5.0 - 参数，证书加密账号，以及安装顺序

PowerShell 批量签入SharePoint Document Library中的文件

Powershell 自定义对象小技巧

pytorch从预训练权重加载完全相同的层

PowerShell~发布你的mvc网站

PowerShell使用详解

Powershell制作Windows安装U盘

powershell命令

Powershell如何查看本地公网IP

pytorch从csv加载自定义数据模板

powershell对txt文件的服务器进行ping操作

powershell常用

PowerShell操作XML遇到的问题