Xpaw

Latest version: v0.11.2

Safety actively analyzes 630094 Python packages for vulnerabilities to keep your Python projects secure.

Scan your dependencies

Page 3 of 3

0.7.0

------------------

- 使用继承Dupefilter的去重过滤器来实现去重功能,系统配置添加 ``dupefilter_cls`` 项,用于替换默认的去重过滤器
- ``xpaw.utils.run`` 模块中添加 ``run_crawler`` 函数,便于在python代码中控制开启爬虫
- 使用config.py替代config.yaml作为配置文件,移除对pyyaml的依赖
- ForwardedForMiddleware移动到 ``xpaw.downloadermws.headers`` 模块下
- 修改aiohttp的版本限制为>=2.2.0
- 更新了downloader和spider相关的错误处理流程
- 不再采用中间件的形式实现请求的去重功能,并移除相关的中间件
- ProxyAgentMiddleware的 ``proxy_agent`` 配置下面 ``addr`` 字段更名为 ``agent_addr``

0.6.5

------------------

- HttpRequest添加 ``errback`` 字段,表示无法正常获取到HttpResponse时触发的函数
- ResponseMatchMiddleware的配置修改为列表
- middleware的顺序修改为依次向downloader/spider靠近,层层包裹
- 移除任务配置中随机生成的 ``task_id``

0.6.4

------------------

- HttpResponse中的 ``url`` 字段源于aiohttp返回的ClientResponse中的 ``url`` 字段,实际应为 ``yarl.URL`` 对象
- LocalCluster启动时不再新建一个线程
- 优化日志工具中设置日志的接口

0.6.2

------------------

- HttpResponse添加 ``encoding`` 和 ``text`` 字段,分别用于获取网页的编码及字符串形式的内容
- 添加ResponseMatchMiddleware,用于初步判断得到的页面是否符合要求
- 添加CookieJarMiddleware,用于维护请求过程中产生的cookie,同时HttpRequest ``meta`` 中添加系统项 ``cookie_jar`` 作为发起请求时使用的cookie jar
- HttpRequest ``meta`` 添加 ``timeout`` 字段,用于精确控制某个请求的超时时间
- 系统配置添加 ``queue_cls`` 项,用于替换默认的请求队列

0.6.1

------------------

- 中间件添加 ``open`` 和 ``close`` 两个钩子函数,分别对应开启和关闭爬虫的事件
- RetryMiddleware中可以自定义需要重试的HTTP状态码
- 添加SpeedLimitMiddleware,用于爬虫限速
- 添加ProxyMiddleware,用于为请求添加指定代理
- 移除MongoDedupeMiddleware及对pymongo的依赖
- 修改ProxyAgentMiddleware,RetryMiddleware在配置文件中的参数格式
- DepthMiddleware更名为MaxDepthMiddleware

0.6.0

------------------

- First release

Page 3 of 3

© 2024 Safety CLI Cybersecurity Inc. All Rights Reserved.