Xpaw

Latest version: v0.11.2

Safety actively analyzes 621095 Python packages for vulnerabilities to keep your Python projects secure.

Scan your dependencies

Page 1 of 3

0.11.2

-------------------

- 重构Chrome渲染器,由每次新建Chrome进程变为维护每个Chrome进程的tab
- 添加 ``chrome_renderer_options`` 配置项,实现同时运行多个具有不同设置的Chrome渲染器
- 修复爬虫工程的配置模版

0.11.1

-------------------

- 移除 ``HttpRequest`` 中的 ``params`` 属性,但在构建 ``HttpRequest`` 时依然可以传入 ``params``

0.11.0

-------------------

- 移除对aiohttp的依赖,改由tornado实现HTTP请求,新增pycurl依赖
- 添加基于Selenium和Chrome driver的渲染器
- 添加Docker镜像 ``jadbin/xpaw`` ,便于构建爬虫运行环境
- 暂时移除对cookies和cookie jar的支持
- 组件cluster更名为crawler,包含cluster命名的模块、对象、函数、配置等均作出了相应的替换
- 运行爬虫工程的 ``run_crawler`` 接口更名为 ``run_spider_project``
- 非2xx的HttpResponse将视为请求失败并抛出 ``HttpError`` 异常进入错误处理流程
- RetryMiddleware不再raise IgnoreRequest,即因达到重试次数上限而导致请求失败时不再封装为IgnoreRequest,将保留原有的HttpResponse或异常
- HttpRequest ``proxy`` , ``timeout`` , ``verify_ssl`` , ``allow_redirects`` , ``auth`` , ``proxy_auth`` 由在 ``meta`` 中配置改为直接作为HttpRequest的属性
- Selector之前在遇到异常时会返回空数组,现在改为直接抛出异常
- 修改ProxyMiddleware的配置格式
- 移除ImitatingProxyMiddleware
- 修改SpeedLimitMiddleware的配置格式
- 移除 config.py 中的 ``downloader_timeout`` , ``verify_ssl`` , ``allow_redirects`` 配置项
- 移除 ``xpaw.FormData`` , ``xpaw.URL``
- 移除 ``xpaw.MultiDict`` , ``xpaw.CIMultiDict`` , 改由 ``xpaw.HttpHeaders`` 替代承载headers的功能
- 移除请求超时错误TimeoutError,统一由ClientError表示downloader抛出的异常
- ``default_headers`` 默认为 ``None`` , 浏览器默认的HTTP header改由UserAgentMiddleware根据设定的浏览器类型进行设置
- ``xpaw.downloadermws`` 模块更名为 ``xpaw.downloader_middlewares`` , ``xpaw.spidermws`` 模块更名为 ``xpaw.spider_middlewares``
- ``every`` 装饰器移至 ``xpaw.decorator`` 模块
- 移除对 ``dump_dir`` 的支持

0.10.4

-------------------

- 在生成初始请求过程中,捕获单个请求抛出的异常并记录日志

0.10.3

-------------------

- ProxyMiddleware不会覆盖用户在HttpRequest ``meta`` 中设置的 ``proxy``
- CookiesMiddleware不会覆盖用户在HttpRequest ``meta`` 中设置的 ``cookie_jar``
- NetworkError更名为ClientError,同时请求超时改由TimeoutError表示

0.10.2

-------------------

- Field添加 ``type`` 参数,表示该字段的类型,在获取该字段的值时会进行类型转换
- 添加 ``allow_redirects`` 配置项,控制是否允许重定向,默认为 ``True``
- HttpRequest ``meta`` 添加 ``verify_ssl`` 和 ``allow_redirects`` 字段,用于精确控制单次请求的相关行为
- 添加 ``StopCluster`` 异常,用于在spider在回调函数中停止cluster
- 添加 ``request_ignored`` 事件
- ``user_agent`` 默认值设置为 ``:desktop``
- 运行spider之后不会再移除主程序已经设置的signal handler

Page 1 of 3

© 2024 Safety CLI Cybersecurity Inc. All Rights Reserved.