Python DrissionPage 爬虫 linux 部署说明 centos


风晓
风晓 2024-01-10 18:28:03 66006 赞同 0 反对 0
分类: 资源
Python DrissionPage 爬虫 linux 部署说明 centos

目前 DrissionPage 是装在 linux centos 系统上面的 浏览器用的是115版本最新的chrome 浏览器
DrissionPage 插件官网地址:http://g1879.gitee.io/drissionpagedocs/

1,安装
pip3 install DrissionPage

2,表示引入主程序
from DrissionPage import ChromiumPage

3,设置调用浏览器地址 只需要执行一次生成配置文件即可
from DrissionPage.easy_set import set_paths

#表示调用浏览器的地址是多少
Windows 地址示例

set_paths(browser_path=r'C:/Users/AAA/AppData/Local/Google/Chrome/Application/chrome.exe') #windows的直接找chrome.exe文件

Linux 地址示例

set_paths(browser_path=r'/opt/google/chrome/google-chrome') #一般linux安装的google浏览器默认都在这个目录

4,最重要的一步 设置不显示浏览器调用访问,只需要在linux环境上打开注释即可
from DrissionPage.easy_set import set_headless, set_paths
set_headless(True)

5,最重要的一步
程序必须引入此配置表示无头加载


6,ini配置说明
默认windows是不需要管的,只需要linux的时候设置一下注意端口不要冲突和chromedriver地址即可
服务器linux地址为

/usr/local/python3/lib/python3.7/site-packages/DrissionPage/configs


1,表示chrome对应版本的 chromedriver地址
2,表示debug模式启动的端口,注意如果部署了selenium 端口不要冲突了 默认是9222 修改成9211或者其他都可以
3,表示chrome对应的安装地址,一般不需要动

ini配置代码

[paths]
chromedriver_path = /mkl/weipu/chromedriver-linux64/chromedriver
download_path = 

[chrome_options]
debugger_address = 127.0.0.1:9211
binary_location = /opt/google/chrome/google-chrome
arguments = ['--no-first-run', '--no-sandbox', '--disable-infobars', '--disable-popup-blocking', '--headless=new']
extensions = []
experimental_options = {'prefs': {'profile.default_content_settings.popups': 0, 'profile.default_content_setting_values': {'notifications': 2}}}
page_load_strategy = normal
user = Default
auto_port = False
system_user_path = False
[session_options]
headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/603.3.8 (KHTML, like Gecko) Version/10.1.2 Safari/603.3.8', 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'connection': 'keep-alive', 'accept-charset': 'GB2312,utf-8;q=0.7,*;q=0.7'}
[timeouts]
implicit = 10
page_load = 30
script = 30
[proxies]
http = 
https = 


7,代码示例说明
import time
import re
import math
from DrissionPage import ChromiumPage
from DrissionPage.easy_set import set_paths
from DrissionPage import ChromiumOptions
from DrissionPage.easy_set import set_headless, set_paths
set_headless(True)

#必须要加这个 表示在linux上无头加载
co = ChromiumOptions()
co.set_argument('--incognito')
co.set_argument('--no-sandbox');
#set_paths(browser_path=r'/opt/google/chrome/google-chrome')
#set_paths(browser_path=r'C:/Users/AAA/AppData/Local/Google/Chrome/Application/chrome.exe')
def start_test_spider(auth_name,institution_name,status_type):  
    # 用 d 模式创建页面对象(默认模式)
    page = ChromiumPage()
    # 跳转到登录页面
    page.get('https://xxx.com/')
    time.sleep(1)
    #选择点击事件 可以使用 xpath: 后面的是xpath路径
    page.ele('xpath://*[@id="basic_searchdomainfilter"]/div[1]/div[1]/div[1]/div/div/input').click()

    #这里为input的输入的内容 根据xpath
    page.ele('xpath://*[@id="basic_searchdomainfilter"]/div[1]/div[1]/div[2]/input').input('输入的内容')
    #关闭浏览器
    page.close_tabs()

 

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等,可点击“私信”按钮向作者进行反馈;如作者无回复可进行平台仲裁,我们会在第一时间进行处理!

评价 0 条
风晓L1
粉丝 1 资源 2038 + 关注 私信
最近热门资源
银河麒麟桌面操作系统V10SP1-2403-update1版本中,通过“麒麟管家-设备管理-硬件信息-硬盘”查看硬盘类型时,显示的是HDD(机械硬盘),而实际上该笔记本的硬盘类型为SSD  40
统信uos安装mysql的实例参考  31
分享解决宏碁电脑关机时自动重启的方法  30
在银河麒麟高级服务器操作系统V10SP3中,需要将默认shell类型修改为csh。  29
分享如何解决报错:归档 xxx.deb 对成员 control.tar.zst 使用了未知的压缩,放弃操作  28
统信uosboot区分未挂载导致更新备份失败  27
格之格打印机dp3300系列国产系统uos打印机驱动选择  25
以openkylin为例编译安装内核  23
最近下载排行榜
银河麒麟桌面操作系统V10SP1-2403-update1版本中,通过“麒麟管家-设备管理-硬件信息-硬盘”查看硬盘类型时,显示的是HDD(机械硬盘),而实际上该笔记本的硬盘类型为SSD 0
统信uos安装mysql的实例参考 0
分享解决宏碁电脑关机时自动重启的方法 0
在银河麒麟高级服务器操作系统V10SP3中,需要将默认shell类型修改为csh。 0
分享如何解决报错:归档 xxx.deb 对成员 control.tar.zst 使用了未知的压缩,放弃操作 0
统信uosboot区分未挂载导致更新备份失败 0
格之格打印机dp3300系列国产系统uos打印机驱动选择 0
以openkylin为例编译安装内核 0
作者收入月榜
1

prtyaa 收益400.53元

2

zlj141319 收益237.46元

3

哆啦漫漫喵 收益231.42元

4

IT-feng 收益219.81元

5

1843880570 收益214.2元

6

风晓 收益208.24元

7

777 收益173.07元

8

Fhawking 收益106.6元

9

信创来了 收益106.03元

10

克里斯蒂亚诺诺 收益91.08元

请使用微信扫码

添加我为好友,拉您入交流群!

请使用微信扫一扫!