Основы веб-скрейпинга с помощью Selenium
Веб-скрейпинг — это процесс извлечения данных с различных страниц в интернете. Если вы хотите узнать, как начать скрейпинг данных с помощью профилей Multilogin — ознакомьтесь с шагами ниже, и вы научитесь писать простой скрипт!
Эта статья предназначена для пошагового создания вашего скрипта. Если вы хотите осмотреть полный скрипт — прокрутите статью до конца.
Шаг 1: подготовьте IDE или похожую программу
Для написания скрипта вам понадобится программа для его написания. Выбор за вами, но мы рекомендуем использовать IDE. Выполните первые 4 шага из следующей статьи: Начало работы со скриптами автоматизации.
Шаг 2: создайте скрипт подключения к API и задайте функции
На этом этапе вам нужно настроить работу скрипта с API. Скрипт будет включать в себя:
- Эндпоинты API
- Переменные для входа в аккаунт
- Заданные функции для входа, открытия и закрытия профиля
- Импортированные модули, включая
requests,hashlibиtime. Также будут включены некоторые модули, связанные с Selenium - Запрос на вход в учетную запись
Используйте для этого следующий шаблон:
import requests
import hashlib
import time
from selenium import webdriver
from selenium.webdriver.chromium.options import ChromiumOptions
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.common.by import By
MLX_BASE = "https://api.multilogin.com"
MLX_LAUNCHER = "https://launcher.mlx.yt:45001/api/v1"
MLX_LAUNCHER_V2 = (
"https://launcher.mlx.yt:45001/api/v2" # recommended for launching profiles
)
LOCALHOST = "http://127.0.0.1"
HEADERS = {"Accept": "application/json", "Content-Type": "application/json"}
# TODO: Insert your account information in both variables below
USERNAME = ""
PASSWORD = ""
# TODO: Insert the Folder ID and the Profile ID below
FOLDER_ID = ""
PROFILE_ID = ""
def signin() -> str:
payload = {
"email": USERNAME,
"password": hashlib.md5(PASSWORD.encode()).hexdigest(),
}
r = requests.post(f"{MLX_BASE}/user/signin", json=payload)
if r.status_code != 200:
print(f"\nError during login: {r.text}\n")
else:
response = r.json()["data"]
token = response["token"]
return token
def start_profile() -> webdriver:
r = requests.get(
f"{MLX_LAUNCHER_V2}/profile/f/{FOLDER_ID}/p/{PROFILE_ID}/start?automation_type=selenium",
headers=HEADERS,
)
response = r.json()
if r.status_code != 200:
print(f"\nError while starting profile: {r.text}\n")
else:
print(f"\nProfile {PROFILE_ID} started.\n")
selenium_port = response["data"]["port"]
driver = webdriver.Remote(
command_executor=f"{LOCALHOST}:{selenium_port}", options=ChromiumOptions()
)
# For Stealthfox profiles use: options=Options()
# For Mimic profiles use: options=ChromiumOptions()
return driver
def stop_profile() -> None:
r = requests.get(f"{MLX_LAUNCHER}/profile/stop/p/{PROFILE_ID}", headers=HEADERS)
if r.status_code != 200:
print(f"\nError while stopping profile: {r.text}\n")
else:
print(f"\nProfile {PROFILE_ID} stopped.\n")
token = signin()
HEADERS.update({"Authorization": f"Bearer {token}"})Шаблон похож на пример автоматизации с Selenium, за исключением того, что в начале он имеет следующий модуль (он нам понадобится для извлечения данных):
from selenium.webdriver.common.by import By
Шаг 3: выберите веб-страницу для извлечения данных
Вы можете использовать любой веб-сайт, содержащий текст, но для этого руководства мы рекомендуем попробовать следующую страницу — она отлично подходит для автоматизации: Large & Deep DOM.
Шаг 4: найдите нужную информацию
В нашем случае это будут данные из таблицы ниже:

Мы получим все значения из таблицы. Вот что можно сделать:
- Откройте DevTools в браузере. Шаги для браузеров на базе Chromium и Firefox следующие:
- Windows и Linux: нажмите
Ctrl + Shift + I - macOS: нажмите
Cmd + Option + I
- Windows и Linux: нажмите
- Убедитесь, что вы находитесь на вкладке «Элементы».
- Используйте горячую клавишу поиска, чтобы найти целевое значение.
- Windows и Linux:
CTRL + F. - macOS:
Cmd + F.
- Windows и Linux:
- Введите текстовое значение, которое хотите увидеть. В нашем случае это «Table».
- Найдите значение, которое нужно использовать для скрейпинга. В нашем случае это будет следующее:
<table id="large-table">. - Наведите указатель мыши на элемент с тегами на вкладке «Элементы».
- Щелкните правой кнопкой мыши, а затем левой кнопкой мыши «Скопировать» — «Копировать selector».
- Запишите значение где-нибудь — оно понадобится вам позже.

Шаг 5: вернитесь к IDE и добавьте новые строки кода
- Вернитесь к выбранному вами IDE (например, VS Code).
- Выберите поле кода и добавьте переменную для открытия и выполнения действий в профиле:
driver = start_profile(). - Добавьте
driver.get(“<ваш сайт>”). В нашем случае это будет следующая команда:driver.get("https://the-internet.herokuapp.com/large") - Теперь нам нужна небольшая задержка для скрипта, чтобы он начал выполнять другие команды через 5 секунд после открытия веб-страницы:
time.sleep(5).
Шаг 6: создайте скрипт для поиска элемента
Используйте эту команду для поиска элемента: driver.find_element(By.<атрибут на странице>, "<элемент>"). Она указывает скрипту, что искать на странице. Поскольку мы скопировали селектор CSS на шаге 4, ваша команда будет выглядеть так:
driver.find_element(By.ID, "large-table")Его значение нам понадобится получить позже, поэтому нужно создать переменную для команды, например, fetch:
fetch = driver.find_element(By.ID, "large-table")Шаг 7: выведите результат и остановите профиль
- Используйте функцию
print()для вывода конечного результата. Поскольку нам нужно извлечь текстовое значение, нам нужно получить текст из нашей переменной. Результат будет следующим:print(fetch.text) - Добавьте функцию остановки профиля в конце:
stop_profile() - Сохраните скрипт
.py, его нужно будет запустить после некоторых дополнительных шагов.
Шаг 8: подготовьте скрипт перед его запуском
- Установите следующие библиотеки Python (более подробную информацию можно найти в документации вашего IDE):
-
requests. -
selenium.
-
- Вставьте ваши значения в указанные ниже переменные скрипта:
Шаг 9: запуск скрипта
- Откройте приложение для ПК (или подключите агент, если вы используете веб-интерфейс).
- По умолчанию скрипт ниже работает для Mimic . Чтобы использовать его для Stealthfox, замените
options=ChromiumOptions()наoptions=Options()в следующей строке:driver = webdriver.Remote(command_executor=f'{LOCALHOST}:{selenium_port}', options=ChromiumOptions()) - Запустите файл
.pyс вашим кодом автоматизации.
Чтобы запустить скрипт в VS Code, нажмите «Выполнить» → «Запуск без отладки» (или «Запустить отладку»).
Если вы все сделали правильно, вы сможете увидеть результат в терминале. 
Примечания
Поздравляем с вашим первым скриптом для скрейпинга! Вы не ограничены только этими возможностями. Python и Selenium — довольно гибкие инструменты, и у них есть большой потенциал. Вот пара советов:
- Если вам необходимо извлечь несколько значений со схожими атрибутами (например, ID ), вы можете использовать следующую функцию:
driver.find_elements(By.<атрибут на странице>, "<элемент>") - Вы можете добавить несколько значений в функцию
print(). Подробнее об этом можно найти в Интернете. Например, можно добавить текст передfetch.text. Это сделает результат скрипта более понятным. Так же это может быть полезным для отладки скрипта. Вот пример, который вы можете протестировать в скрипте:print("Your values: ", fetch.text) - Существует множество способов применения Selenium. Подробнее в справочном центре: Selenium Documentation
Целый скрипт
import requests
import hashlib
import time
from selenium import webdriver
from selenium.webdriver.chromium.options import ChromiumOptions
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.common.by import By
MLX_BASE = "https://api.multilogin.com"
MLX_LAUNCHER = "https://launcher.mlx.yt:45001/api/v1"
MLX_LAUNCHER_V2 = (
"https://launcher.mlx.yt:45001/api/v2" # recommended for launching profiles
)
LOCALHOST = "http://127.0.0.1"
HEADERS = {"Accept": "application/json", "Content-Type": "application/json"}
# TODO: Insert your account information in both variables below
USERNAME = ""
PASSWORD = ""
# TODO: Insert the Folder ID and the Profile ID below
FOLDER_ID = ""
PROFILE_ID = ""
def signin() -> str:
payload = {
"email": USERNAME,
"password": hashlib.md5(PASSWORD.encode()).hexdigest(),
}
r = requests.post(f"{MLX_BASE}/user/signin", json=payload)
if r.status_code != 200:
print(f"\nError during login: {r.text}\n")
else:
response = r.json()["data"]
token = response["token"]
return token
def start_profile() -> webdriver:
r = requests.get(
f"{MLX_LAUNCHER_V2}/profile/f/{FOLDER_ID}/p/{PROFILE_ID}/start?automation_type=selenium",
headers=HEADERS,
)
response = r.json()
if r.status_code != 200:
print(f"\nError while starting profile: {r.text}\n")
else:
print(f"\nProfile {PROFILE_ID} started.\n")
selenium_port = response["data"]["port"]
driver = webdriver.Remote(
command_executor=f"{LOCALHOST}:{selenium_port}", options=ChromiumOptions()
)
# For Stealthfox profiles use: options=Options()
# For Mimic profiles use: options=ChromiumOptions()
return driver
def stop_profile() -> None:
r = requests.get(f"{MLX_LAUNCHER}/profile/stop/p/{PROFILE_ID}", headers=HEADERS)
if r.status_code != 200:
print(f"\nError while stopping profile: {r.text}\n")
else:
print(f"\nProfile {PROFILE_ID} stopped.\n")
token = signin()
HEADERS.update({"Authorization": f"Bearer {token}"})
driver = start_profile()
driver.get("https://the-internet.herokuapp.com/large")
time.sleep(5)
fetch = driver.find_element(By.ID, "large-table")
print(fetch.text)
stop_profile()В этой статье содержатся сторонние ссылки, которые мы официально не одобряем.