Як скрапити USPTO.gov | Веб-скрапер патентів та торгових марок USPTO

Дізнайтеся, як скрапити USPTO.gov для отримання даних про патенти та торгові марки. Витягуйте номери патентів, імена винахідників та дати подання для...

USPTO (Відомство з патентів і торгових марок США) favicon
uspto.govСкладно
Покриття:United States
Доступні дані9 полів
ЗаголовокМісцезнаходженняОписЗображенняІнформація про продавцяКонтактна інформаціяДата публікаціїКатегоріїАтрибути
Усі поля для витягу
Назва патентуНомер патентуНомер заявкиДата поданняДата видачіРеферат (Abstract)Повний описТехнічні формулювання (Claims)Ім'я правонаступника/власникаІмена винахідниківНазва торгової маркиСерійний номер торгової маркиРеєстраційний номер торгової маркиТовари та послугиВласник торгової маркиПоточний статусАдвокат у справіПідстава для поданняURL логотипу торгової маркиURL креслення патентуДата пріоритету
Технічні вимоги
Потрібен JavaScript
Без входу
Є пагінація
Офіційний API доступний
Виявлено захист від ботів
CloudflareRate LimitingIP BlockingSession-based URLsreCAPTCHA

Виявлено захист від ботів

Cloudflare
Корпоративний WAF та управління ботами. Використовує JavaScript-перевірки, CAPTCHA та аналіз поведінки. Потребує автоматизації браузера з прихованими налаштуваннями.
Обмеження частоти запитів
Обмежує кількість запитів на IP/сесію за час. Можна обійти за допомогою ротації проксі, затримок запитів та розподіленого скрапінгу.
Блокування IP
Блокує відомі IP дата-центрів та позначені адреси. Потребує резидентних або мобільних проксі для ефективного обходу.
Session-based URLs
Google reCAPTCHA
Система CAPTCHA від Google. v2 потребує взаємодії користувача, v3 працює приховано з оцінкою ризиків. Можна вирішити за допомогою сервісів CAPTCHA.

Про USPTO (Відомство з патентів і торгових марок США)

Дізнайтеся, що пропонує USPTO (Відомство з патентів і торгових марок США) та які цінні дані можна витягнути.

Відомство з патентів і торгових марок США (USPTO) — це федеральне агентство, відповідальне за видачу патентів США та реєстрацію торгових марок. Воно підтримує величезну публічну базу даних записів інтелектуальної власності (IP), що документують інновації та володіння брендами, починаючи з 1790 року. Сайт містить складні пошукові портали, такі як TSDR (Trademark Status & Document Retrieval) та інструмент Patent Public Search.

Дані USPTO є золотим стандартом для досліджень у сфері інтелектуальної власності. Вони включають детальні подробиці про винаходи, технічні формулювання (claims), юридичні передачі прав та ідентифікатори брендів. Для компаній та юристів ці дані є критично важливими для перевірки чинності інтелектуальної власності, проведення дью-ділідженсу під час поглинань та виявлення нових технологічних трендів до того, як вони потраплять на масовий ринок.

Скрапінг USPTO має велику цінність для legal-tech компаній, R&D відділів та ринкових аналітиків. Це дозволяє автоматизувати моніторинг конкурентів, відстежувати життєвий цикл заявок на торгові марки та створювати комплексні набори даних для аналізу патентного ландшафту.

Про USPTO (Відомство з патентів і торгових марок США)

Чому Варто Парсити USPTO (Відомство з патентів і торгових марок США)?

Дізнайтеся про бізнес-цінність та сценарії використання для витягування даних з USPTO (Відомство з патентів і торгових марок США).

Моніторинг патентних заявок конкурентів для стратегії R&D

Відстеження нових заявок на торгові марки для захисту бренду

Проведення пошуку на чистоту патентних прав (freedom-to-operate)

Аналіз патентного ландшафту для виявлення ринкових ніш

Збір даних для юридичного дью-ділідженсу та оцінки активів

Створення академічних наборів даних для дослідження інновацій

Виклики Парсингу

Технічні виклики, з якими ви можете зіткнутися при парсингу USPTO (Відомство з патентів і торгових марок США).

Високодинамічні пошукові інтерфейси, що вимагають виконання JavaScript

Агресивне обмеження частоти запитів (rate limiting) на пошукові запити

Специфічні для сесії URL-адреси, термін дії яких швидко закінчується

Складні глибоко вкладені HTML-таблиці

Часті оновлення структури в застарілих державних системах

Скрапінг USPTO (Відомство з патентів і торгових марок США) за допомогою ШІ

Без коду. Витягуйте дані за лічені хвилини з автоматизацією на базі ШІ.

Як це працює

1

Опишіть, що вам потрібно

Скажіть ШІ, які дані ви хочете витягнути з USPTO (Відомство з патентів і торгових марок США). Просто напишіть звичайною мовою — без коду чи селекторів.

2

ШІ витягує дані

Наш штучний інтелект навігує по USPTO (Відомство з патентів і торгових марок США), обробляє динамічний контент і витягує саме те, що ви запросили.

3

Отримайте свої дані

Отримайте чисті, структуровані дані, готові до експорту в CSV, JSON або відправки безпосередньо у ваші додатки.

Чому варто використовувати ШІ для скрапінгу

Обробляє складні пошукові портали з JavaScript без написання коду
Автоматично керує сесійними куками та динамічними тайм-аутами
Заплановані запуски для автоматичного виявлення нових заявок
Легко витягує патентні креслення та логотипи торгових марок
Перетворює заплутані державні таблиці на чистий CSV або JSON
Кредитна картка не потрібнаБезкоштовний план доступнийБез налаштування

ШІ спрощує скрапінг USPTO (Відомство з патентів і торгових марок США) без написання коду. Наша платформа на базі штучного інтелекту розуміє, які дані вам потрібні — просто опишіть їх звичайною мовою, і ШІ витягне їх автоматично.

How to scrape with AI:
  1. Опишіть, що вам потрібно: Скажіть ШІ, які дані ви хочете витягнути з USPTO (Відомство з патентів і торгових марок США). Просто напишіть звичайною мовою — без коду чи селекторів.
  2. ШІ витягує дані: Наш штучний інтелект навігує по USPTO (Відомство з патентів і торгових марок США), обробляє динамічний контент і витягує саме те, що ви запросили.
  3. Отримайте свої дані: Отримайте чисті, структуровані дані, готові до експорту в CSV, JSON або відправки безпосередньо у ваші додатки.
Why use AI for scraping:
  • Обробляє складні пошукові портали з JavaScript без написання коду
  • Автоматично керує сесійними куками та динамічними тайм-аутами
  • Заплановані запуски для автоматичного виявлення нових заявок
  • Легко витягує патентні креслення та логотипи торгових марок
  • Перетворює заплутані державні таблиці на чистий CSV або JSON

No-code веб-парсери для USPTO (Відомство з патентів і торгових марок США)

Альтернативи point-and-click до AI-парсингу

Кілька no-code інструментів, таких як Browse.ai, Octoparse, Axiom та ParseHub, можуть допомогти вам парсити USPTO (Відомство з патентів і торгових марок США) без написання коду. Ці інструменти зазвичай використовують візуальні інтерфейси для вибору даних, хоча можуть мати проблеми зі складним динамічним контентом чи anti-bot заходами.

Типовий робочий процес з no-code інструментами

1
Встановіть розширення браузера або зареєструйтесь на платформі
2
Перейдіть на цільовий вебсайт і відкрийте інструмент
3
Виберіть елементи даних для вилучення методом point-and-click
4
Налаштуйте CSS-селектори для кожного поля даних
5
Налаштуйте правила пагінації для парсингу кількох сторінок
6
Обробіть CAPTCHA (часто потрібне ручне розв'язання)
7
Налаштуйте розклад для автоматичних запусків
8
Експортуйте дані в CSV, JSON або підключіть через API

Типові виклики

Крива навчання

Розуміння селекторів та логіки вилучення потребує часу

Селектори ламаються

Зміни на вебсайті можуть зламати весь робочий процес

Проблеми з динамічним контентом

Сайти з великою кількістю JavaScript потребують складних рішень

Обмеження CAPTCHA

Більшість інструментів потребує ручного втручання для CAPTCHA

Блокування IP

Агресивний парсинг може призвести до блокування вашої IP

No-code веб-парсери для USPTO (Відомство з патентів і торгових марок США)

Кілька no-code інструментів, таких як Browse.ai, Octoparse, Axiom та ParseHub, можуть допомогти вам парсити USPTO (Відомство з патентів і торгових марок США) без написання коду. Ці інструменти зазвичай використовують візуальні інтерфейси для вибору даних, хоча можуть мати проблеми зі складним динамічним контентом чи anti-bot заходами.

Типовий робочий процес з no-code інструментами
  1. Встановіть розширення браузера або зареєструйтесь на платформі
  2. Перейдіть на цільовий вебсайт і відкрийте інструмент
  3. Виберіть елементи даних для вилучення методом point-and-click
  4. Налаштуйте CSS-селектори для кожного поля даних
  5. Налаштуйте правила пагінації для парсингу кількох сторінок
  6. Обробіть CAPTCHA (часто потрібне ручне розв'язання)
  7. Налаштуйте розклад для автоматичних запусків
  8. Експортуйте дані в CSV, JSON або підключіть через API
Типові виклики
  • Крива навчання: Розуміння селекторів та логіки вилучення потребує часу
  • Селектори ламаються: Зміни на вебсайті можуть зламати весь робочий процес
  • Проблеми з динамічним контентом: Сайти з великою кількістю JavaScript потребують складних рішень
  • Обмеження CAPTCHA: Більшість інструментів потребує ручного втручання для CAPTCHA
  • Блокування IP: Агресивний парсинг може призвести до блокування вашої IP

Приклади коду

import requests
from bs4 import BeautifulSoup

# Примітка: Bulk data зручніше для великих обсягів
url = 'https://bulkdata.uspto.gov/'
headers = {'User-Agent': 'Mozilla/5.0'}

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    # Пошук посилань на щотижневі zip-файли патентів
    links = [a['href'] for a in soup.find_all('a', href=True) if '.zip' in a['href']]
    print(f'Знайдено {len(links)} наборів даних, доступних для завантаження')
except Exception as e:
    print(f'Помилка: {e}')

Коли використовувати

Найкраще для статичних HTML-сторінок з мінімумом JavaScript. Ідеально для блогів, новинних сайтів та простих сторінок товарів e-commerce.

Переваги

  • Найшвидше виконання (без навантаження браузера)
  • Найменше споживання ресурсів
  • Легко розпаралелити з asyncio
  • Чудово для API та статичних сторінок

Обмеження

  • Не може виконувати JavaScript
  • Не працює на SPA та динамічному контенті
  • Може мати проблеми зі складними anti-bot системами

Як парсити USPTO (Відомство з патентів і торгових марок США) за допомогою коду

Python + Requests
import requests
from bs4 import BeautifulSoup

# Примітка: Bulk data зручніше для великих обсягів
url = 'https://bulkdata.uspto.gov/'
headers = {'User-Agent': 'Mozilla/5.0'}

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    # Пошук посилань на щотижневі zip-файли патентів
    links = [a['href'] for a in soup.find_all('a', href=True) if '.zip' in a['href']]
    print(f'Знайдено {len(links)} наборів даних, доступних для завантаження')
except Exception as e:
    print(f'Помилка: {e}')
Python + Playwright
from playwright.sync_api import sync_playwright

def scrape_uspto_trademark():
    with sync_playwright() as p:
        # USPTO вимагає справжнього відбитка браузера, щоб уникнути спрацьовування Cloudflare
        browser = p.chromium.launch(headless=True)
        page = browser.new_page()
        
        # Перехід на сторінку статусу TSDR
        page.goto('https://tsdr.uspto.gov/')
        
        # Введення серійного номера (Приклад: 98021018)
        page.fill('#caseNumber', '98021018')
        page.click('#statusSearch')
        
        # Очікування рендерингу секції статусу через JS
        page.wait_for_selector('.status-info')
        
        # Витяг даних зі сторінки
        mark_name = page.inner_text('.mark-name')
        print(f'Назва торгової марки: {mark_name}')
        
        browser.close()

scrape_uspto_trademark()
Python + Scrapy
import scrapy

class UsptoSpider(scrapy.Spider):
    name = 'uspto_spider'
    # Цільова директорія Patent Grant Red Book
    start_urls = ['https://bulkdata.uspto.gov/data/patent/grant/redbook/2024/']

    def parse(self, response):
        # Скрапінг усіх посилань на zip-файли за 2024 рік
        for file_link in response.css('a::attr(href)').getall():
            if file_link.endswith('.zip'):
                yield {
                    'file_url': response.urljoin(file_link),
                    'year': 2024
                }
        
        # Тут можна додати логіку для переходу по директоріях
Node.js + Puppeteer
const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  
  // Перехід на головну сторінку Patent Public Search
  await page.goto('https://ppubs.uspto.gov/pubwebapp/static/pages/landing.html');
  
  // Очікування появи кнопки 'Basic Search'
  await page.waitForSelector('#basic-search-button');
  await page.click('#basic-search-button');
  
  // Додаткова логіка для введення пошукових запитів та очікування динамічних таблиць
  await page.waitForSelector('.result-item');
  
  const results = await page.evaluate(() => {
    return Array.from(document.querySelectorAll('.patent-title')).map(el => el.innerText);
  });
  
  console.log('Скраплені назви:', results);
  await browser.close();
})();

Що Можна Робити З Даними USPTO (Відомство з патентів і торгових марок США)

Досліджуйте практичні застосування та інсайти з даних USPTO (Відомство з патентів і торгових марок США).

Конкурентний моніторинг брендів

Рітейлери та власники брендів можуть відстежувати нові заявки на торгові марки для захисту від порушень та аналізу виходу на ринок.

Як реалізувати:

  1. 1Скрапте щотижневі заявки на торгові марки за ключовими словами, пов'язаними з вашим брендом.
  2. 2Порівнюйте нові заявки з існуючими торговими марками та знаками для товарів і послуг.
  3. 3Сповіщайте юридичні відділи, коли подаються схожі знаки у відповідних класах МКТП.

Використовуйте Automatio для витягування даних з USPTO (Відомство з патентів і торгових марок США) та створення цих додатків без написання коду.

Що Можна Робити З Даними USPTO (Відомство з патентів і торгових марок США)

  • Конкурентний моніторинг брендів

    Рітейлери та власники брендів можуть відстежувати нові заявки на торгові марки для захисту від порушень та аналізу виходу на ринок.

    1. Скрапте щотижневі заявки на торгові марки за ключовими словами, пов'язаними з вашим брендом.
    2. Порівнюйте нові заявки з існуючими торговими марками та знаками для товарів і послуг.
    3. Сповіщайте юридичні відділи, коли подаються схожі знаки у відповідних класах МКТП.
  • Картування інноваційних трендів

    R&D лабораторії можуть аналізувати видані патенти, щоб побачити, у які технології глобальні корпорації інвестують найбільше.

    1. Скрапте реферати патентів та категорії за 5-річний період.
    2. Використовуйте NLP для ідентифікації трендових технічних ключових слів та класифікацій CPC.
    3. Візуалізуйте зростання конкретних технологічних секторів, таких як AI, біотехнології або зелена енергетика.
  • Дью-ділідженс для Legal Tech

    Юридичні фірми можуть автоматизувати збір повного портфеля інтелектуальної власності компанії для угод M&A та оцінки вартості.

    1. Введіть список назв компаній або ID правонаступників у скрапер.
    2. Витягніть усі активні записи патентів та торгових марок для цих суб'єктів, включаючи дати закінчення терміну дії.
    3. Згенеруйте звіт про міцність, різноманітність та терміни продовження активів.
  • Генерація лідів для послуг у сфері ІВ

    Адвокати можуть ідентифікувати нових заявників, яким можуть знадобитися спеціалізовані послуги з реєстрації торгових марок або патентів.

    1. Відфільтруйте нові заявки на торгові марки без вказаного адвоката.
    2. Витягніть контактну інформацію для кореспонденції та дані власника.
    3. Здійснюйте цільове охоплення для пропонування послуг юридичного представництва або управління продовженням реєстрації.
Більше ніж просто промпти

Прискорте вашу роботу з AI-автоматизацією

Automatio поєднує силу AI-агентів, веб-автоматизації та розумних інтеграцій, щоб допомогти вам досягти більшого за менший час.

AI-агенти
Веб-автоматизація
Розумні робочі процеси

Професійні Поради Щодо Парсингу USPTO (Відомство з патентів і торгових марок США)

Експертні поради для успішного витягування даних з USPTO (Відомство з патентів і торгових марок США).

Пріоритезуйте Bulk Data Storage System (BDSS) для потреб у великих обсягах даних, щоб уникнути блокування на пошуковому порталі.

Використовуйте headless-браузер, наприклад Playwright, для обробки складного JavaScript та станів сесій, яких вимагають сучасні портали.

Слідкуйте за розкладом технічного обслуговування USPTO, оскільки бази даних часто йдуть в офлайн для оновлень на вихідних.

Ротуйте резидентні проксі, щоб обходити суворі ліміти запитів на пошукові запити та виклики Cloudflare.

Витягуйте URL-адреси зображень документів, щоб отримати оригінальні файли офіційних заявок у високій роздільній здатності у форматах TIFF або PDF.

Парсіть XML-файли з порталу bulk data, якщо вам потрібні технічні формулювання (claims), оскільки веб-інтерфейс часто обрізає текст.

Відгуки

Що кажуть наші користувачі

Приєднуйтесь до тисяч задоволених користувачів, які трансформували свою роботу

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Пов'язані Web Scraping

Часті запитання про USPTO (Відомство з патентів і торгових марок США)

Знайдіть відповіді на поширені запитання про USPTO (Відомство з патентів і торгових марок США)