Comment scraper USPTO.gov | Scraper Web pour Brevets et Marques USPTO

Découvrez comment scraper USPTO.gov pour obtenir des données sur les brevets et les marques. Extrayez numéros de brevets, inventeurs et dates de dépôt pour...

Commencer le Scraping Gratuit

uspto.govDifficile

Couverture:United States

Données Disponibles9 champs

TitreLocalisationDescriptionImagesInfo VendeurInfo ContactDate de PublicationCatégoriesAttributs

Tous les Champs Extractibles

Titre du brevetNuméro de brevetNuméro de demandeDate de dépôtDate d'octroiRésumé (Abstract)Description complèteRevendications techniquesNom du cessionnaireNoms des inventeursNom de la marqueNuméro de série de la marqueNuméro d'enregistrement de la marqueProduits et servicesPropriétaire de la marqueStatut actuelAvocat attitréBase de dépôtURL du logo de la marqueURL du dessin de brevetDate de priorité

Exigences Techniques

JavaScript Requis

Sans Connexion

A une Pagination

API Officielle Disponible

Protection Anti-Bot Détectée

CloudflareRate LimitingIP BlockingSession-based URLsreCAPTCHA

Voir la Documentation API

À Propos de USPTO (United States Patent and Trademark Office)

Découvrez ce que USPTO (United States Patent and Trademark Office) offre et quelles données précieuses peuvent être extraites.

L'United States Patent and Trademark Office (USPTO) est l'agence fédérale responsable de l'octroi des brevets américains et de l'enregistrement des marques. Elle gère une base de données publique massive de documents de propriété intellectuelle (PI) documentant l'innovation et la propriété de marques depuis 1790. Le site web propose des portails de recherche complexes tels que le TSDR (Trademark Status & Document Retrieval) et l'outil Patent Public Search.

Les données de l'USPTO constituent la référence absolue pour la recherche en propriété intellectuelle. Elles comprennent des détails granulaires sur les inventions, les revendications techniques, les cessions juridiques et les identifiants de marques. Pour les entreprises et les professionnels du droit, ces données sont cruciales pour vérifier la validité de la PI, effectuer des audits préalables lors d'acquisitions et identifier les tendances technologiques émergentes avant qu'elles ne s'imposent sur le marché général.

Scraper l'USPTO est extrêmement précieux pour les entreprises de legal tech, les départements R&D et les analystes de marché. Cela permet d'automatiser la veille concurrentielle, de suivre le cycle de vie des demandes de marques et de construire des jeux de données complets pour l'analyse du paysage des brevets.

À Propos de USPTO (United States Patent and Trademark Office)

Pourquoi Scraper USPTO (United States Patent and Trademark Office)?

Découvrez la valeur commerciale et les cas d'utilisation pour l'extraction de données de USPTO (United States Patent and Trademark Office).

Analyse du paysage concurrentiel

Suivez systématiquement les dépôts de brevets de vos concurrents pour identifier leurs axes de R&D et prédire les cycles de développement de futurs produits avant leur mise sur le marché.

Surveillance des contrefaçons de marques

Automatisez la détection des nouvelles demandes de marques qui pourraient entrer en conflit avec votre identité de marque existante pour garantir une opposition légale en temps opportun.

Génération de leads pour services juridiques

Identifiez les entreprises déposant récemment des dossiers « pro se » (sans avocat) pour proposer des services spécialisés de représentation juridique ou de conseil en propriété intellectuelle.

Évaluation de brevet et due diligence

Extrayez l'historique complet des cessions de brevets et des paiements de frais de maintenance pour évaluer la force juridique actuelle et la valeur marchande des portefeuilles de PI.

Identification des tendances de R&D

Analysez les classifications techniques (CPC/IPC) à grande échelle pour découvrir les secteurs technologiques émergents qui connaissent une croissance rapide du volume de brevets.

Stratégie d'entrée sur le marché

Rassemblez des données sur les brevets existants dans une niche spécifique pour effectuer une analyse de liberté d'exploitation (FTO), garantissant que votre expansion ne viole pas les protections existantes.

Défis du Scraping

Défis techniques que vous pouvez rencontrer lors du scraping de USPTO (United States Patent and Trademark Office).

Identifiants de session volatiles

Les systèmes de recherche de l'USPTO comme TSDR et TESS utilisent des tokens spécifiques à la session qui expirent rapidement, provoquant l'échec des scrapers s'ils ne maintiennent pas un état de navigateur cohérent.

Interface utilisateur dynamique et SPAs

Les portails modernes comme le Patent Public Search (PPUBS) s'appuient fortement sur les WebSockets et le JavaScript, ce qui signifie que les requêtes HTTP traditionnelles ne retourneront aucune donnée utile.

WAF agressif et Rate Limiting

Le site utilise des protections WAF strictes et des limites de débit qui peuvent entraîner des bannissements d'IP immédiats si les requêtes de recherche sont soumises trop rapidement ou depuis des data centers automatisés.

Formats de données incohérents

Les données résident souvent dans des tableaux HTML imbriqués ou des blocs de texte non structurés, nécessitant une logique d'analyse complexe pour extraire des jeux de données propres et structurés.

Fenêtres de maintenance des systèmes hérités

Les bases de données pour les marques et les brevets sont fréquemment mises hors ligne pour une maintenance programmée le week-end, ce qui peut interrompre les programmes de scraping automatisés.

Scrapez USPTO (United States Patent and Trademark Office) avec l'IA

Aucun code requis. Extrayez des données en minutes avec l'automatisation par IA.

Comment ça marche

Décrivez ce dont vous avez besoin

Dites à l'IA quelles données vous souhaitez extraire de USPTO (United States Patent and Trademark Office). Tapez simplement en langage naturel — pas de code ni de sélecteurs.

L'IA extrait les données

Notre intelligence artificielle navigue sur USPTO (United States Patent and Trademark Office), gère le contenu dynamique et extrait exactement ce que vous avez demandé.

Obtenez vos données

Recevez des données propres et structurées, prêtes à exporter en CSV, JSON ou à envoyer directement à vos applications.

Pourquoi utiliser l'IA pour le scraping

Gestion de session persistante: Automatio gère automatiquement la session de navigation sous-jacente, contournant efficacement les erreurs de « Session expirée » qui affectent les scripts de scraping traditionnels.

Extraction de données visuelle: L'interface point-and-click vous permet de sélectionner visuellement des revendications de brevets complexes et des statuts de marques sans avoir à naviguer dans des structures DOM difficiles.

Planification automatisée des tâches: Configurez votre scraper pour s'exécuter spécifiquement pendant les heures de bureau ou immédiatement après les mises à jour hebdomadaires pour vous assurer de toujours travailler avec des données de PI actuelles.

Récupération fluide d'images et de documents: Automatio peut facilement détecter et télécharger les logos de marques et les dessins de brevets dans le cadre du flux de scraping, en les enregistrant directement sur votre stockage.

Logique No-Code pour les tableaux gouvernementaux: Convertissez des tableaux de données gouvernementaux désordonnés en formats structurés CSV ou JSON sans écrire une seule ligne de regex ou de logique d'analyse.

Commencer le scraping gratuitement

Pas de carte de crédit requiseOffre gratuite disponibleAucune configuration nécessaire

Scrapers Web No-Code pour USPTO (United States Patent and Trademark Office)

Alternatives pointer-cliquer au scraping alimenté par l'IA

Plusieurs outils no-code comme Browse.ai, Octoparse, Axiom et ParseHub peuvent vous aider à scraper USPTO (United States Patent and Trademark Office) sans écrire de code. Ces outils utilisent généralement des interfaces visuelles pour sélectionner les données, bien qu'ils puissent avoir des difficultés avec le contenu dynamique complexe ou les mesures anti-bot.

Workflow Typique avec les Outils No-Code

Installer l'extension de navigateur ou s'inscrire sur la plateforme

Naviguer vers le site web cible et ouvrir l'outil

Sélectionner en point-and-click les éléments de données à extraire

Configurer les sélecteurs CSS pour chaque champ de données

Configurer les règles de pagination pour scraper plusieurs pages

Gérer les CAPTCHAs (nécessite souvent une résolution manuelle)

Configurer la planification pour les exécutions automatiques

Exporter les données en CSV, JSON ou se connecter via API

Défis Courants

Courbe d'apprentissage

Comprendre les sélecteurs et la logique d'extraction prend du temps

Les sélecteurs cassent

Les modifications du site web peuvent casser tout le workflow

Problèmes de contenu dynamique

Les sites riches en JavaScript nécessitent des solutions complexes

Limitations des CAPTCHAs

La plupart des outils nécessitent une intervention manuelle pour les CAPTCHAs

Blocage d'IP

Le scraping agressif peut entraîner le blocage de votre IP

Exemples de Code

import requests
from bs4 import BeautifulSoup

# Note : Les données bulk sont plus simples pour les volumes élevés
url = 'https://bulkdata.uspto.gov/'
headers = {'User-Agent': 'Mozilla/5.0'}

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    # Recherche des liens vers les fichiers zip hebdomadaires de brevets
    links = [a['href'] for a in soup.find_all('a', href=True) if '.zip' in a['href']]
    print(f'Trouvé {len(links)} jeux de données disponibles au téléchargement')
except Exception as e:
    print(f'Erreur : {e}')

Quand Utiliser

Idéal pour les pages HTML statiques avec peu de JavaScript. Parfait pour les blogs, sites d'actualités et pages e-commerce simples.

Avantages

●Exécution la plus rapide (sans surcharge navigateur)
●Consommation de ressources minimale
●Facile à paralléliser avec asyncio
●Excellent pour les APIs et pages statiques

Limitations

●Ne peut pas exécuter JavaScript
●Échoue sur les SPAs et contenu dynamique
●Peut avoir des difficultés avec les systèmes anti-bot complexes

from playwright.sync_api import sync_playwright

def scrape_uspto_trademark():
    with sync_playwright() as p:
        # L'USPTO nécessite un fingerprint de navigateur réel pour éviter Cloudflare
        browser = p.chromium.launch(headless=True)
        page = browser.new_page()
        
        # Navigation vers la page de statut TSDR
        page.goto('https://tsdr.uspto.gov/')
        
        # Saisir un numéro de série (Exemple : 98021018)
        page.fill('#caseNumber', '98021018')
        page.click('#statusSearch')
        
        # Attendre que la section de statut soit rendue via JS
        page.wait_for_selector('.status-info')
        
        # Extraire les données de la page
        mark_name = page.inner_text('.mark-name')
        print(f'Nom de la marque : {mark_name}')
        
        browser.close()

scrape_uspto_trademark()

Quand Utiliser

Parfait pour les sites riches en JavaScript, les SPAs et les pages nécessitant des interactions utilisateur comme le défilement infini ou les clics.

Avantages

●Exécution JavaScript complète
●Gère le contenu dynamique et les SPAs
●Mécanismes d'attente intégrés
●Support multi-navigateurs

Limitations

●Plus lent que les requêtes HTTP
●Utilisation mémoire plus élevée
●Configuration plus complexe
●Peut être détecté par les systèmes anti-bot

import scrapy

class UsptoSpider(scrapy.Spider):
    name = 'uspto_spider'
    # Ciblage du répertoire Patent Grant Red Book
    start_urls = ['https://bulkdata.uspto.gov/data/patent/grant/redbook/2024/']

    def parse(self, response):
        # Scraper tous les liens des fichiers zip pour l'année 2024
        for file_link in response.css('a::attr(href)').getall():
            if file_link.endswith('.zip'):
                yield {
                    'file_url': response.urljoin(file_link),
                    'year': 2024
                }
        
        # La logique de navigation dans les répertoires peut être ajoutée ici

Quand Utiliser

Idéal pour les projets de scraping à grande échelle nécessitant des pipelines de données structurées, des middlewares et du crawling distribué.

Avantages

●Planification et throttling des requêtes intégrés
●Système de middleware puissant
●Export vers plusieurs formats
●Excellent pour les projets à grande échelle

Limitations

●Courbe d'apprentissage plus raide
●Pas de support JavaScript sans plugins
●Surdimensionné pour les tâches de scraping simples

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  
  // Accès à la page d'accueil de Patent Public Search
  await page.goto('https://ppubs.uspto.gov/pubwebapp/static/pages/landing.html');
  
  // Attendre que le bouton 'Basic Search' apparaisse
  await page.waitForSelector('#basic-search-button');
  await page.click('#basic-search-button');
  
  // Logique supplémentaire pour saisir des requêtes et attendre les tableaux dynamiques
  await page.waitForSelector('.result-item');
  
  const results = await page.evaluate(() => {
    return Array.from(document.querySelectorAll('.patent-title')).map(el => el.innerText);
  });
  
  console.log('Titres scrapés :', results);
  await browser.close();
})();

Quand Utiliser

Idéal pour l'automatisation spécifique à Chrome, la génération de PDFs ou les captures d'écran. Parfait pour les sites optimisés pour Chrome.

Avantages

●Excellente intégration Chrome DevTools
●Idéal pour la génération PDF et captures d'écran
●Fort support communautaire
●Bon pour les fonctionnalités spécifiques Chrome

Limitations

●Chrome/Chromium uniquement
●Consommation de ressources plus élevée
●Peut être détecté par les systèmes anti-bot
●Plus lent que les méthodes basées sur HTTP

Comment Scraper USPTO (United States Patent and Trademark Office) avec du Code

Python + Requests

import requests
from bs4 import BeautifulSoup

# Note : Les données bulk sont plus simples pour les volumes élevés
url = 'https://bulkdata.uspto.gov/'
headers = {'User-Agent': 'Mozilla/5.0'}

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    # Recherche des liens vers les fichiers zip hebdomadaires de brevets
    links = [a['href'] for a in soup.find_all('a', href=True) if '.zip' in a['href']]
    print(f'Trouvé {len(links)} jeux de données disponibles au téléchargement')
except Exception as e:
    print(f'Erreur : {e}')

Python + Playwright

from playwright.sync_api import sync_playwright

def scrape_uspto_trademark():
    with sync_playwright() as p:
        # L'USPTO nécessite un fingerprint de navigateur réel pour éviter Cloudflare
        browser = p.chromium.launch(headless=True)
        page = browser.new_page()
        
        # Navigation vers la page de statut TSDR
        page.goto('https://tsdr.uspto.gov/')
        
        # Saisir un numéro de série (Exemple : 98021018)
        page.fill('#caseNumber', '98021018')
        page.click('#statusSearch')
        
        # Attendre que la section de statut soit rendue via JS
        page.wait_for_selector('.status-info')
        
        # Extraire les données de la page
        mark_name = page.inner_text('.mark-name')
        print(f'Nom de la marque : {mark_name}')
        
        browser.close()

scrape_uspto_trademark()

Python + Scrapy

import scrapy

class UsptoSpider(scrapy.Spider):
    name = 'uspto_spider'
    # Ciblage du répertoire Patent Grant Red Book
    start_urls = ['https://bulkdata.uspto.gov/data/patent/grant/redbook/2024/']

    def parse(self, response):
        # Scraper tous les liens des fichiers zip pour l'année 2024
        for file_link in response.css('a::attr(href)').getall():
            if file_link.endswith('.zip'):
                yield {
                    'file_url': response.urljoin(file_link),
                    'year': 2024
                }
        
        # La logique de navigation dans les répertoires peut être ajoutée ici

Node.js + Puppeteer

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  
  // Accès à la page d'accueil de Patent Public Search
  await page.goto('https://ppubs.uspto.gov/pubwebapp/static/pages/landing.html');
  
  // Attendre que le bouton 'Basic Search' apparaisse
  await page.waitForSelector('#basic-search-button');
  await page.click('#basic-search-button');
  
  // Logique supplémentaire pour saisir des requêtes et attendre les tableaux dynamiques
  await page.waitForSelector('.result-item');
  
  const results = await page.evaluate(() => {
    return Array.from(document.querySelectorAll('.patent-title')).map(el => el.innerText);
  });
  
  console.log('Titres scrapés :', results);
  await browser.close();
})();

Que Pouvez-Vous Faire Avec Les Données de USPTO (United States Patent and Trademark Office)

Explorez les applications pratiques et les insights des données de USPTO (United States Patent and Trademark Office).

Surveillance concurrentielle des marques

Les détaillants et les propriétaires de marques peuvent surveiller les nouveaux dépôts de marques pour se protéger contre la contrefaçon et l'entrée sur le marché de concurrents.

Comment implémenter :

1Scraper les dépôts hebdomadaires de marques pour des mots-clés spécifiques liés à votre marque.
2Comparer les nouveaux dépôts avec les marques et dessins existants.
3Alerter les équipes juridiques lorsque des marques similaires sont déposées dans les classes IC pertinentes.

Utilisez Automatio pour extraire des données de USPTO (United States Patent and Trademark Office) et créer ces applications sans écrire de code.

Plus que de simples prompts

Optimisez votre flux de travail avec l'Automatisation IA

Automatio combine la puissance des agents IA, de l'automatisation web et des integrations intelligentes pour vous aider a accomplir plus en moins de temps.

Agents IA

Automatisation Web

Flux Intelligents

Commencer Gratuitement

Conseils Pro pour Scraper USPTO (United States Patent and Trademark Office)

Conseils d'experts pour extraire avec succès les données de USPTO (United States Patent and Trademark Office).

Tirez parti du Bulk Data System

Pour les besoins à haut volume, utilisez bulkdata.uspto.gov pour télécharger des fichiers XML plutôt que de scraper l'interface de recherche, car c'est beaucoup plus rapide et moins restrictif.

Utilisez des proxies résidentiels

Les portails de recherche de l'USPTO sont très sensibles aux adresses IP de data centers ; l'utilisation de proxies résidentiels vous aidera à simuler un comportement humain et à éviter les blocages liés au rate-limiting.

Privilégiez l'analyse XML à l'analyse HTML

Dès que possible, ciblez les téléchargements XML ou les points de terminaison API car la structure HTML des résultats de recherche est sujette à des mises à jour et des changements de format fréquents.

Synchronisez-vous avec les mises à jour du mardi

L'USPTO publie généralement les nouveaux brevets accordés et les enregistrements de marques tous les mardis ; planifiez vos scrapers pour le mercredi matin afin de capturer les dernières données.

Simulez une interaction utilisateur réelle

Incluez des délais aléatoires entre les requêtes de recherche et des simulations de mouvements de souris pour rester sous le radar des systèmes de détection anti-bot du site.

Extrayez les revendications de brevet séparément

Comme les sections de revendications sont souvent très longues et contiennent un formatage technique, extrayez-les dans un champ de texte distinct pour préserver la structure hiérarchique.

Témoignages

Ce Que Disent Nos Utilisateurs

Rejoignez des milliers d'utilisateurs satisfaits qui ont transforme leur flux de travail

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Associés Web Scraping

Questions Fréquentes sur USPTO (United States Patent and Trademark Office)

Trouvez des réponses aux questions courantes sur USPTO (United States Patent and Trademark Office)

Comment scraper USPTO.gov | Scraper Web pour Brevets et Marques USPTO

À Propos de USPTO (United States Patent and Trademark Office)

Pourquoi Scraper USPTO (United States Patent and Trademark Office)?

Analyse du paysage concurrentiel

Surveillance des contrefaçons de marques

Génération de leads pour services juridiques

Évaluation de brevet et due diligence

Identification des tendances de R&D

Stratégie d'entrée sur le marché

Défis du Scraping

Identifiants de session volatiles

Interface utilisateur dynamique et SPAs

WAF agressif et Rate Limiting

Formats de données incohérents

Fenêtres de maintenance des systèmes hérités

Scrapez USPTO (United States Patent and Trademark Office) avec l'IA

Comment ça marche

Pourquoi utiliser l'IA pour le scraping

How to scrape with AI:

Why use AI for scraping:

Scrapers Web No-Code pour USPTO (United States Patent and Trademark Office)

Workflow Typique avec les Outils No-Code

Défis Courants

Scrapers Web No-Code pour USPTO (United States Patent and Trademark Office)

Workflow Typique avec les Outils No-Code

Défis Courants

Exemples de Code

Comment Scraper USPTO (United States Patent and Trademark Office) avec du Code

Python + Requests

Python + Playwright

Python + Scrapy

Node.js + Puppeteer

Que Pouvez-Vous Faire Avec Les Données de USPTO (United States Patent and Trademark Office)

Surveillance concurrentielle des marques

Cartographie des tendances de l'innovation

Audit préalable (Due Diligence) en Legal Tech

Génération de leads pour les services de PI

Que Pouvez-Vous Faire Avec Les Données de USPTO (United States Patent and Trademark Office)

Optimisez votre flux de travail avec l'Automatisation IA

Conseils Pro pour Scraper USPTO (United States Patent and Trademark Office)

Tirez parti du Bulk Data System

Utilisez des proxies résidentiels

Privilégiez l'analyse XML à l'analyse HTML

Synchronisez-vous avec les mises à jour du mardi

Simulez une interaction utilisateur réelle

Extrayez les revendications de brevet séparément

Ce Que Disent Nos Utilisateurs

Associés Web Scraping

How to Scrape Transportstyrelsen: Swedish Vehicle Registry Guide

How to Scrape GOV.UK | UK Government Web Scraper Guide

How to Scrape California Natural Resources Agency (resources.ca.gov)

Questions Fréquentes sur USPTO (United States Patent and Trademark Office)

Est-il légal de scraper des données sur uspto.gov ?

L'USPTO dispose-t-il d'une API officielle ?

Comment puis-je éviter d'être bloqué par le site de l'USPTO ?

Dans quel format les données scrapées se trouvent-elles généralement ?

Puis-je scraper des images de dessins de brevets ou de logos de marques ?

À quelle fréquence l'USPTO met-il à jour ses registres ?

Quelle est la meilleure façon de scraper l'outil Patent Public Search ?

Pourquoi mes URL de recherche USPTO cessent-elles de fonctionner après un certain temps ?