USPTO.govをスクレイピングする方法 | USPTO特許・商標ウェブスクレイパー

USPTO.govから特許および商標データをスクレイピングする方法を学びましょう。競合他社の法的インテリジェンスのために、特許番号、発明者、出願日を抽出します。

USPTO (United States Patent and Trademark Office) favicon
uspto.gov難しい
カバー率:United States
利用可能なデータ9 フィールド
タイトル場所説明画像出品者情報連絡先情報投稿日カテゴリ属性
すべての抽出可能フィールド
特許の名称特許番号出願番号出願日付与日抄録詳細な説明技術的なクレーム譲受人名発明者名商標名商標シリアル番号商標登録番号商品およびサービス商標権者現在のステータス担当弁護士出願根拠商標ロゴURL特許図面URL優先日
技術要件
JavaScript必須
ログイン不要
ページネーションあり
公式API利用可能
ボット対策検出
CloudflareRate LimitingIP BlockingSession-based URLsreCAPTCHA

ボット対策検出

Cloudflare
エンタープライズ級のWAFとボット管理。JavaScriptチャレンジ、CAPTCHA、行動分析を使用。ステルス設定でのブラウザ自動化が必要。
レート制限
時間あたりのIP/セッションごとのリクエストを制限。ローテーションプロキシ、リクエスト遅延、分散スクレイピングで回避可能。
IPブロック
既知のデータセンターIPとフラグ付きアドレスをブロック。効果的に回避するにはレジデンシャルまたはモバイルプロキシが必要。
Session-based URLs
Google reCAPTCHA
GoogleのCAPTCHAシステム。v2はユーザー操作が必要、v3はリスクスコアリングでサイレント動作。CAPTCHAサービスで解決可能。

USPTO (United States Patent and Trademark Office)について

USPTO (United States Patent and Trademark Office)が提供するものと抽出可能な貴重なデータを発見してください。

米国特許商標庁(USPTO)は、米国特許の付与と商標の登録を担当する連邦機関です。1790年まで遡るイノベーションとブランド所有権を記録した、知的財産(IP)記録の巨大な公開データベースを維持しています。ウェブサイトには、TSDR(商標ステータスおよびドキュメント検索)やPatent Public Searchツールなどの複雑な検索ポータルがあります。

USPTOからのデータは、知的財産研究におけるゴールドスタンダードです。これには、発明、技術的なクレーム、法的譲渡、ブランド識別子に関する詳細な情報が含まれています。企業や法務専門家にとって、このデータは知的財産の有効性の検証、買収時のデューデリジェンス、主流市場に出る前の新興技術トレンドの特定に不可欠です。

USPTOのスクレイピングは、リーガルテック企業、研究開発部門、市場アナリストにとって非常に価値があります。これにより、競合他社の監視の自動化、商標出願のライフサイクルの追跡、パテントランドスケープ分析のための包括的なデータセットの構築が可能になります。

USPTO (United States Patent and Trademark Office)について

なぜUSPTO (United States Patent and Trademark Office)をスクレイピングするのか?

USPTO (United States Patent and Trademark Office)からのデータ抽出のビジネス価値とユースケースを発見してください。

研究開発戦略のために競合他社の特許出願を監視する

ブランド保護のために新しい商標出願を追跡する

実施可能(FTO)調査を実施する

市場のギャップを特定するためにパテントランドスケープ分析を行う

法的デューデリジェンスと評価のためのデータを収集する

イノベーション研究のための学術データセットを構築する

スクレイピングの課題

USPTO (United States Patent and Trademark Office)のスクレイピング時に遭遇する可能性のある技術的課題。

JavaScriptの実行が必要な高度に動的な検索インターフェース

検索クエリに対する積極的なレート制限

すぐに期限切れになるセッション固有のURL

複雑で深くネストされたHTMLテーブル

レガシーな政府システムにおける頻繁な構造の更新

USPTO (United States Patent and Trademark Office)をAIでスクレイピング

コーディング不要。AI搭載の自動化で数分でデータを抽出。

仕組み

1

必要なものを記述

USPTO (United States Patent and Trademark Office)から抽出したいデータをAIに伝えてください。自然言語で入力するだけ — コードやセレクターは不要です。

2

AIがデータを抽出

人工知能がUSPTO (United States Patent and Trademark Office)をナビゲートし、動的コンテンツを処理し、あなたが求めたものを正確に抽出します。

3

データを取得

CSV、JSONでエクスポートしたり、アプリやワークフローに直接送信できる、クリーンで構造化されたデータを受け取ります。

なぜスクレイピングにAIを使うのか

コーディングなしで複雑なJavaScript検索ポータルを処理
セッションCookieと動的なタイムアウトを自動的に管理
新しい出願を自動的に検出するためのスケジュール実行
特許図面や商標ロゴを簡単に抽出
整理されていない政府のテーブルをクリーンなCSVまたはJSONに変換
クレジットカード不要無料プランありセットアップ不要

AIを使えば、コードを書かずにUSPTO (United States Patent and Trademark Office)を簡単にスクレイピングできます。人工知能搭載のプラットフォームが必要なデータを理解します — 自然言語で記述するだけで、AIが自動的に抽出します。

How to scrape with AI:
  1. 必要なものを記述: USPTO (United States Patent and Trademark Office)から抽出したいデータをAIに伝えてください。自然言語で入力するだけ — コードやセレクターは不要です。
  2. AIがデータを抽出: 人工知能がUSPTO (United States Patent and Trademark Office)をナビゲートし、動的コンテンツを処理し、あなたが求めたものを正確に抽出します。
  3. データを取得: CSV、JSONでエクスポートしたり、アプリやワークフローに直接送信できる、クリーンで構造化されたデータを受け取ります。
Why use AI for scraping:
  • コーディングなしで複雑なJavaScript検索ポータルを処理
  • セッションCookieと動的なタイムアウトを自動的に管理
  • 新しい出願を自動的に検出するためのスケジュール実行
  • 特許図面や商標ロゴを簡単に抽出
  • 整理されていない政府のテーブルをクリーンなCSVまたはJSONに変換

USPTO (United States Patent and Trademark Office)用ノーコードWebスクレイパー

AI搭載スクレイピングのポイント&クリック代替手段

Browse.ai、Octoparse、Axiom、ParseHubなどのノーコードツールは、コードを書かずにUSPTO (United States Patent and Trademark Office)をスクレイピングするのに役立ちます。これらのツールは視覚的なインターフェースを使用してデータを選択しますが、複雑な動的コンテンツやアンチボット対策には苦戦する場合があります。

ノーコードツールでの一般的なワークフロー

1
ブラウザ拡張機能をインストールするかプラットフォームに登録する
2
ターゲットWebサイトに移動してツールを開く
3
ポイント&クリックで抽出するデータ要素を選択する
4
各データフィールドのCSSセレクタを設定する
5
複数ページをスクレイピングするためのページネーションルールを設定する
6
CAPTCHAに対処する(多くの場合手動解決が必要)
7
自動実行のスケジュールを設定する
8
データをCSV、JSONにエクスポートするかAPIで接続する

一般的な課題

学習曲線

セレクタと抽出ロジックの理解に時間がかかる

セレクタの破損

Webサイトの変更によりワークフロー全体が壊れる可能性がある

動的コンテンツの問題

JavaScript多用サイトは複雑な回避策が必要

CAPTCHAの制限

ほとんどのツールはCAPTCHAに手動介入が必要

IPブロック

過度なスクレイピングはIPのブロックにつながる可能性がある

USPTO (United States Patent and Trademark Office)用ノーコードWebスクレイパー

Browse.ai、Octoparse、Axiom、ParseHubなどのノーコードツールは、コードを書かずにUSPTO (United States Patent and Trademark Office)をスクレイピングするのに役立ちます。これらのツールは視覚的なインターフェースを使用してデータを選択しますが、複雑な動的コンテンツやアンチボット対策には苦戦する場合があります。

ノーコードツールでの一般的なワークフロー
  1. ブラウザ拡張機能をインストールするかプラットフォームに登録する
  2. ターゲットWebサイトに移動してツールを開く
  3. ポイント&クリックで抽出するデータ要素を選択する
  4. 各データフィールドのCSSセレクタを設定する
  5. 複数ページをスクレイピングするためのページネーションルールを設定する
  6. CAPTCHAに対処する(多くの場合手動解決が必要)
  7. 自動実行のスケジュールを設定する
  8. データをCSV、JSONにエクスポートするかAPIで接続する
一般的な課題
  • 学習曲線: セレクタと抽出ロジックの理解に時間がかかる
  • セレクタの破損: Webサイトの変更によりワークフロー全体が壊れる可能性がある
  • 動的コンテンツの問題: JavaScript多用サイトは複雑な回避策が必要
  • CAPTCHAの制限: ほとんどのツールはCAPTCHAに手動介入が必要
  • IPブロック: 過度なスクレイピングはIPのブロックにつながる可能性がある

コード例

import requests
from bs4 import BeautifulSoup

# 注意: 大量データの場合はバルクデータの方が容易です
url = 'https://bulkdata.uspto.gov/'
headers = {'User-Agent': 'Mozilla/5.0'}

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    # 毎週の特許zipファイルへのリンクを検索
    links = [a['href'] for a in soup.find_all('a', href=True) if '.zip' in a['href']]
    print(f'ダウンロード可能なデータセットが {len(links)} 件見つかりました')
except Exception as e:
    print(f'エラー: {e}')

いつ使うか

JavaScriptが最小限の静的HTMLページに最適。ブログ、ニュースサイト、シンプルなEコマース製品ページに理想的。

メリット

  • 最速の実行(ブラウザオーバーヘッドなし)
  • 最小限のリソース消費
  • asyncioで簡単に並列化
  • APIと静的ページに最適

制限事項

  • JavaScriptを実行できない
  • SPAや動的コンテンツで失敗
  • 複雑なアンチボットシステムで苦戦する可能性

コードでUSPTO (United States Patent and Trademark Office)をスクレイピングする方法

Python + Requests
import requests
from bs4 import BeautifulSoup

# 注意: 大量データの場合はバルクデータの方が容易です
url = 'https://bulkdata.uspto.gov/'
headers = {'User-Agent': 'Mozilla/5.0'}

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    # 毎週の特許zipファイルへのリンクを検索
    links = [a['href'] for a in soup.find_all('a', href=True) if '.zip' in a['href']]
    print(f'ダウンロード可能なデータセットが {len(links)} 件見つかりました')
except Exception as e:
    print(f'エラー: {e}')
Python + Playwright
from playwright.sync_api import sync_playwright

def scrape_uspto_trademark():
    with sync_playwright() as p:
        # Cloudflareを回避するため、リアルなブラウザフィンガープリントを使用
        browser = p.chromium.launch(headless=True)
        page = browser.new_page()
        
        # TSDRステータスページへ移動
        page.goto('https://tsdr.uspto.gov/')
        
        # シリアル番号を入力(例: 98021018)
        page.fill('#caseNumber', '98021018')
        page.click('#statusSearch')
        
        # JS経由でステータスセクションがレンダリングされるのを待つ
        page.wait_for_selector('.status-info')
        
        # ページからデータを抽出
        mark_name = page.inner_text('.mark-name')
        print(f'商標名: {mark_name}')
        
        browser.close()

scrape_uspto_trademark()
Python + Scrapy
import scrapy

class UsptoSpider(scrapy.Spider):
    name = 'uspto_spider'
    # 特許付与レッドブックのディレクトリをターゲットにする
    start_urls = ['https://bulkdata.uspto.gov/data/patent/grant/redbook/2024/']

    def parse(self, response):
        # 2024年のすべてのzipファイルリンクをスクレイピングする
        for file_link in response.css('a::attr(href)').getall():
            if file_link.endswith('.zip'):
                yield {
                    'file_url': response.urljoin(file_link),
                    'year': 2024
                }
        
        # ディレクトリをトラバースするロジックをここに追加可能
Node.js + Puppeteer
const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  
  // Patent Public Searchのランディングページにアクセス
  await page.goto('https://ppubs.uspto.gov/pubwebapp/static/pages/landing.html');
  
  // 「Basic Search」ボタンが表示されるのを待つ
  await page.waitForSelector('#basic-search-button');
  await page.click('#basic-search-button');
  
  // 検索クエリを入力し、動的なテーブルを待つための追加ロジック
  await page.waitForSelector('.result-item');
  
  const results = await page.evaluate(() => {
    return Array.from(document.querySelectorAll('.patent-title')).map(el => el.innerText);
  });
  
  console.log('取得したタイトル:', results);
  await browser.close();
})();

USPTO (United States Patent and Trademark Office)データで何ができるか

USPTO (United States Patent and Trademark Office)データからの実用的なアプリケーションとインサイトを探索してください。

競合ブランド監視

小売業者やブランドオーナーは、侵害や市場参入から保護するために、新しい商標出願を監視できます。

実装方法:

  1. 1ブランドに関連する特定のキーワードについて、毎週の商標出願をスクレイピングします。
  2. 2新しい出願を既存のブランド商標や意匠商標と比較します。
  3. 3関連するICクラスで類似のマークが出願された場合に法務チームに通知します。

Automatioを使用してUSPTO (United States Patent and Trademark Office)からデータを抽出し、コードを書かずにこれらのアプリケーションを構築しましょう。

USPTO (United States Patent and Trademark Office)データで何ができるか

  • 競合ブランド監視

    小売業者やブランドオーナーは、侵害や市場参入から保護するために、新しい商標出願を監視できます。

    1. ブランドに関連する特定のキーワードについて、毎週の商標出願をスクレイピングします。
    2. 新しい出願を既存のブランド商標や意匠商標と比較します。
    3. 関連するICクラスで類似のマークが出願された場合に法務チームに通知します。
  • イノベーション動向のマッピング

    研究開発ラボは、特許付与を分析して、グローバル企業から多額の投資を受けている技術を把握できます。

    1. 過去5年間にわたる特許抄録とカテゴリーをスクレイピングします。
    2. NLP(自然言語処理)を使用して、トレンドとなっている技術キーワードやCPC分類を特定します。
    3. AI、バイオテクノロジー、グリーンエネルギーなどの特定の技術セクターの成長を可視化します。
  • リーガルテックのデューデリジェンス

    法律事務所は、M&A活動や評価のために、企業の知的財産ポートフォリオ全体の収集を自動化できます。

    1. 会社名または譲受人IDのリストをスクレイパーに入力します。
    2. 有効期限を含む、それらの主体のすべての有効な特許および商標レコードを抽出します。
    3. 資産の強度、多様性、および更新期限に関するレポートを生成します。
  • 知的財産サービスの見込み客発掘

    弁護士は、専門的な商標または特許の権利化サービスを必要とする可能性のある新しい出願人を特定できます。

    1. 担当弁護士が記載されていない新しい商標出願をフィルタリングします。
    2. 通信連絡先情報と所有者の詳細を抽出します。
    3. 法的代理や更新管理サービスのためのターゲットを絞ったアウトリーチを実施します。
プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー

USPTO (United States Patent and Trademark Office)スクレイピングのプロのヒント

USPTO (United States Patent and Trademark Office)からデータを正常に抽出するための専門家のアドバイス。

検索ポータルでブロックされるのを避けるため、大規模なデータが必要な場合は一括データストレージシステム(BDSS)を優先してください。

現代的なポータルで必要とされる複雑なJavaScriptやセッション状態を処理するには、Playwrightのようなヘッドレスブラウザを使用してください。

週末はメンテナンスのためにデータベースがオフラインになることが多いため、USPTOのメンテナンススケジュールを監視してください。

検索クエリに対する厳格なレート制限やCloudflareのチャレンジを回避するために、レジデンシャルプロキシをローテーションしてください。

公式文書のオリジナルの高解像度TIFFまたはPDFファイルを取得するには、ドキュメント画像URLを抽出してください。

ウェブUIではテキストが切り捨てられることが多いため、技術的なクレーム(特許請求の範囲)が必要な場合は、バルクポータルからXMLファイルをパースしてください。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 Web Scraping

USPTO (United States Patent and Trademark Office)についてのよくある質問

USPTO (United States Patent and Trademark Office)に関するよくある質問への回答を見つけてください