Cách Scrape Who.is để thu thập thông tin tên miền và IP

Tìm hiểu cách scrape Who.is để trích xuất thông tin sở hữu tên miền, ngày đăng ký và thông tin liên hệ. Thu thập khách hàng tiềm năng B2B và dữ liệu an ninh...

Who.is favicon
who.isTrung binh
Pham vi:Global
Du lieu co san6 truong
Tieu deVi triThong tin nguoi banThong tin lien heNgay dangThuoc tinh
Tat ca truong co the trich xuat
Tên miềnTên nhà đăng kýNgày đăng kýNgày hết hạnNgày cập nhậtTrạng thái tên miềnName ServersĐịa chỉ IPTổ chức đăng kýThành phố đăng kýTỉnh/Bang đăng kýQuốc gia đăng kýEmail quản trịĐiện thoại liên hệ kỹ thuậtDữ liệu WHOIS thô
Yeu cau ky thuat
Can JavaScript
Khong can dang nhap
Khong phan trang
Khong co API chinh thuc
Phat hien bao ve chong bot
CloudflareRate LimitingIP BlockingreCAPTCHA

Phat hien bao ve chong bot

Cloudflare
WAF và quản lý bot cấp doanh nghiệp. Sử dụng thử thách JavaScript, CAPTCHA và phân tích hành vi. Yêu cầu tự động hóa trình duyệt với cài đặt ẩn.
Giới hạn tốc độ
Giới hạn yêu cầu theo IP/phiên theo thời gian. Có thể vượt qua bằng proxy xoay vòng, trì hoãn yêu cầu và thu thập phân tán.
Chặn IP
Chặn các IP trung tâm dữ liệu đã biết và địa chỉ bị đánh dấu. Yêu cầu proxy dân cư hoặc di động để vượt qua hiệu quả.
Google reCAPTCHA
Hệ thống CAPTCHA của Google. v2 yêu cầu tương tác người dùng, v3 chạy im lặng với chấm điểm rủi ro. Có thể giải bằng dịch vụ CAPTCHA.

Về Who.is

Khám phá những gì Who.is cung cấp và dữ liệu giá trị nào có thể được trích xuất.

Dịch vụ Tra cứu Tên miền Toàn diện

Who.is là một công cụ trực tuyến hàng đầu để thực hiện các truy vấn WHOIS và RDAP nhằm lấy thông tin đăng ký công khai cho các tên miền và địa chỉ IP. Nó đóng vai trò như một trung tâm truy cập các bản ghi được duy trì bởi các nhà đăng ký tên miền trên toàn thế giới, cung cấp các thông tin chi tiết quan trọng về ngày đăng ký, thời hạn hết hạn và cấu hình nameserver. Nền tảng này được sử dụng rộng rãi bởi các chuyên gia CNTT và các nhà nghiên cứu để điều tra hạ tầng mạng và xác định các thực thể đứng sau các tài nguyên internet.

Kho Dữ liệu Phong phú

Trang web hiển thị dữ liệu có cấu trúc và không cấu trúc liên quan đến các liên hệ quản trị, kỹ thuật và người đăng ký gắn liền với một tên miền. Mặc dù nhiều dữ liệu liên hệ cá nhân hiện đã được ẩn để tuân thủ GDPR và các giao thức bảo mật khác, trang web vẫn cung cấp các thông tin thiết yếu như tên nhà đăng ký, trạng thái tên miền và các bản ghi DNS khác nhau. Nó cũng cung cấp các công cụ để theo dõi địa chỉ IP và giám sát thời gian hoạt động của website, biến nó thành một nguồn tài nguyên toàn diện cho thông tin mạng.

Giá trị Kinh doanh của WHOIS Scraping

Scraping dữ liệu từ Who.is mang lại giá trị cao cho các nhà nghiên cứu an ninh mạng, nhà phân tích trí tuệ cạnh tranh và các chuyên gia marketing. Nó cho phép xác định các doanh nghiệp mới đăng ký, theo dõi sự thay đổi danh mục tên miền và điều tra hạ tầng được sử dụng bởi các tác nhân đe dọa tiềm tàng. Bằng cách tự động hóa việc trích xuất dữ liệu này, các tổ chức có thể dẫn đầu xu hướng thị trường, bảo vệ tài sản thương hiệu và tạo ra các khách hàng tiềm năng B2B chất lượng cao một cách hiệu quả.

Về Who.is

Tại Sao Nên Scrape Who.is?

Khám phá giá trị kinh doanh và các trường hợp sử dụng để trích xuất dữ liệu từ Who.is.

Tạo khách hàng tiềm năng B2B bằng cách xác định chủ sở hữu của các tên miền mới đăng ký

Tình báo mối đe dọa an ninh mạng và lập bản đồ hạ tầng tên miền

Theo dõi ngày hết hạn tên miền để tìm kiếm cơ hội mua lại

Thực thi quyền sở hữu trí tuệ và xác định những người vi phạm nhãn hiệu

Nghiên cứu thị trường và theo dõi xu hướng đăng ký tên miền trong các lĩnh vực cụ thể

Thách Thức Khi Scrape

Những thách thức kỹ thuật bạn có thể gặp khi scrape Who.is.

Cơ chế bảo vệ bot và thử thách trình duyệt mạnh mẽ của Cloudflare

Giới hạn tỷ lệ (rate limits) nghiêm ngặt về số lượng tra cứu trên mỗi địa chỉ IP

Dữ liệu bị ẩn diện rộng do GDPR và các dịch vụ bảo mật WHOIS

Tải nội dung động cho một số kết quả tra cứu nhất định cần được render

Yêu cầu phân tách phức tạp cho các khối văn bản WHOIS thô không có cấu trúc

Thu thập dữ liệu Who.is bằng AI

Không cần code. Trích xuất dữ liệu trong vài phút với tự động hóa AI.

Cách hoạt động

1

Mô tả những gì bạn cần

Cho AI biết bạn muốn trích xuất dữ liệu gì từ Who.is. Chỉ cần viết bằng ngôn ngữ tự nhiên — không cần code hay selector.

2

AI trích xuất dữ liệu

AI của chúng tôi điều hướng Who.is, xử lý nội dung động và trích xuất chính xác những gì bạn yêu cầu.

3

Nhận dữ liệu của bạn

Nhận dữ liệu sạch, có cấu trúc, sẵn sàng xuất sang CSV, JSON hoặc gửi trực tiếp đến ứng dụng của bạn.

Tại sao nên dùng AI để thu thập dữ liệu

Giao diện no-code cho phép xây dựng trình cào Who.is trong vài phút mà không cần viết script
Tự động xử lý các thử thách Cloudflare và rào cản render JavaScript
Thực thi trên đám mây giúp tránh hoàn toàn các vấn đề chặn IP nội bộ và giới hạn tỷ lệ
Tích hợp tính năng lập lịch để giám sát liên tục các thay đổi trạng thái tên miền
Xuất dữ liệu liền mạch sang Google Sheets hoặc CRMs để quản lý khách hàng tiềm năng
Không cần thẻ tín dụngGói miễn phí có sẵnKhông cần cài đặt

AI giúp việc thu thập dữ liệu từ Who.is dễ dàng mà không cần viết code. Nền tảng AI của chúng tôi hiểu dữ liệu bạn cần — chỉ cần mô tả bằng ngôn ngữ tự nhiên, AI sẽ tự động trích xuất.

How to scrape with AI:
  1. Mô tả những gì bạn cần: Cho AI biết bạn muốn trích xuất dữ liệu gì từ Who.is. Chỉ cần viết bằng ngôn ngữ tự nhiên — không cần code hay selector.
  2. AI trích xuất dữ liệu: AI của chúng tôi điều hướng Who.is, xử lý nội dung động và trích xuất chính xác những gì bạn yêu cầu.
  3. Nhận dữ liệu của bạn: Nhận dữ liệu sạch, có cấu trúc, sẵn sàng xuất sang CSV, JSON hoặc gửi trực tiếp đến ứng dụng của bạn.
Why use AI for scraping:
  • Giao diện no-code cho phép xây dựng trình cào Who.is trong vài phút mà không cần viết script
  • Tự động xử lý các thử thách Cloudflare và rào cản render JavaScript
  • Thực thi trên đám mây giúp tránh hoàn toàn các vấn đề chặn IP nội bộ và giới hạn tỷ lệ
  • Tích hợp tính năng lập lịch để giám sát liên tục các thay đổi trạng thái tên miền
  • Xuất dữ liệu liền mạch sang Google Sheets hoặc CRMs để quản lý khách hàng tiềm năng

Công cụ scrape web no-code cho Who.is

Các giải pháp thay thế point-and-click cho scraping bằng AI

Một số công cụ no-code như Browse.ai, Octoparse, Axiom và ParseHub có thể giúp bạn scrape Who.is mà không cần viết code. Các công cụ này thường sử dụng giao diện trực quan để chọn dữ liệu, mặc dù có thể gặp khó khăn với nội dung động phức tạp hoặc các biện pháp anti-bot.

Quy trình làm việc điển hình với công cụ no-code

1
Cài đặt tiện ích trình duyệt hoặc đăng ký trên nền tảng
2
Điều hướng đến trang web mục tiêu và mở công cụ
3
Chọn các phần tử dữ liệu cần trích xuất bằng cách nhấp chuột
4
Cấu hình bộ chọn CSS cho mỗi trường dữ liệu
5
Thiết lập quy tắc phân trang để scrape nhiều trang
6
Xử lý CAPTCHA (thường yêu cầu giải quyết thủ công)
7
Cấu hình lịch trình cho các lần chạy tự động
8
Xuất dữ liệu sang CSV, JSON hoặc kết nối qua API

Thách thức phổ biến

Đường cong học tập

Hiểu bộ chọn và logic trích xuất cần thời gian

Bộ chọn bị hỏng

Thay đổi trang web có thể phá vỡ toàn bộ quy trình làm việc

Vấn đề nội dung động

Các trang web sử dụng nhiều JavaScript cần giải pháp phức tạp

Hạn chế CAPTCHA

Hầu hết công cụ yêu cầu can thiệp thủ công cho CAPTCHA

Chặn IP

Scraping quá mức có thể dẫn đến IP bị chặn

Công cụ scrape web no-code cho Who.is

Một số công cụ no-code như Browse.ai, Octoparse, Axiom và ParseHub có thể giúp bạn scrape Who.is mà không cần viết code. Các công cụ này thường sử dụng giao diện trực quan để chọn dữ liệu, mặc dù có thể gặp khó khăn với nội dung động phức tạp hoặc các biện pháp anti-bot.

Quy trình làm việc điển hình với công cụ no-code
  1. Cài đặt tiện ích trình duyệt hoặc đăng ký trên nền tảng
  2. Điều hướng đến trang web mục tiêu và mở công cụ
  3. Chọn các phần tử dữ liệu cần trích xuất bằng cách nhấp chuột
  4. Cấu hình bộ chọn CSS cho mỗi trường dữ liệu
  5. Thiết lập quy tắc phân trang để scrape nhiều trang
  6. Xử lý CAPTCHA (thường yêu cầu giải quyết thủ công)
  7. Cấu hình lịch trình cho các lần chạy tự động
  8. Xuất dữ liệu sang CSV, JSON hoặc kết nối qua API
Thách thức phổ biến
  • Đường cong học tập: Hiểu bộ chọn và logic trích xuất cần thời gian
  • Bộ chọn bị hỏng: Thay đổi trang web có thể phá vỡ toàn bộ quy trình làm việc
  • Vấn đề nội dung động: Các trang web sử dụng nhiều JavaScript cần giải pháp phức tạp
  • Hạn chế CAPTCHA: Hầu hết công cụ yêu cầu can thiệp thủ công cho CAPTCHA
  • Chặn IP: Scraping quá mức có thể dẫn đến IP bị chặn

Vi du ma

import requests
from bs4 import BeautifulSoup

# Who.is sử dụng Cloudflare, vì vậy headers chất lượng cao là rất quan trọng
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Accept-Language': 'en-US,en;q=0.9'
}
url = 'https://who.is/whois/example.com'

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Dữ liệu WHOIS thường nằm trong thẻ pre hoặc các class div cụ thể
    whois_block = soup.find('pre')
    if whois_block:
        print(f'Dữ liệu WHOIS: {whois_block.get_text().strip()}')
    else:
        print('Không tìm thấy khối dữ liệu hoặc bị chặn bởi anti-bot.')
except requests.exceptions.RequestException as e:
    print(f'Yêu cầu thất bại: {e}')

Khi nào sử dụng

Phù hợp nhất cho các trang HTML tĩnh với ít JavaScript. Lý tưởng cho blog, trang tin tức và các trang sản phẩm e-commerce đơn giản.

Ưu điểm

  • Thực thi nhanh nhất (không có overhead trình duyệt)
  • Tiêu thụ tài nguyên thấp nhất
  • Dễ dàng song song hóa với asyncio
  • Tuyệt vời cho API và trang tĩnh

Hạn chế

  • Không thể chạy JavaScript
  • Thất bại trên SPA và nội dung động
  • Có thể gặp khó khăn với các hệ thống anti-bot phức tạp

Cach thu thap du lieu Who.is bang ma

Python + Requests
import requests
from bs4 import BeautifulSoup

# Who.is sử dụng Cloudflare, vì vậy headers chất lượng cao là rất quan trọng
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Accept-Language': 'en-US,en;q=0.9'
}
url = 'https://who.is/whois/example.com'

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Dữ liệu WHOIS thường nằm trong thẻ pre hoặc các class div cụ thể
    whois_block = soup.find('pre')
    if whois_block:
        print(f'Dữ liệu WHOIS: {whois_block.get_text().strip()}')
    else:
        print('Không tìm thấy khối dữ liệu hoặc bị chặn bởi anti-bot.')
except requests.exceptions.RequestException as e:
    print(f'Yêu cầu thất bại: {e}')
Python + Playwright
from playwright.sync_api import sync_playwright

def scrape_whois(domain):
    with sync_playwright() as p:
        # Nên sử dụng chế độ Headless với các stealth plugins nếu có thể
        browser = p.chromium.launch(headless=True)
        context = browser.new_context(user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/110.0.0.0 Safari/537.36')
        page = context.new_page()
        
        # Điều hướng đến trang tra cứu
        page.goto(f'https://who.is/whois/{domain}')
        
        # Đợi kết quả render
        page.wait_for_selector('.query-results', timeout=10000)
        
        # Trích xuất nội dung văn bản của kết quả
        results = page.inner_text('.query-results')
        print(f'Kết quả cho {domain}:
{results}')
        
        browser.close()

scrape_whois('google.com')
Python + Scrapy
import scrapy

class WhoisSpider(scrapy.Spider):
    name = 'whois_spider'
    
    def start_requests(self):
        # Các tên miền cần tra cứu
        domains = ['example.com', 'test.org']
        for domain in domains:
            yield scrapy.Request(
                url=f'https://who.is/whois/{domain}',
                callback=self.parse,
                meta={'proxy': 'http://your-residential-proxy:port'}
            )

    def parse(self, response):
        # Trích xuất tên miền và văn bản WHOIS thô
        yield {
            'domain': response.css('h1::text').get(),
            'raw_data': response.css('.query-results pre::text').get(),
            'registrar': response.xpath("//div[contains(text(), 'Registrar')]/following-sibling::div/text()").get()
        }
Node.js + Puppeteer
const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({ headless: true });
  const page = await browser.newPage();
  
  // Thiết lập user agent thực tế
  await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36');

  await page.goto('https://who.is/whois/example.com');

  // Đợi khối văn bản được định dạng trước chứa dữ liệu WHOIS
  try {
    await page.waitForSelector('pre', { timeout: 5000 });
    
    const whoisData = await page.evaluate(() => {
      const pre = document.querySelector('pre');
      return pre ? pre.innerText : 'Không tìm thấy dữ liệu';
    });

    console.log(whoisData);
  } catch (err) {
    console.log('Phát hiện Timeout hoặc bị chặn:', err.message);
  }

  await browser.close();
})();

Bạn Có Thể Làm Gì Với Dữ Liệu Who.is

Khám phá các ứng dụng thực tế và thông tin chi tiết từ dữ liệu Who.is.

Tiếp cận Bán hàng B2B

Các đội ngũ bán hàng có thể xác định những người ra quyết định đứng sau các tên miền mới đăng ký để cung cấp các dịch vụ như thiết kế web hoặc hosting.

Cách triển khai:

  1. 1Theo dõi danh sách đăng ký tên miền mới hàng ngày.
  2. 2Trích xuất tên người đăng ký và chi tiết tổ chức từ Who.is.
  3. 3Lọc khách hàng tiềm năng theo các từ khóa liên quan đến ngành trong tên miền.
  4. 4Nhập các liên hệ có ý định cao vào nền tảng email marketing tự động.

Sử dụng Automatio để trích xuất dữ liệu từ Who.is và xây dựng các ứng dụng này mà không cần viết code.

Bạn Có Thể Làm Gì Với Dữ Liệu Who.is

  • Tiếp cận Bán hàng B2B

    Các đội ngũ bán hàng có thể xác định những người ra quyết định đứng sau các tên miền mới đăng ký để cung cấp các dịch vụ như thiết kế web hoặc hosting.

    1. Theo dõi danh sách đăng ký tên miền mới hàng ngày.
    2. Trích xuất tên người đăng ký và chi tiết tổ chức từ Who.is.
    3. Lọc khách hàng tiềm năng theo các từ khóa liên quan đến ngành trong tên miền.
    4. Nhập các liên hệ có ý định cao vào nền tảng email marketing tự động.
  • Lập bản đồ Mối đe dọa An ninh mạng

    Các nhà phân tích bảo mật sử dụng dữ liệu WHOIS để lập bản đồ hạ tầng được sử dụng bởi các tác nhân độc hại hoặc các chiến dịch lừa đảo.

    1. Nhập một tên miền độc hại đã biết vào trình cào dữ liệu.
    2. Trích xuất các nameservers và ID tổ chức đăng ký liên quan.
    3. Tìm kiếm các tên miền khác chia sẻ cùng các định danh hạ tầng này.
    4. Chặn các dải mạng đã xác định trong tường lửa bảo mật của doanh nghiệp.
  • Giám sát Mua lại Tên miền

    Các nhà đầu tư có thể theo dõi các tên miền họ muốn mua bằng cách giám sát ngày hết hạn và thay đổi trạng thái của chúng.

    1. Lập danh sách các tên miền mục tiêu có giá trị cao để mua lại.
    2. Lên lịch scraping hàng ngày để kiểm tra 'Ngày hết hạn' và 'Trạng thái tên miền'.
    3. Thiết lập cảnh báo tự động cho các tên miền bước vào 'Giai đoạn thu hồi'.
    4. Đặt lệnh mua lại chuyên nghiệp (backorder) ngay khi tên miền được giải phóng ra thị trường.
  • Phân tích Bảo vệ Thương hiệu

    Các công ty có thể giám sát hành vi typosquatting hoặc các trang web lừa đảo sử dụng nhãn hiệu của họ để bảo vệ khách hàng.

    1. Thực hiện tìm kiếm tự động các biến thể và lỗi chính tả phổ biến của tên thương hiệu.
    2. Trích xuất thông tin người đăng ký và nhà đăng ký cho bất kỳ tên miền trùng khớp đáng ngờ nào.
    3. Phân tích nameservers để xác định nhà cung cấp hosting của trang web lừa đảo.
    4. Gửi yêu cầu gỡ bỏ pháp lý tới các nhà đăng ký và công ty hosting đã xác định.
Hon ca prompt

Tang cuong quy trinh lam viec cua ban voi Tu dong hoa AI

Automatio ket hop suc manh cua cac AI agent, tu dong hoa web va tich hop thong minh de giup ban lam duoc nhieu hon trong thoi gian ngan hon.

AI Agent
Tu dong hoa web
Quy trinh thong minh

Mẹo Pro Cho Việc Scrape Who.is

Lời khuyên chuyên gia để trích xuất dữ liệu thành công từ Who.is.

Sử dụng xoay vòng residential proxies chất lượng cao để vượt qua cơ chế chặn IP và rate limits của Cloudflare.

Sử dụng trình duyệt headless như Playwright hoặc Puppeteer để xử lý việc render động các kết quả và các thử thách JS.

Thiết lập các khoảng nghỉ ngẫu nhiên (jitter) giữa các lần truy vấn để mô phỏng hành vi duyệt web tự nhiên của con người.

Sử dụng biểu thức chính quy (regex) để phân tách các khối văn bản thô thành dữ liệu JSON có cấu trúc nhằm tối ưu khả năng sử dụng.

Theo dõi riêng trường 'Expires' để kích hoạt cảnh báo cho các tên miền giá trị cao sắp bước vào giai đoạn thu hồi (redemption phase).

Kiểm tra phần RDAP nếu WHOIS bị ẩn danh, vì đôi khi nó cung cấp dữ liệu kết nối có cấu trúc tốt hơn.

Danh gia

Nguoi dung cua chung toi noi gi

Tham gia cung hang nghin nguoi dung hai long da thay doi quy trinh lam viec cua ho

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Lien quan Web Scraping

Cau hoi thuong gap ve Who.is

Tim cau tra loi cho cac cau hoi thuong gap ve Who.is