Cách Scrape Who.is để thu thập thông tin tên miền và IP
Tìm hiểu cách scrape Who.is để trích xuất thông tin sở hữu tên miền, ngày đăng ký và thông tin liên hệ. Thu thập khách hàng tiềm năng B2B và dữ liệu an ninh...
Phat hien bao ve chong bot
- Cloudflare
- WAF và quản lý bot cấp doanh nghiệp. Sử dụng thử thách JavaScript, CAPTCHA và phân tích hành vi. Yêu cầu tự động hóa trình duyệt với cài đặt ẩn.
- Giới hạn tốc độ
- Giới hạn yêu cầu theo IP/phiên theo thời gian. Có thể vượt qua bằng proxy xoay vòng, trì hoãn yêu cầu và thu thập phân tán.
- Chặn IP
- Chặn các IP trung tâm dữ liệu đã biết và địa chỉ bị đánh dấu. Yêu cầu proxy dân cư hoặc di động để vượt qua hiệu quả.
- Google reCAPTCHA
- Hệ thống CAPTCHA của Google. v2 yêu cầu tương tác người dùng, v3 chạy im lặng với chấm điểm rủi ro. Có thể giải bằng dịch vụ CAPTCHA.
Về Who.is
Khám phá những gì Who.is cung cấp và dữ liệu giá trị nào có thể được trích xuất.
Dịch vụ Tra cứu Tên miền Toàn diện
Who.is là một công cụ trực tuyến hàng đầu để thực hiện các truy vấn WHOIS và RDAP nhằm lấy thông tin đăng ký công khai cho các tên miền và địa chỉ IP. Nó đóng vai trò như một trung tâm truy cập các bản ghi được duy trì bởi các nhà đăng ký tên miền trên toàn thế giới, cung cấp các thông tin chi tiết quan trọng về ngày đăng ký, thời hạn hết hạn và cấu hình nameserver. Nền tảng này được sử dụng rộng rãi bởi các chuyên gia CNTT và các nhà nghiên cứu để điều tra hạ tầng mạng và xác định các thực thể đứng sau các tài nguyên internet.
Kho Dữ liệu Phong phú
Trang web hiển thị dữ liệu có cấu trúc và không cấu trúc liên quan đến các liên hệ quản trị, kỹ thuật và người đăng ký gắn liền với một tên miền. Mặc dù nhiều dữ liệu liên hệ cá nhân hiện đã được ẩn để tuân thủ GDPR và các giao thức bảo mật khác, trang web vẫn cung cấp các thông tin thiết yếu như tên nhà đăng ký, trạng thái tên miền và các bản ghi DNS khác nhau. Nó cũng cung cấp các công cụ để theo dõi địa chỉ IP và giám sát thời gian hoạt động của website, biến nó thành một nguồn tài nguyên toàn diện cho thông tin mạng.
Giá trị Kinh doanh của WHOIS Scraping
Scraping dữ liệu từ Who.is mang lại giá trị cao cho các nhà nghiên cứu an ninh mạng, nhà phân tích trí tuệ cạnh tranh và các chuyên gia marketing. Nó cho phép xác định các doanh nghiệp mới đăng ký, theo dõi sự thay đổi danh mục tên miền và điều tra hạ tầng được sử dụng bởi các tác nhân đe dọa tiềm tàng. Bằng cách tự động hóa việc trích xuất dữ liệu này, các tổ chức có thể dẫn đầu xu hướng thị trường, bảo vệ tài sản thương hiệu và tạo ra các khách hàng tiềm năng B2B chất lượng cao một cách hiệu quả.

Tại Sao Nên Scrape Who.is?
Khám phá giá trị kinh doanh và các trường hợp sử dụng để trích xuất dữ liệu từ Who.is.
Tạo khách hàng tiềm năng B2B bằng cách xác định chủ sở hữu của các tên miền mới đăng ký
Tình báo mối đe dọa an ninh mạng và lập bản đồ hạ tầng tên miền
Theo dõi ngày hết hạn tên miền để tìm kiếm cơ hội mua lại
Thực thi quyền sở hữu trí tuệ và xác định những người vi phạm nhãn hiệu
Nghiên cứu thị trường và theo dõi xu hướng đăng ký tên miền trong các lĩnh vực cụ thể
Thách Thức Khi Scrape
Những thách thức kỹ thuật bạn có thể gặp khi scrape Who.is.
Cơ chế bảo vệ bot và thử thách trình duyệt mạnh mẽ của Cloudflare
Giới hạn tỷ lệ (rate limits) nghiêm ngặt về số lượng tra cứu trên mỗi địa chỉ IP
Dữ liệu bị ẩn diện rộng do GDPR và các dịch vụ bảo mật WHOIS
Tải nội dung động cho một số kết quả tra cứu nhất định cần được render
Yêu cầu phân tách phức tạp cho các khối văn bản WHOIS thô không có cấu trúc
Thu thập dữ liệu Who.is bằng AI
Không cần code. Trích xuất dữ liệu trong vài phút với tự động hóa AI.
Cách hoạt động
Mô tả những gì bạn cần
Cho AI biết bạn muốn trích xuất dữ liệu gì từ Who.is. Chỉ cần viết bằng ngôn ngữ tự nhiên — không cần code hay selector.
AI trích xuất dữ liệu
AI của chúng tôi điều hướng Who.is, xử lý nội dung động và trích xuất chính xác những gì bạn yêu cầu.
Nhận dữ liệu của bạn
Nhận dữ liệu sạch, có cấu trúc, sẵn sàng xuất sang CSV, JSON hoặc gửi trực tiếp đến ứng dụng của bạn.
Tại sao nên dùng AI để thu thập dữ liệu
AI giúp việc thu thập dữ liệu từ Who.is dễ dàng mà không cần viết code. Nền tảng AI của chúng tôi hiểu dữ liệu bạn cần — chỉ cần mô tả bằng ngôn ngữ tự nhiên, AI sẽ tự động trích xuất.
How to scrape with AI:
- Mô tả những gì bạn cần: Cho AI biết bạn muốn trích xuất dữ liệu gì từ Who.is. Chỉ cần viết bằng ngôn ngữ tự nhiên — không cần code hay selector.
- AI trích xuất dữ liệu: AI của chúng tôi điều hướng Who.is, xử lý nội dung động và trích xuất chính xác những gì bạn yêu cầu.
- Nhận dữ liệu của bạn: Nhận dữ liệu sạch, có cấu trúc, sẵn sàng xuất sang CSV, JSON hoặc gửi trực tiếp đến ứng dụng của bạn.
Why use AI for scraping:
- Giao diện no-code cho phép xây dựng trình cào Who.is trong vài phút mà không cần viết script
- Tự động xử lý các thử thách Cloudflare và rào cản render JavaScript
- Thực thi trên đám mây giúp tránh hoàn toàn các vấn đề chặn IP nội bộ và giới hạn tỷ lệ
- Tích hợp tính năng lập lịch để giám sát liên tục các thay đổi trạng thái tên miền
- Xuất dữ liệu liền mạch sang Google Sheets hoặc CRMs để quản lý khách hàng tiềm năng
Công cụ scrape web no-code cho Who.is
Các giải pháp thay thế point-and-click cho scraping bằng AI
Một số công cụ no-code như Browse.ai, Octoparse, Axiom và ParseHub có thể giúp bạn scrape Who.is mà không cần viết code. Các công cụ này thường sử dụng giao diện trực quan để chọn dữ liệu, mặc dù có thể gặp khó khăn với nội dung động phức tạp hoặc các biện pháp anti-bot.
Quy trình làm việc điển hình với công cụ no-code
Thách thức phổ biến
Đường cong học tập
Hiểu bộ chọn và logic trích xuất cần thời gian
Bộ chọn bị hỏng
Thay đổi trang web có thể phá vỡ toàn bộ quy trình làm việc
Vấn đề nội dung động
Các trang web sử dụng nhiều JavaScript cần giải pháp phức tạp
Hạn chế CAPTCHA
Hầu hết công cụ yêu cầu can thiệp thủ công cho CAPTCHA
Chặn IP
Scraping quá mức có thể dẫn đến IP bị chặn
Công cụ scrape web no-code cho Who.is
Một số công cụ no-code như Browse.ai, Octoparse, Axiom và ParseHub có thể giúp bạn scrape Who.is mà không cần viết code. Các công cụ này thường sử dụng giao diện trực quan để chọn dữ liệu, mặc dù có thể gặp khó khăn với nội dung động phức tạp hoặc các biện pháp anti-bot.
Quy trình làm việc điển hình với công cụ no-code
- Cài đặt tiện ích trình duyệt hoặc đăng ký trên nền tảng
- Điều hướng đến trang web mục tiêu và mở công cụ
- Chọn các phần tử dữ liệu cần trích xuất bằng cách nhấp chuột
- Cấu hình bộ chọn CSS cho mỗi trường dữ liệu
- Thiết lập quy tắc phân trang để scrape nhiều trang
- Xử lý CAPTCHA (thường yêu cầu giải quyết thủ công)
- Cấu hình lịch trình cho các lần chạy tự động
- Xuất dữ liệu sang CSV, JSON hoặc kết nối qua API
Thách thức phổ biến
- Đường cong học tập: Hiểu bộ chọn và logic trích xuất cần thời gian
- Bộ chọn bị hỏng: Thay đổi trang web có thể phá vỡ toàn bộ quy trình làm việc
- Vấn đề nội dung động: Các trang web sử dụng nhiều JavaScript cần giải pháp phức tạp
- Hạn chế CAPTCHA: Hầu hết công cụ yêu cầu can thiệp thủ công cho CAPTCHA
- Chặn IP: Scraping quá mức có thể dẫn đến IP bị chặn
Vi du ma
import requests
from bs4 import BeautifulSoup
# Who.is sử dụng Cloudflare, vì vậy headers chất lượng cao là rất quan trọng
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
'Accept-Language': 'en-US,en;q=0.9'
}
url = 'https://who.is/whois/example.com'
try:
response = requests.get(url, headers=headers)
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')
# Dữ liệu WHOIS thường nằm trong thẻ pre hoặc các class div cụ thể
whois_block = soup.find('pre')
if whois_block:
print(f'Dữ liệu WHOIS: {whois_block.get_text().strip()}')
else:
print('Không tìm thấy khối dữ liệu hoặc bị chặn bởi anti-bot.')
except requests.exceptions.RequestException as e:
print(f'Yêu cầu thất bại: {e}')Khi nào sử dụng
Phù hợp nhất cho các trang HTML tĩnh với ít JavaScript. Lý tưởng cho blog, trang tin tức và các trang sản phẩm e-commerce đơn giản.
Ưu điểm
- ●Thực thi nhanh nhất (không có overhead trình duyệt)
- ●Tiêu thụ tài nguyên thấp nhất
- ●Dễ dàng song song hóa với asyncio
- ●Tuyệt vời cho API và trang tĩnh
Hạn chế
- ●Không thể chạy JavaScript
- ●Thất bại trên SPA và nội dung động
- ●Có thể gặp khó khăn với các hệ thống anti-bot phức tạp
Cach thu thap du lieu Who.is bang ma
Python + Requests
import requests
from bs4 import BeautifulSoup
# Who.is sử dụng Cloudflare, vì vậy headers chất lượng cao là rất quan trọng
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
'Accept-Language': 'en-US,en;q=0.9'
}
url = 'https://who.is/whois/example.com'
try:
response = requests.get(url, headers=headers)
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')
# Dữ liệu WHOIS thường nằm trong thẻ pre hoặc các class div cụ thể
whois_block = soup.find('pre')
if whois_block:
print(f'Dữ liệu WHOIS: {whois_block.get_text().strip()}')
else:
print('Không tìm thấy khối dữ liệu hoặc bị chặn bởi anti-bot.')
except requests.exceptions.RequestException as e:
print(f'Yêu cầu thất bại: {e}')Python + Playwright
from playwright.sync_api import sync_playwright
def scrape_whois(domain):
with sync_playwright() as p:
# Nên sử dụng chế độ Headless với các stealth plugins nếu có thể
browser = p.chromium.launch(headless=True)
context = browser.new_context(user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/110.0.0.0 Safari/537.36')
page = context.new_page()
# Điều hướng đến trang tra cứu
page.goto(f'https://who.is/whois/{domain}')
# Đợi kết quả render
page.wait_for_selector('.query-results', timeout=10000)
# Trích xuất nội dung văn bản của kết quả
results = page.inner_text('.query-results')
print(f'Kết quả cho {domain}:
{results}')
browser.close()
scrape_whois('google.com')Python + Scrapy
import scrapy
class WhoisSpider(scrapy.Spider):
name = 'whois_spider'
def start_requests(self):
# Các tên miền cần tra cứu
domains = ['example.com', 'test.org']
for domain in domains:
yield scrapy.Request(
url=f'https://who.is/whois/{domain}',
callback=self.parse,
meta={'proxy': 'http://your-residential-proxy:port'}
)
def parse(self, response):
# Trích xuất tên miền và văn bản WHOIS thô
yield {
'domain': response.css('h1::text').get(),
'raw_data': response.css('.query-results pre::text').get(),
'registrar': response.xpath("//div[contains(text(), 'Registrar')]/following-sibling::div/text()").get()
}Node.js + Puppeteer
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch({ headless: true });
const page = await browser.newPage();
// Thiết lập user agent thực tế
await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36');
await page.goto('https://who.is/whois/example.com');
// Đợi khối văn bản được định dạng trước chứa dữ liệu WHOIS
try {
await page.waitForSelector('pre', { timeout: 5000 });
const whoisData = await page.evaluate(() => {
const pre = document.querySelector('pre');
return pre ? pre.innerText : 'Không tìm thấy dữ liệu';
});
console.log(whoisData);
} catch (err) {
console.log('Phát hiện Timeout hoặc bị chặn:', err.message);
}
await browser.close();
})();Bạn Có Thể Làm Gì Với Dữ Liệu Who.is
Khám phá các ứng dụng thực tế và thông tin chi tiết từ dữ liệu Who.is.
Tiếp cận Bán hàng B2B
Các đội ngũ bán hàng có thể xác định những người ra quyết định đứng sau các tên miền mới đăng ký để cung cấp các dịch vụ như thiết kế web hoặc hosting.
Cách triển khai:
- 1Theo dõi danh sách đăng ký tên miền mới hàng ngày.
- 2Trích xuất tên người đăng ký và chi tiết tổ chức từ Who.is.
- 3Lọc khách hàng tiềm năng theo các từ khóa liên quan đến ngành trong tên miền.
- 4Nhập các liên hệ có ý định cao vào nền tảng email marketing tự động.
Sử dụng Automatio để trích xuất dữ liệu từ Who.is và xây dựng các ứng dụng này mà không cần viết code.
Bạn Có Thể Làm Gì Với Dữ Liệu Who.is
- Tiếp cận Bán hàng B2B
Các đội ngũ bán hàng có thể xác định những người ra quyết định đứng sau các tên miền mới đăng ký để cung cấp các dịch vụ như thiết kế web hoặc hosting.
- Theo dõi danh sách đăng ký tên miền mới hàng ngày.
- Trích xuất tên người đăng ký và chi tiết tổ chức từ Who.is.
- Lọc khách hàng tiềm năng theo các từ khóa liên quan đến ngành trong tên miền.
- Nhập các liên hệ có ý định cao vào nền tảng email marketing tự động.
- Lập bản đồ Mối đe dọa An ninh mạng
Các nhà phân tích bảo mật sử dụng dữ liệu WHOIS để lập bản đồ hạ tầng được sử dụng bởi các tác nhân độc hại hoặc các chiến dịch lừa đảo.
- Nhập một tên miền độc hại đã biết vào trình cào dữ liệu.
- Trích xuất các nameservers và ID tổ chức đăng ký liên quan.
- Tìm kiếm các tên miền khác chia sẻ cùng các định danh hạ tầng này.
- Chặn các dải mạng đã xác định trong tường lửa bảo mật của doanh nghiệp.
- Giám sát Mua lại Tên miền
Các nhà đầu tư có thể theo dõi các tên miền họ muốn mua bằng cách giám sát ngày hết hạn và thay đổi trạng thái của chúng.
- Lập danh sách các tên miền mục tiêu có giá trị cao để mua lại.
- Lên lịch scraping hàng ngày để kiểm tra 'Ngày hết hạn' và 'Trạng thái tên miền'.
- Thiết lập cảnh báo tự động cho các tên miền bước vào 'Giai đoạn thu hồi'.
- Đặt lệnh mua lại chuyên nghiệp (backorder) ngay khi tên miền được giải phóng ra thị trường.
- Phân tích Bảo vệ Thương hiệu
Các công ty có thể giám sát hành vi typosquatting hoặc các trang web lừa đảo sử dụng nhãn hiệu của họ để bảo vệ khách hàng.
- Thực hiện tìm kiếm tự động các biến thể và lỗi chính tả phổ biến của tên thương hiệu.
- Trích xuất thông tin người đăng ký và nhà đăng ký cho bất kỳ tên miền trùng khớp đáng ngờ nào.
- Phân tích nameservers để xác định nhà cung cấp hosting của trang web lừa đảo.
- Gửi yêu cầu gỡ bỏ pháp lý tới các nhà đăng ký và công ty hosting đã xác định.
Tang cuong quy trinh lam viec cua ban voi Tu dong hoa AI
Automatio ket hop suc manh cua cac AI agent, tu dong hoa web va tich hop thong minh de giup ban lam duoc nhieu hon trong thoi gian ngan hon.
Mẹo Pro Cho Việc Scrape Who.is
Lời khuyên chuyên gia để trích xuất dữ liệu thành công từ Who.is.
Sử dụng xoay vòng residential proxies chất lượng cao để vượt qua cơ chế chặn IP và rate limits của Cloudflare.
Sử dụng trình duyệt headless như Playwright hoặc Puppeteer để xử lý việc render động các kết quả và các thử thách JS.
Thiết lập các khoảng nghỉ ngẫu nhiên (jitter) giữa các lần truy vấn để mô phỏng hành vi duyệt web tự nhiên của con người.
Sử dụng biểu thức chính quy (regex) để phân tách các khối văn bản thô thành dữ liệu JSON có cấu trúc nhằm tối ưu khả năng sử dụng.
Theo dõi riêng trường 'Expires' để kích hoạt cảnh báo cho các tên miền giá trị cao sắp bước vào giai đoạn thu hồi (redemption phase).
Kiểm tra phần RDAP nếu WHOIS bị ẩn danh, vì đôi khi nó cung cấp dữ liệu kết nối có cấu trúc tốt hơn.
Danh gia
Nguoi dung cua chung toi noi gi
Tham gia cung hang nghin nguoi dung hai long da thay doi quy trinh lam viec cua ho
Jonathan Kogan
Co-Founder/CEO, rpatools.io
Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.
Mohammed Ibrahim
CEO, qannas.pro
I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!
Ben Bressington
CTO, AiChatSolutions
Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!
Sarah Chen
Head of Growth, ScaleUp Labs
We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.
David Park
Founder, DataDriven.io
The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!
Emily Rodriguez
Marketing Director, GrowthMetrics
Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.
Jonathan Kogan
Co-Founder/CEO, rpatools.io
Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.
Mohammed Ibrahim
CEO, qannas.pro
I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!
Ben Bressington
CTO, AiChatSolutions
Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!
Sarah Chen
Head of Growth, ScaleUp Labs
We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.
David Park
Founder, DataDriven.io
The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!
Emily Rodriguez
Marketing Director, GrowthMetrics
Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.
Lien quan Web Scraping

How to Scrape The AA (theaa.com): A Technical Guide for Car & Insurance Data

How to Scrape CSS Author: A Comprehensive Web Scraping Guide

How to Scrape Biluppgifter.se: Vehicle Data Extraction Guide

How to Scrape Bilregistret.ai: Swedish Vehicle Data Extraction Guide

How to Scrape Car.info | Vehicle Data & Valuation Extraction Guide

How to Scrape GoAbroad Study Abroad Programs

How to Scrape ResearchGate: Publication and Researcher Data

How to Scrape Statista: The Ultimate Guide to Market Data Extraction
Cau hoi thuong gap ve Who.is
Tim cau tra loi cho cac cau hoi thuong gap ve Who.is