نحوه اسکرپ کردن Hacker News (news.ycombinator.com)
بیاموزید چگونه Hacker News را برای استخراج اخبار برتر تکنولوژی، آگهیهای شغلی و بحثهای جامعه کاربری اسکرپ کنید. عالی برای تحقیقات بازار و تحلیل روندها.
حفاظت ضد ربات شناسایی شد
- محدودیت نرخ
- درخواستها را بر اساس IP/جلسه در طول زمان محدود میکند. با پراکسیهای چرخشی، تأخیر درخواستها و اسکرپینگ توزیعشده قابل دور زدن است.
- مسدودسازی IP
- IPهای شناختهشده مراکز داده و آدرسهای علامتگذاریشده را مسدود میکند. نیاز به پراکسیهای مسکونی یا موبایل برای دور زدن مؤثر دارد.
- User-Agent Filtering
درباره Hacker News
کشف کنید Hacker News چه چیزی ارائه میدهد و چه دادههای ارزشمندی میتوان استخراج کرد.
قطب فناوری
Hacker News یک وبسایت خبری اجتماعی با تمرکز بر علوم کامپیوتر و کارآفرینی است که توسط شتابدهنده استارتاپی Y Combinator مدیریت میشود. این پلتفرم به عنوان یک جامعه کاربری فعالیت میکند که در آن کاربران لینکهای مربوط به مقالات فنی، اخبار استارتاپها و بحثهای عمیق را به اشتراک میگذارند.
غنای دادهای
این پلتفرم حاوی حجم عظیمی از دادههای لحظهای شامل اخبار برتر دنیای تکنولوژی، لانچ استارتاپها در بخش "Show HN"، سوالات جامعه کاربری در بخش "Ask HN" و تابلوهای اعلانات شغلی تخصصی است. این سایت به عنوان نبض اکوسیستم سیلیکون ولی و جامعه جهانی توسعهدهندگان شناخته میشود.
ارزش استراتژیک
اسکرپ کردن این دادهها به کسبوکارها و محققان اجازه میدهد تا فناوریهای نوظهور را رصد کنند، نام برند رقبای خود را دنبال کنند و رهبران فکری تاثیرگذار را شناسایی نمایند. از آنجایی که ساختار سایت بسیار پایدار و سبک است، یکی از قابلاعتمادترین منابع برای تجمیع خودکار اخبار فنی محسوب میشود.

چرا Hacker News را اسکرپ کنیم؟
ارزش تجاری و موارد استفاده برای استخراج داده از Hacker News را کشف کنید.
شناسایی زودهنگام زبانهای برنامهنویسی نوظهور و ابزارهای توسعهدهنده
مانیتور کردن اکوسیستم استارتاپی برای اخبار لانچ و جذب سرمایه جدید
تولید لید برای استخدامهای فنی با مانیتور کردن تاپیکهای 'Who is Hiring'
تحلیل احساسات (Sentiment Analysis) روی نسخههای نرمافزاری و اطلاعیههای شرکتی
ساخت تجمیعکنندههای خبری فنی با کیفیت برای مخاطبان خاص
تحقیقات آکادمیک در مورد انتشار اطلاعات در جوامع فنی
چالشهای اسکرپینگ
چالشهای فنی که ممکن است هنگام اسکرپ Hacker News با آنها مواجه شوید.
تجزیه ساختارهای جدول HTML تودرتو که برای چیدمان استفاده شدهاند
مدیریت رشتههای زمانی نسبی مانند '2 hours ago' برای ذخیرهسازی در دیتابیس
مدیریت محدودیتهای نرخ درخواست (rate limits) سمت سرور که منجر به مسدودسازی موقت IP میشوند
استخراج سلسلهمراتب عمیق کامنتها که در چندین صفحه پخش شدهاند
استخراج داده از Hacker News با هوش مصنوعی
بدون نیاز به کدنویسی. با اتوماسیون مبتنی بر هوش مصنوعی در چند دقیقه داده استخراج کنید.
نحوه عملکرد
نیاز خود را توصیف کنید
به هوش مصنوعی بگویید چه دادههایی را میخواهید از Hacker News استخراج کنید. فقط به زبان طبیعی بنویسید — بدون نیاز به کد یا سلکتور.
هوش مصنوعی دادهها را استخراج میکند
هوش مصنوعی ما Hacker News را مرور میکند، محتوای پویا را مدیریت میکند و دقیقاً آنچه درخواست کردهاید را استخراج میکند.
دادههای خود را دریافت کنید
دادههای تمیز و ساختاریافته آماده برای صادرات به CSV، JSON یا ارسال مستقیم به برنامههای شما دریافت کنید.
چرا از هوش مصنوعی برای استخراج داده استفاده کنید
هوش مصنوعی استخراج داده از Hacker News را بدون نوشتن کد آسان میکند. پلتفرم ما با هوش مصنوعی میفهمد چه دادههایی میخواهید — فقط به زبان طبیعی توصیف کنید و هوش مصنوعی به طور خودکار استخراج میکند.
How to scrape with AI:
- نیاز خود را توصیف کنید: به هوش مصنوعی بگویید چه دادههایی را میخواهید از Hacker News استخراج کنید. فقط به زبان طبیعی بنویسید — بدون نیاز به کد یا سلکتور.
- هوش مصنوعی دادهها را استخراج میکند: هوش مصنوعی ما Hacker News را مرور میکند، محتوای پویا را مدیریت میکند و دقیقاً آنچه درخواست کردهاید را استخراج میکند.
- دادههای خود را دریافت کنید: دادههای تمیز و ساختاریافته آماده برای صادرات به CSV، JSON یا ارسال مستقیم به برنامههای شما دریافت کنید.
Why use AI for scraping:
- انتخاب داستانها با کلیک (Point-and-click) بدون نیاز به نوشتن CSS selectorهای پیچیده
- مدیریت خودکار دکمه 'More' برای صفحهبندی بیوقفه
- اجرای ابری داخلی برای جلوگیری از rate-limit شدن IP محلی شما
- اجرای زمانبندیشده اسکرپینگ برای ثبت خودکار صفحه اول در هر ساعت
- خروجی مستقیم به Google Sheets یا Webhooks برای دریافت هشدارهای لحظهای
اسکرپرهای وب بدون کد برای Hacker News
جایگزینهای کلیک و انتخاب برای اسکرپینگ مبتنی بر AI
چندین ابزار بدون کد مانند Browse.ai، Octoparse، Axiom و ParseHub میتوانند به شما در اسکرپ Hacker News بدون نوشتن کد کمک کنند. این ابزارها معمولاً از رابطهای بصری برای انتخاب داده استفاده میکنند، اگرچه ممکن است با محتوای پویای پیچیده یا اقدامات ضد ربات مشکل داشته باشند.
گردش کار معمول با ابزارهای بدون کد
چالشهای رایج
منحنی یادگیری
درک انتخابگرها و منطق استخراج زمان میبرد
انتخابگرها خراب میشوند
تغییرات وبسایت میتواند کل جریان کار را خراب کند
مشکلات محتوای پویا
سایتهای پر از JavaScript نیاز به راهحلهای پیچیده دارند
محدودیتهای CAPTCHA
اکثر ابزارها نیاز به مداخله دستی برای CAPTCHA دارند
مسدود شدن IP
استخراج تهاجمی میتواند منجر به مسدود شدن IP شما شود
اسکرپرهای وب بدون کد برای Hacker News
چندین ابزار بدون کد مانند Browse.ai، Octoparse، Axiom و ParseHub میتوانند به شما در اسکرپ Hacker News بدون نوشتن کد کمک کنند. این ابزارها معمولاً از رابطهای بصری برای انتخاب داده استفاده میکنند، اگرچه ممکن است با محتوای پویای پیچیده یا اقدامات ضد ربات مشکل داشته باشند.
گردش کار معمول با ابزارهای بدون کد
- افزونه مرورگر را نصب کنید یا در پلتفرم ثبتنام کنید
- به وبسایت هدف بروید و ابزار را باز کنید
- عناصر دادهای مورد نظر را با کلیک انتخاب کنید
- انتخابگرهای CSS را برای هر فیلد داده پیکربندی کنید
- قوانین صفحهبندی را برای استخراج چندین صفحه تنظیم کنید
- CAPTCHA را مدیریت کنید (اغلب نیاز به حل دستی دارد)
- زمانبندی اجرای خودکار را پیکربندی کنید
- دادهها را به CSV، JSON صادر کنید یا از طریق API متصل شوید
چالشهای رایج
- منحنی یادگیری: درک انتخابگرها و منطق استخراج زمان میبرد
- انتخابگرها خراب میشوند: تغییرات وبسایت میتواند کل جریان کار را خراب کند
- مشکلات محتوای پویا: سایتهای پر از JavaScript نیاز به راهحلهای پیچیده دارند
- محدودیتهای CAPTCHA: اکثر ابزارها نیاز به مداخله دستی برای CAPTCHA دارند
- مسدود شدن IP: استخراج تهاجمی میتواند منجر به مسدود شدن IP شما شود
نمونه کدها
import requests
from bs4 import BeautifulSoup
url = 'https://news.ycombinator.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}
try:
response = requests.get(url, headers=headers)
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')
# Stories are contained in rows with class 'athing'
posts = soup.select('.athing')
for post in posts:
title_element = post.select_one('.titleline > a')
title = title_element.text
link = title_element['href']
print(f'Title: {title}
Link: {link}
---')
except Exception as e:
print(f'Scraping failed: {e}')زمان استفاده
بهترین گزینه برای صفحات HTML ایستا که محتوا در سمت سرور بارگذاری میشود. سریعترین و سادهترین روش وقتی رندر JavaScript لازم نیست.
مزایا
- ●سریعترین اجرا (بدون سربار مرورگر)
- ●کمترین مصرف منابع
- ●به راحتی با asyncio قابل موازیسازی
- ●عالی برای API و صفحات ایستا
محدودیتها
- ●قادر به اجرای JavaScript نیست
- ●در SPA و محتوای پویا ناموفق است
- ●ممکن است با سیستمهای ضد ربات پیچیده مشکل داشته باشد
How to Scrape Hacker News with Code
Python + Requests
import requests
from bs4 import BeautifulSoup
url = 'https://news.ycombinator.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}
try:
response = requests.get(url, headers=headers)
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')
# Stories are contained in rows with class 'athing'
posts = soup.select('.athing')
for post in posts:
title_element = post.select_one('.titleline > a')
title = title_element.text
link = title_element['href']
print(f'Title: {title}
Link: {link}
---')
except Exception as e:
print(f'Scraping failed: {e}')Python + Playwright
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch(headless=True)
page = browser.new_page()
page.goto('https://news.ycombinator.com/')
# Wait for the table to load
page.wait_for_selector('.athing')
# Extract all story titles and links
items = page.query_selector_all('.athing')
for item in items:
title_link = item.query_selector('.titleline > a')
if title_link:
print(title_link.inner_text(), title_link.get_attribute('href'))
browser.close()Python + Scrapy
import scrapy
class HackerNewsSpider(scrapy.Spider):
name = 'hn_spider'
start_urls = ['https://news.ycombinator.com/']
def parse(self, response):
for post in response.css('.athing'):
yield {
'id': post.attrib.get('id'),
'title': post.css('.titleline > a::text').get(),
'link': post.css('.titleline > a::attr(href)').get(),
}
# Follow pagination 'More' link
next_page = response.css('a.morelink::attr(href)').get()
if next_page:
yield response.follow(next_page, self.parse)Node.js + Puppeteer
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('https://news.ycombinator.com/');
const results = await page.evaluate(() => {
const items = Array.from(document.querySelectorAll('.athing'));
return items.map(item => ({
title: item.querySelector('.titleline > a').innerText,
url: item.querySelector('.titleline > a').href
}));
});
console.log(results);
await browser.close();
})();با دادههای Hacker News چه کارهایی میتوانید انجام دهید
کاربردهای عملی و بینشها از دادههای Hacker News را بررسی کنید.
شناسایی روندهای استارتاپی
شناسایی اینکه کدام صنایع یا انواع محصولات بیشتر عرضه شده و مورد بحث قرار میگیرند.
نحوه پیادهسازی:
- 1اسکرپ کردن دستهبندی 'Show HN' به صورت هفتگی.
- 2پاکسازی و دستهبندی توضیحات استارتاپها با استفاده از NLP.
- 3رتبهبندی روندها بر اساس upvotes و تحلیل احساسات کامنتها.
از Automatio برای استخراج داده از Hacker News و ساخت این برنامهها بدون نوشتن کد استفاده کنید.
با دادههای Hacker News چه کارهایی میتوانید انجام دهید
- شناسایی روندهای استارتاپی
شناسایی اینکه کدام صنایع یا انواع محصولات بیشتر عرضه شده و مورد بحث قرار میگیرند.
- اسکرپ کردن دستهبندی 'Show HN' به صورت هفتگی.
- پاکسازی و دستهبندی توضیحات استارتاپها با استفاده از NLP.
- رتبهبندی روندها بر اساس upvotes و تحلیل احساسات کامنتها.
- استعدادیابی و استخدام فنی
استخراج آگهیهای شغلی و جزئیات شرکتها از تاپیکهای استخدامی ماهانه.
- مانیتور کردن ID تاپیک ماهانه 'Who is hiring'.
- اسکرپ کردن تمام کامنتهای سطح اول که حاوی توضیحات شغلی هستند.
- پردازش متن برای شناسایی stackهای فنی خاص مانند Rust، AI یا React.
- هوش رقابتی
ردیابی نام رقبا در کامنتها برای درک دیدگاه عمومی و شکایات کاربران.
- راهاندازی یک اسکرپر مبتنی بر کلمات کلیدی برای نامهای تجاری خاص.
- استخراج کامنتهای کاربران و برچسبهای زمانی برای تحلیل احساسات.
- تولید گزارشهای هفتگی از وضعیت برند در مقایسه با رقبا.
- کیوریتوری خودکار محتوا
ایجاد یک خبرنامه تکنولوژی با کیفیت بالا که فقط شامل مرتبطترین داستانها باشد.
- اسکرپ کردن صفحه اول هر ۶ ساعت یک بار.
- فیلتر کردن پستهایی که بیش از ۲۰۰ امتیاز دارند.
- اتوماسیون ارسال این لینکها به یک ربات Telegram یا لیست ایمیل.
- تولید لید برای سرمایهگذاری خطرپذیر (VC)
کشف استارتاپهای مراحل اولیه که مورد توجه جدی جامعه کاربری قرار گرفتهاند.
- ردیابی پستهای 'Show HN' که به صفحه اول میرسند.
- مانیتور کردن نرخ رشد upvotes در ۴ ساعت اول.
- هشدار به تحلیلگران زمانی که یک پست الگوهای رشد وایرال نشان میدهد.
گردش کار خود را با اتوماسیون AI
Automatio قدرت عاملهای AI، اتوماسیون وب و ادغامهای هوشمند را ترکیب میکند تا به شما کمک کند در زمان کمتر بیشتر انجام دهید.
نکات حرفهای برای اسکرپ Hacker News
توصیههای تخصصی برای استخراج موفق داده از Hacker News.
برای جمعآوری دادههای عظیم تاریخی از API رسمی Firebase استفاده کنید تا از پیچیدگیهای HTML parsing جلوگیری شود.
همیشه یک User-Agent سفارشی تنظیم کنید تا هویت ربات خود را بهطور مسئولانه اعلام کرده و از مسدود شدن فوری جلوگیری کنید.
یک بازه زمانی استراحت تصادفی (random sleep) بین ۳ تا ۷ ثانیه بین درخواستها اعمال کنید تا رفتار مرور انسانی را شبیهسازی کنید.
زیرشاخههای خاص مانند newest/ برای اخبار تازه یا ask/ برای گفتگوهای جامعه کاربری را هدف قرار دهید.
برای جلوگیری از ثبت ورودیهای تکراری هنگام اسکرپ کردن مداوم صفحه اول، 'Item ID' را به عنوان کلید اصلی (primary key) ذخیره کنید.
در ساعات کمترافیک (شب به وقت UTC) اسکرپ کنید تا سرعت پاسخدهی بالاتر و ریسک rate-limiting کمتری را تجربه کنید.
نظرات
کاربران ما چه میگویند
به هزاران کاربر راضی که گردش کار خود را متحول کردهاند بپیوندید
Jonathan Kogan
Co-Founder/CEO, rpatools.io
Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.
Mohammed Ibrahim
CEO, qannas.pro
I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!
Ben Bressington
CTO, AiChatSolutions
Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!
Sarah Chen
Head of Growth, ScaleUp Labs
We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.
David Park
Founder, DataDriven.io
The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!
Emily Rodriguez
Marketing Director, GrowthMetrics
Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.
Jonathan Kogan
Co-Founder/CEO, rpatools.io
Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.
Mohammed Ibrahim
CEO, qannas.pro
I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!
Ben Bressington
CTO, AiChatSolutions
Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!
Sarah Chen
Head of Growth, ScaleUp Labs
We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.
David Park
Founder, DataDriven.io
The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!
Emily Rodriguez
Marketing Director, GrowthMetrics
Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.
مرتبط Web Scraping

How to Scrape Healthline: The Ultimate Health & Medical Data Guide

How to Scrape Daily Paws: A Step-by-Step Web Scraper Guide
How to Scrape BeChewy: Extract Pet Care Guides & Health Advice

How to Scrape Web Designer News

How to Scrape Substack Newsletters and Posts
سوالات متداول درباره Hacker News
پاسخ سوالات رایج درباره Hacker News را بیابید