نحوه اسکرپ کردن Hacker News (news.ycombinator.com)

بیاموزید چگونه Hacker News را برای استخراج اخبار برتر تکنولوژی، آگهی‌های شغلی و بحث‌های جامعه کاربری اسکرپ کنید. عالی برای تحقیقات بازار و تحلیل روندها.

پوشش:Global
داده‌های موجود6 فیلد
عنوانتوضیحاتاطلاعات فروشندهتاریخ انتشاردسته‌بندی‌هاویژگی‌ها
تمام فیلدهای قابل استخراج
عنوان داستانURL خارجیدامنه منبعامتیازها (Upvotes)نام کاربری نویسندهبرچسب زمانیتعداد کامنت‌هاItem IDرتبه پستعنوان شغلیمتن کامنت
الزامات فنی
HTML ایستا
بدون نیاز به ورود
دارای صفحه‌بندی
API رسمی موجود
حفاظت ضد ربات شناسایی شد
Rate LimitingIP BlockingUser-Agent Filtering

حفاظت ضد ربات شناسایی شد

محدودیت نرخ
درخواست‌ها را بر اساس IP/جلسه در طول زمان محدود می‌کند. با پراکسی‌های چرخشی، تأخیر درخواست‌ها و اسکرپینگ توزیع‌شده قابل دور زدن است.
مسدودسازی IP
IP‌های شناخته‌شده مراکز داده و آدرس‌های علامت‌گذاری‌شده را مسدود می‌کند. نیاز به پراکسی‌های مسکونی یا موبایل برای دور زدن مؤثر دارد.
User-Agent Filtering

درباره Hacker News

کشف کنید Hacker News چه چیزی ارائه می‌دهد و چه داده‌های ارزشمندی می‌توان استخراج کرد.

قطب فناوری

Hacker News یک وب‌سایت خبری اجتماعی با تمرکز بر علوم کامپیوتر و کارآفرینی است که توسط شتاب‌دهنده استارتاپی Y Combinator مدیریت می‌شود. این پلتفرم به عنوان یک جامعه کاربری فعالیت می‌کند که در آن کاربران لینک‌های مربوط به مقالات فنی، اخبار استارتاپ‌ها و بحث‌های عمیق را به اشتراک می‌گذارند.

غنای داده‌ای

این پلتفرم حاوی حجم عظیمی از داده‌های لحظه‌ای شامل اخبار برتر دنیای تکنولوژی، لانچ استارتاپ‌ها در بخش "Show HN"، سوالات جامعه کاربری در بخش "Ask HN" و تابلوهای اعلانات شغلی تخصصی است. این سایت به عنوان نبض اکوسیستم سیلیکون ولی و جامعه جهانی توسعه‌دهندگان شناخته می‌شود.

ارزش استراتژیک

اسکرپ کردن این داده‌ها به کسب‌وکارها و محققان اجازه می‌دهد تا فناوری‌های نوظهور را رصد کنند، نام برند رقبای خود را دنبال کنند و رهبران فکری تاثیرگذار را شناسایی نمایند. از آنجایی که ساختار سایت بسیار پایدار و سبک است، یکی از قابل‌اعتمادترین منابع برای تجمیع خودکار اخبار فنی محسوب می‌شود.

درباره Hacker News

چرا Hacker News را اسکرپ کنیم؟

ارزش تجاری و موارد استفاده برای استخراج داده از Hacker News را کشف کنید.

شناسایی زودهنگام زبان‌های برنامه‌نویسی نوظهور و ابزارهای توسعه‌دهنده

مانیتور کردن اکوسیستم استارتاپی برای اخبار لانچ و جذب سرمایه جدید

تولید لید برای استخدام‌های فنی با مانیتور کردن تاپیک‌های 'Who is Hiring'

تحلیل احساسات (Sentiment Analysis) روی نسخه‌های نرم‌افزاری و اطلاعیه‌های شرکتی

ساخت تجمیع‌کننده‌های خبری فنی با کیفیت برای مخاطبان خاص

تحقیقات آکادمیک در مورد انتشار اطلاعات در جوامع فنی

چالش‌های اسکرپینگ

چالش‌های فنی که ممکن است هنگام اسکرپ Hacker News با آنها مواجه شوید.

تجزیه ساختارهای جدول HTML تودرتو که برای چیدمان استفاده شده‌اند

مدیریت رشته‌های زمانی نسبی مانند '2 hours ago' برای ذخیره‌سازی در دیتابیس

مدیریت محدودیت‌های نرخ درخواست (rate limits) سمت سرور که منجر به مسدودسازی موقت IP می‌شوند

استخراج سلسله‌مراتب عمیق کامنت‌ها که در چندین صفحه پخش شده‌اند

استخراج داده از Hacker News با هوش مصنوعی

بدون نیاز به کدنویسی. با اتوماسیون مبتنی بر هوش مصنوعی در چند دقیقه داده استخراج کنید.

نحوه عملکرد

1

نیاز خود را توصیف کنید

به هوش مصنوعی بگویید چه داده‌هایی را می‌خواهید از Hacker News استخراج کنید. فقط به زبان طبیعی بنویسید — بدون نیاز به کد یا سلکتور.

2

هوش مصنوعی داده‌ها را استخراج می‌کند

هوش مصنوعی ما Hacker News را مرور می‌کند، محتوای پویا را مدیریت می‌کند و دقیقاً آنچه درخواست کرده‌اید را استخراج می‌کند.

3

داده‌های خود را دریافت کنید

داده‌های تمیز و ساختاریافته آماده برای صادرات به CSV، JSON یا ارسال مستقیم به برنامه‌های شما دریافت کنید.

چرا از هوش مصنوعی برای استخراج داده استفاده کنید

انتخاب داستان‌ها با کلیک (Point-and-click) بدون نیاز به نوشتن CSS selectorهای پیچیده
مدیریت خودکار دکمه 'More' برای صفحه‌بندی بی‌وقفه
اجرای ابری داخلی برای جلوگیری از rate-limit شدن IP محلی شما
اجرای زمان‌بندی‌شده اسکرپینگ برای ثبت خودکار صفحه اول در هر ساعت
خروجی مستقیم به Google Sheets یا Webhooks برای دریافت هشدارهای لحظه‌ای
بدون نیاز به کارت اعتباریطرح رایگان موجودبدون نیاز به راه‌اندازی

هوش مصنوعی استخراج داده از Hacker News را بدون نوشتن کد آسان می‌کند. پلتفرم ما با هوش مصنوعی می‌فهمد چه داده‌هایی می‌خواهید — فقط به زبان طبیعی توصیف کنید و هوش مصنوعی به طور خودکار استخراج می‌کند.

How to scrape with AI:
  1. نیاز خود را توصیف کنید: به هوش مصنوعی بگویید چه داده‌هایی را می‌خواهید از Hacker News استخراج کنید. فقط به زبان طبیعی بنویسید — بدون نیاز به کد یا سلکتور.
  2. هوش مصنوعی داده‌ها را استخراج می‌کند: هوش مصنوعی ما Hacker News را مرور می‌کند، محتوای پویا را مدیریت می‌کند و دقیقاً آنچه درخواست کرده‌اید را استخراج می‌کند.
  3. داده‌های خود را دریافت کنید: داده‌های تمیز و ساختاریافته آماده برای صادرات به CSV، JSON یا ارسال مستقیم به برنامه‌های شما دریافت کنید.
Why use AI for scraping:
  • انتخاب داستان‌ها با کلیک (Point-and-click) بدون نیاز به نوشتن CSS selectorهای پیچیده
  • مدیریت خودکار دکمه 'More' برای صفحه‌بندی بی‌وقفه
  • اجرای ابری داخلی برای جلوگیری از rate-limit شدن IP محلی شما
  • اجرای زمان‌بندی‌شده اسکرپینگ برای ثبت خودکار صفحه اول در هر ساعت
  • خروجی مستقیم به Google Sheets یا Webhooks برای دریافت هشدارهای لحظه‌ای

اسکرپرهای وب بدون کد برای Hacker News

جایگزین‌های کلیک و انتخاب برای اسکرپینگ مبتنی بر AI

چندین ابزار بدون کد مانند Browse.ai، Octoparse، Axiom و ParseHub می‌توانند به شما در اسکرپ Hacker News بدون نوشتن کد کمک کنند. این ابزارها معمولاً از رابط‌های بصری برای انتخاب داده استفاده می‌کنند، اگرچه ممکن است با محتوای پویای پیچیده یا اقدامات ضد ربات مشکل داشته باشند.

گردش کار معمول با ابزارهای بدون کد

1
افزونه مرورگر را نصب کنید یا در پلتفرم ثبت‌نام کنید
2
به وب‌سایت هدف بروید و ابزار را باز کنید
3
عناصر داده‌ای مورد نظر را با کلیک انتخاب کنید
4
انتخابگرهای CSS را برای هر فیلد داده پیکربندی کنید
5
قوانین صفحه‌بندی را برای استخراج چندین صفحه تنظیم کنید
6
CAPTCHA را مدیریت کنید (اغلب نیاز به حل دستی دارد)
7
زمان‌بندی اجرای خودکار را پیکربندی کنید
8
داده‌ها را به CSV، JSON صادر کنید یا از طریق API متصل شوید

چالش‌های رایج

منحنی یادگیری

درک انتخابگرها و منطق استخراج زمان می‌برد

انتخابگرها خراب می‌شوند

تغییرات وب‌سایت می‌تواند کل جریان کار را خراب کند

مشکلات محتوای پویا

سایت‌های پر از JavaScript نیاز به راه‌حل‌های پیچیده دارند

محدودیت‌های CAPTCHA

اکثر ابزارها نیاز به مداخله دستی برای CAPTCHA دارند

مسدود شدن IP

استخراج تهاجمی می‌تواند منجر به مسدود شدن IP شما شود

اسکرپرهای وب بدون کد برای Hacker News

چندین ابزار بدون کد مانند Browse.ai، Octoparse، Axiom و ParseHub می‌توانند به شما در اسکرپ Hacker News بدون نوشتن کد کمک کنند. این ابزارها معمولاً از رابط‌های بصری برای انتخاب داده استفاده می‌کنند، اگرچه ممکن است با محتوای پویای پیچیده یا اقدامات ضد ربات مشکل داشته باشند.

گردش کار معمول با ابزارهای بدون کد
  1. افزونه مرورگر را نصب کنید یا در پلتفرم ثبت‌نام کنید
  2. به وب‌سایت هدف بروید و ابزار را باز کنید
  3. عناصر داده‌ای مورد نظر را با کلیک انتخاب کنید
  4. انتخابگرهای CSS را برای هر فیلد داده پیکربندی کنید
  5. قوانین صفحه‌بندی را برای استخراج چندین صفحه تنظیم کنید
  6. CAPTCHA را مدیریت کنید (اغلب نیاز به حل دستی دارد)
  7. زمان‌بندی اجرای خودکار را پیکربندی کنید
  8. داده‌ها را به CSV، JSON صادر کنید یا از طریق API متصل شوید
چالش‌های رایج
  • منحنی یادگیری: درک انتخابگرها و منطق استخراج زمان می‌برد
  • انتخابگرها خراب می‌شوند: تغییرات وب‌سایت می‌تواند کل جریان کار را خراب کند
  • مشکلات محتوای پویا: سایت‌های پر از JavaScript نیاز به راه‌حل‌های پیچیده دارند
  • محدودیت‌های CAPTCHA: اکثر ابزارها نیاز به مداخله دستی برای CAPTCHA دارند
  • مسدود شدن IP: استخراج تهاجمی می‌تواند منجر به مسدود شدن IP شما شود

نمونه کدها

import requests
from bs4 import BeautifulSoup

url = 'https://news.ycombinator.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Stories are contained in rows with class 'athing'
    posts = soup.select('.athing')
    for post in posts:
        title_element = post.select_one('.titleline > a')
        title = title_element.text
        link = title_element['href']
        print(f'Title: {title}
Link: {link}
---')
except Exception as e:
    print(f'Scraping failed: {e}')

زمان استفاده

بهترین گزینه برای صفحات HTML ایستا که محتوا در سمت سرور بارگذاری می‌شود. سریع‌ترین و ساده‌ترین روش وقتی رندر JavaScript لازم نیست.

مزایا

  • سریع‌ترین اجرا (بدون سربار مرورگر)
  • کمترین مصرف منابع
  • به راحتی با asyncio قابل موازی‌سازی
  • عالی برای API و صفحات ایستا

محدودیت‌ها

  • قادر به اجرای JavaScript نیست
  • در SPA و محتوای پویا ناموفق است
  • ممکن است با سیستم‌های ضد ربات پیچیده مشکل داشته باشد

How to Scrape Hacker News with Code

Python + Requests
import requests
from bs4 import BeautifulSoup

url = 'https://news.ycombinator.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Stories are contained in rows with class 'athing'
    posts = soup.select('.athing')
    for post in posts:
        title_element = post.select_one('.titleline > a')
        title = title_element.text
        link = title_element['href']
        print(f'Title: {title}
Link: {link}
---')
except Exception as e:
    print(f'Scraping failed: {e}')
Python + Playwright
from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(headless=True)
    page = browser.new_page()
    page.goto('https://news.ycombinator.com/')
    
    # Wait for the table to load
    page.wait_for_selector('.athing')
    
    # Extract all story titles and links
    items = page.query_selector_all('.athing')
    for item in items:
        title_link = item.query_selector('.titleline > a')
        if title_link:
            print(title_link.inner_text(), title_link.get_attribute('href'))
            
    browser.close()
Python + Scrapy
import scrapy

class HackerNewsSpider(scrapy.Spider):
    name = 'hn_spider'
    start_urls = ['https://news.ycombinator.com/']

    def parse(self, response):
        for post in response.css('.athing'):
            yield {
                'id': post.attrib.get('id'),
                'title': post.css('.titleline > a::text').get(),
                'link': post.css('.titleline > a::attr(href)').get(),
            }
        
        # Follow pagination 'More' link
        next_page = response.css('a.morelink::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)
Node.js + Puppeteer
const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://news.ycombinator.com/');
  
  const results = await page.evaluate(() => {
    const items = Array.from(document.querySelectorAll('.athing'));
    return items.map(item => ({
      title: item.querySelector('.titleline > a').innerText,
      url: item.querySelector('.titleline > a').href
    }));
  });

  console.log(results);
  await browser.close();
})();

با داده‌های Hacker News چه کارهایی می‌توانید انجام دهید

کاربردهای عملی و بینش‌ها از داده‌های Hacker News را بررسی کنید.

شناسایی روندهای استارتاپی

شناسایی اینکه کدام صنایع یا انواع محصولات بیشتر عرضه شده و مورد بحث قرار می‌گیرند.

نحوه پیاده‌سازی:

  1. 1اسکرپ کردن دسته‌بندی 'Show HN' به صورت هفتگی.
  2. 2پاکسازی و دسته‌بندی توضیحات استارتاپ‌ها با استفاده از NLP.
  3. 3رتبه‌بندی روندها بر اساس upvotes و تحلیل احساسات کامنت‌ها.

از Automatio برای استخراج داده از Hacker News و ساخت این برنامه‌ها بدون نوشتن کد استفاده کنید.

با داده‌های Hacker News چه کارهایی می‌توانید انجام دهید

  • شناسایی روندهای استارتاپی

    شناسایی اینکه کدام صنایع یا انواع محصولات بیشتر عرضه شده و مورد بحث قرار می‌گیرند.

    1. اسکرپ کردن دسته‌بندی 'Show HN' به صورت هفتگی.
    2. پاکسازی و دسته‌بندی توضیحات استارتاپ‌ها با استفاده از NLP.
    3. رتبه‌بندی روندها بر اساس upvotes و تحلیل احساسات کامنت‌ها.
  • استعداد‌یابی و استخدام فنی

    استخراج آگهی‌های شغلی و جزئیات شرکت‌ها از تاپیک‌های استخدامی ماهانه.

    1. مانیتور کردن ID تاپیک ماهانه 'Who is hiring'.
    2. اسکرپ کردن تمام کامنت‌های سطح اول که حاوی توضیحات شغلی هستند.
    3. پردازش متن برای شناسایی stackهای فنی خاص مانند Rust، AI یا React.
  • هوش رقابتی

    ردیابی نام رقبا در کامنت‌ها برای درک دیدگاه عمومی و شکایات کاربران.

    1. راه‌اندازی یک اسکرپر مبتنی بر کلمات کلیدی برای نام‌های تجاری خاص.
    2. استخراج کامنت‌های کاربران و برچسب‌های زمانی برای تحلیل احساسات.
    3. تولید گزارش‌های هفتگی از وضعیت برند در مقایسه با رقبا.
  • کیوریتوری خودکار محتوا

    ایجاد یک خبرنامه تکنولوژی با کیفیت بالا که فقط شامل مرتبط‌ترین داستان‌ها باشد.

    1. اسکرپ کردن صفحه اول هر ۶ ساعت یک بار.
    2. فیلتر کردن پست‌هایی که بیش از ۲۰۰ امتیاز دارند.
    3. اتوماسیون ارسال این لینک‌ها به یک ربات Telegram یا لیست ایمیل.
  • تولید لید برای سرمایه‌گذاری خطرپذیر (VC)

    کشف استارتاپ‌های مراحل اولیه که مورد توجه جدی جامعه کاربری قرار گرفته‌اند.

    1. ردیابی پست‌های 'Show HN' که به صفحه اول می‌رسند.
    2. مانیتور کردن نرخ رشد upvotes در ۴ ساعت اول.
    3. هشدار به تحلیلگران زمانی که یک پست الگوهای رشد وایرال نشان می‌دهد.
بیشتر از فقط پرامپت

گردش کار خود را با اتوماسیون AI

Automatio قدرت عامل‌های AI، اتوماسیون وب و ادغام‌های هوشمند را ترکیب می‌کند تا به شما کمک کند در زمان کمتر بیشتر انجام دهید.

عامل‌های AI
اتوماسیون وب
گردش‌کارهای هوشمند

نکات حرفه‌ای برای اسکرپ Hacker News

توصیه‌های تخصصی برای استخراج موفق داده از Hacker News.

برای جمع‌آوری داده‌های عظیم تاریخی از API رسمی Firebase استفاده کنید تا از پیچیدگی‌های HTML parsing جلوگیری شود.

همیشه یک User-Agent سفارشی تنظیم کنید تا هویت ربات خود را به‌طور مسئولانه اعلام کرده و از مسدود شدن فوری جلوگیری کنید.

یک بازه زمانی استراحت تصادفی (random sleep) بین ۳ تا ۷ ثانیه بین درخواست‌ها اعمال کنید تا رفتار مرور انسانی را شبیه‌سازی کنید.

زیرشاخه‌های خاص مانند newest/ برای اخبار تازه یا ask/ برای گفتگوهای جامعه کاربری را هدف قرار دهید.

برای جلوگیری از ثبت ورودی‌های تکراری هنگام اسکرپ کردن مداوم صفحه اول، 'Item ID' را به عنوان کلید اصلی (primary key) ذخیره کنید.

در ساعات کم‌ترافیک (شب به وقت UTC) اسکرپ کنید تا سرعت پاسخ‌دهی بالاتر و ریسک rate-limiting کمتری را تجربه کنید.

نظرات

کاربران ما چه می‌گویند

به هزاران کاربر راضی که گردش کار خود را متحول کرده‌اند بپیوندید

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

مرتبط Web Scraping

سوالات متداول درباره Hacker News

پاسخ سوالات رایج درباره Hacker News را بیابید