چگونه یک وب اسکرپر بسازیم در زبان برنامه نویسی سی شارپ؟
سلام دوستان
در این مقاله آموزشی قصد داریم یک Web Scraper با سی شارپ بسازیم و وب سایت Ocean Networks Canada را اسکرپ کنیم
به زبان ساده وب اسکرپر ها برای واکشی و جمع اوری اطلاعات حجیم به صورت استوماتیک استفاده می شوند
اول از همه ویژوال استادیو را باز کرده و یک پروژه از نوع windows forms ایجاد کنید
در مرحله بعدی باید ظاهر فرم را به شکل زیر در بیاورید

ناگت منیج پکیج را باز کنید و پکیج AngleSharp را نصب کنید
یک کلاس مانند زیر ایجاد کنید
 private string Title { get; set; }
    private string Url { get; set; }
    private string siteUrl = "https://www.oceannetworks.ca/news/stories";
    public string[] QueryTerms { get; } = {"Ocean", "Nature", "Pollution"};
    internal async void ScrapeWebsite()
    {
          CancellationTokenSource cancellationToken = new CancellationTokenSource();
          HttpClient httpClient = new HttpClient();
          HttpResponseMessage request = await httpClient.GetAsync(siteUrl);
          cancellationToken.Token.ThrowIfCancellationRequested();
          Stream response = await request.Content.ReadAsStreamAsync();
          cancellationToken.Token.ThrowIfCancellationRequested();
          HtmlParser parser = new HtmlParser();
          IHtmlDocument document = parser.ParseDocument(response);
    }
یک متد دیگر به صورت زیر ایجاد کنید
private string Title { get; set; }
    private string Url { get; set; }
    private string siteUrl = "https://www.oceannetworks.ca/news/stories";
    public string[] QueryTerms { get; } = {"Ocean", "Nature", "Pollution"};
    internal async void ScrapeWebsite()
    {
          CancellationTokenSource cancellationToken = new CancellationTokenSource();
          HttpClient httpClient = new HttpClient();
          HttpResponseMessage request = await httpClient.GetAsync(siteUrl);
          cancellationToken.Token.ThrowIfCancellationRequested();
          Stream response = await request.Content.ReadAsStreamAsync();
          cancellationToken.Token.ThrowIfCancellationRequested();
          HtmlParser parser = new HtmlParser();
          IHtmlDocument document = parser.ParseDocument(response);
    }
حالا اگر درست پیش رفته باشیم باید با استفاده از کد زیر لیست مقالات را مشاهده کنیم
 public void PrintResults(string term, IEnumerable<IElement> articleLink)
    {
          // Clean Up Results: See Next Step
          resultsTextbox.Text = $"{Title} - {Url}{Environment.NewLine}";
    }
برای پاک کردن تگ های html از میان دیتا اصلی از کد زیر استفاده می کنیم
 private void CleanUpResults(IElement result)
    {
          string htmlResult = result.InnerHtml.ReplaceFirst("        <span class=\"field-content\"><div><a href=\"", "https://www.oceannetworks.ca");
          htmlResult = htmlResult.ReplaceFirst("\">", "*");
          htmlResult = htmlResult.ReplaceFirst("</a></div>\n<div class=\"article-title-top\">", "-");
          htmlResult = htmlResult.ReplaceFirst("</div>\n<hr></span>  ", "");
          // Split Results: See Next Step
    }
در نهایت از متد زیر برای جدا سازی نتایج استفاده می کنیم
 private void SplitResults(string htmlResult)
    {
          string[] splitResults = htmlResult.Split('*');
          Url = splitResults[0];
          Title = splitResults[1];
    }

پایان.
 
	 
	 
                
                