• 大小: 1.12MB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2023-10-31
  • 语言: C#
  • 标签: c#  

资源简介

c# 网页抓取分析 表格图形生成 数据挖掘

资源截图

代码片段和文件信息

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Text;
using System.Windows.Forms;
using System.Text.Regularexpressions;
using System.Collections.Specialized;

namespace WebCount
{
    public partial class mainForm : Form
    {
        int[] ipage;//记录已经处理的页面
        NameValueCollection nvc; //解析Url用
        public mainForm()
        {
            ipage = new int[10];
            //webBrowser1 = new System.Windows.Forms.WebBrowser();
            //this.webBrowser1.Location = new System.Drawing.Point(0 40);
            //this.webBrowser1.Name = “webBrowserShow“;
            //Controls.Add(this.webBrowser1);
            InitializeComponent();
            //this.webBrowser1.Size = new Size(this.Size.Width 200);
        }

        private void button1_Click(object sender EventArgs e)
        {
            webBrowser1.Navigate(tbUrl.Text“_self“);
        }

        private void mainForm_SizeChanged(object sender EventArgs e)
        {
            //this.webBrowser1.Size = new Size(this.Size.Width 200);
        }

        private void mainForm_Load(object sender EventArgs e)
        {

        }

        private void webBrowser1_DocumentCompleted(object sender WebBrowserDocumentCompletedEventArgs e)
        {
            if (webBrowser1.Document.Url != e.Url && e.Url.AbsoluteUri != “about:blank“) return;
            string strUri = webBrowser1.Url.AbsoluteUri;
            string baseUri;
            ParseUrl(strUriout baseUriout nvc);
            if (nvc.Count!=0&&int.Parse(nvc.Get(“pageNO“)) > 10) //十页以后不再记录
                return;
            ParsePage(); //解析当前页面,向下一页面跳转

        }
        private void ParsePage()
        {
            System.Windows.Forms.HtmlDocument document = this.webBrowser1.Document;
            HtmlElement btn = null;
            int i=0;
            string bbstitle;
            string bbsurl;
            string bbsauthor;
            int bbsview;
            int bbsreply;
            string bbsuptime;
            foreach (HtmlElement htmelt in document.GetElementsByTagName(“table“))
            {
                if (i > 14)
                {
                    HtmlElement htmtr = htmelt.GetElementsByTagName(“tr“)[0];
                    if (htmtr.GetAttribute(“bgcolor“) == “#6699cc“) 
                            break;
                    int j = 0;
                    foreach (HtmlElement htmtd in htmelt.GetElementsByTagName(“td“))
                    {
                        switch (j)
                        { 
                            case 0:
                                break;
                            case 1:
                                HtmlElement htmtltle = htmtd.GetElementsByTagName(“a“)[0];
                                bbstitle = htmtltle.InnerText;
                                bbsurl = htmtltle.GetAttribute(“href“);
       

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        914  2008-06-18 09:12  数据抓取程序\WebCount.sln

    ..A..H.     38400  2010-12-23 01:26  数据抓取程序\WebCount.suo

     文件        913  2008-06-12 21:57  数据抓取程序\Backup\WebCount.sln

     文件      17408  2008-06-13 21:22  数据抓取程序\Backup\WebCount.suo

     文件        427  2008-06-13 21:20  数据抓取程序\Backup\WebCount\app.config

     文件     147456  2008-06-14 00:23  数据抓取程序\Backup\WebCount\bbstopic.mdb

     文件       5469  2008-06-13 21:19  数据抓取程序\Backup\WebCount\Form1.cs

     文件       4984  2008-06-13 21:19  数据抓取程序\Backup\WebCount\Form1.Designer.cs

     文件       5814  2008-06-13 21:19  数据抓取程序\Backup\WebCount\Form1.resx

     文件        470  2008-06-12 21:58  数据抓取程序\Backup\WebCount\Program.cs

     文件       3404  2008-06-13 21:22  数据抓取程序\Backup\WebCount\WebCount.csproj

     文件       1188  2008-06-12 21:57  数据抓取程序\Backup\WebCount\Properties\AssemblyInfo.cs

     文件       2870  2008-06-12 21:57  数据抓取程序\Backup\WebCount\Properties\Resources.Designer.cs

     文件       5612  2008-06-12 21:57  数据抓取程序\Backup\WebCount\Properties\Resources.resx

     文件       1742  2008-06-13 21:20  数据抓取程序\Backup\WebCount\Properties\Settings.Designer.cs

     文件       1041  2008-06-13 21:20  数据抓取程序\Backup\WebCount\Properties\Settings.settings

     文件        427  2008-06-13 21:20  数据抓取程序\WebCount\app.config

     文件    1974272  2008-09-08 16:33  数据抓取程序\WebCount\bbstopic.mdb

     文件        508  2008-06-16 21:31  数据抓取程序\WebCount\CMD5.cs

     文件      13356  2008-07-02 09:00  数据抓取程序\WebCount\DataAccess.cs

     文件      12138  2008-07-02 08:56  数据抓取程序\WebCount\Form1.cs

     文件      23007  2008-06-24 09:40  数据抓取程序\WebCount\Form1.Designer.cs

     文件      45085  2008-06-24 09:40  数据抓取程序\WebCount\Form1.resx

     文件       5656  2008-06-30 15:15  数据抓取程序\WebCount\FormChart.cs

     文件       6201  2008-06-30 15:13  数据抓取程序\WebCount\FormChart.Designer.cs

     文件       7295  2008-06-30 15:13  数据抓取程序\WebCount\FormChart.resx

     文件       1612  2008-06-18 15:20  数据抓取程序\WebCount\Inf_bbstopic.cs

     文件       2114  2008-06-20 11:31  数据抓取程序\WebCount\Inf_Chart.cs

     文件        470  2008-06-12 21:58  数据抓取程序\WebCount\Program.cs

     文件       5835  2008-06-24 21:43  数据抓取程序\WebCount\WebCount.csproj

............此处省略72个文件信息

评论

共有 条评论