• 大小: 715KB
    文件类型: .rar
    金币: 2
    下载: 0 次
    发布日期: 2024-02-05
  • 语言: C#
  • 标签: 数据库  抓取数据  

资源简介

包含省市区街道4级数据,sql数据表,还有一个用c#写的抓取国家统计局最新数据的程序,可以扩展成5级!

资源截图

代码片段和文件信息

using System;
using System.Collections.Generic;
using System.IO;
using System.Net;
using System.Text;
using System.Text.Regularexpressions;
using System.Web;

/// 
///     网页采集辅助类
/// 

public static class Collectionhelper
{
    /// 
    ///     取得字符里的Dom元素 不包含元素属性
    /// 

    /// 
    /// 
    /// 
    public static List GetDomElem(string source string domElem)
    {
        var matchList = new List();
        string regStr = string.Format(“<{0}[^>]*?>[\\s\\S]+?<\\/{0}>“ domElem);
        try
        {
            var regex = new Regex(regStr RegexOptions.Compiled | RegexOptions.IgnoreCase);
            MatchCollection matches = regex.Matches(source);
            foreach (Match match in matches)
            {
                matchList.Add(match.Value);
            }
        }
        catch (Exception ex)
        {
            matchList.Add(ex.Message);
        }
        return matchList;
    }

    /// 
    ///     取得字符里的Dom元素 包含元素属性 如:class=“aa“
    /// 

    /// 
    /// 
    /// 
    /// 
    public static List GetDomElemByAttr(string source string tagName string tagValue)
    {
        var matchList = new List();
        string regStr =
            string.Format(
                @“<(?[\w]+)[^>]*\s{0}[\s]*?=[\s]*?(?[““‘]?){1}(?(Quote)\k)[““‘]?[^>]*>((?<\k[^>]*>)|>(?<-Nested>)|[\s\S]*?)*>“
                tagName.ToLower() tagValue);
        try
        {
            var regex = new Regex(regStr RegexOptions.Compiled | RegexOptions.IgnoreCase);
            var matches = regex.Matches(source);
            foreach (Match match in matches)
            {
                matchList.Add(match.Value);
            }
        }
        catch (Exception ex)
        {
            matchList.Add(ex.Message);
        }
        return matchList;
    }

    /// 
    ///     取得字符里的A元素键值对  [name,url]
    /// 

    /// 
    /// 
    public static Dictionary GetDomElem_A(string source)
    {
        var matchList = new Dictionary();
        const string pattern = “]*? href=[\“‘](?[^\“‘]*?)[\“‘][^>]*?>(?[\\w\\W]*?)“;
        try
        {
            var regex = new Regex(pattern RegexOptions.Compiled | RegexOptions.IgnoreCase);
            MatchCollection matches = regex.Matches(source);

            foreach (Match match in matches)
            {
                string key = RemoveHtml(match.Value);
                if (!matchList.ContainsKey(key))
                {
                    matchList.Add(key GetUrlArray(matc

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件       9891  2016-06-29 17:44  省市区街道\Collectionhelper.cs

     文件        460  2018-11-06 16:50  省市区街道\data\Default.aspx

     文件      10026  2018-11-08 14:54  省市区街道\data\Default.aspx.cs

     文件        535  2018-11-08 10:16  省市区街道\Whir_Cmn_Area.cs

     文件   32440950  2018-11-08 14:57  省市区街道\截止2017年10月31日.sql

     目录          0  2018-11-08 15:05  省市区街道\data

     目录          0  2018-11-08 15:05  省市区街道

----------- ---------  ---------- -----  ----

             32461862                    7


评论

共有 条评论