• 大小: 7.21KB
    文件类型: .cs
    金币: 1
    下载: 0 次
    发布日期: 2020-12-26
  • 语言: C#
  • 标签: HTML  

资源简介

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using HtmlAgilityPack;
using System.Net;

namespace PacksModels
{
    public class HtmlAgilityPackHelper
    {
        public static string getHtml(string url, string charSet)
        {
            string html = QueryHtml(url, charSet);
            while (html == "isExp"||html==null)
            {
                html = QueryHtml(url, charSet);
            }

            return html;
        }

        //获取网页源码
        public static string QueryHtml(string url, string charSet)
        {
            bool isExp = false;

            Byte[] pageData = null;
            XWebClient wc = new XWebClient();
            try
            {
                if (url == null || url.Trim() == "")
                    return null;
                //XWebClient wc = new XWebClient();
                wc.Credentials = CredentialCache.DefaultCredentials;
                wc.Headers["User-Agent"] = "blah";

                //Helpers.WriteLog("下载html资源开始:" url, "Log\\error.log");
                pageData = wc.DownloadData(url);
                //Helpers.WriteLog("下载html资源结束:" url, "Log\\error.log");

            }
            catch (WebException ex)
            {             
                isExp = true;
                if (ex.ToString().Contains("未能解析此远程名称"))
                {
                    Helpers.WriteLog("未能解析此远程名称,请检查网络,正在重试下载此资源...:" DateTime.Now.ToString() ":" url, "Log\\error.log");
                }
                else if (ex.ToString().Contains("操作超时") || ex.ToString().Contains("操作已超时"))
                {
                    Helpers.WriteLog("操作超时,请检查资源请求频率,正在重试下载此资源...:" DateTime.Now.ToString() ":" url, "Log\\error.log");
                }
                else
                {
                    Helpers.WriteLog("发送请求期间异常,请检查网络:" DateTime.Now.ToString() ":" ex.ToString(), "Log\\error.log");
                }
                //释放资源
                wc.Dispose();
                Helpers.WriteLog("释放资源等1分钟重试:" DateTime.Now.ToString() ":" url, "Log\\error.log");//
                System.Threading.Thread.Sleep(60000); //延时30秒
                Helpers.WriteLog("开始重试:" DateTime.Now.ToString() ":" url, "Log\\error.log");//
            }
            if (pageData == null)
            {
                return null;
            }
            else if (isExp)
            {
                return "isExp";
            }

            string charset = "";
            var r_utf8 = new System.IO.StreamReader(new System.IO.MemoryStream(pageData), Encoding.UTF8); //将html放到utf8编码的StreamReader内
            var r_gbk = new System.IO.StreamReader(new System.IO.MemoryStream(pageData), Encoding.Default); //将html放到gbk编码的StreamReader内
            var t_utf8 = r_utf8.ReadToEnd(); //读出html内容
            var t_gbk = r_gbk.ReadToEnd(); //读出html内容

            bool aa = isLuan(t_utf8);
            bool bb = isLuan(t_gbk);

            bool aa1 = isLuan1(t_utf8);
            bool bb1 = isLuan1(t_gbk);

            if (!isLuan(t_utf8)) //判断utf8是否有乱码
            {
                charset = "utf-8";
            }
            else
            {
                charset = "gbk";
            }

            //System.Threading.Thread.Sleep(60000); //延时1分钟

            return Encoding.GetEncoding(charset).GetString(pageData);
        }


        /// <summary>
        /// 判断是否有乱码
        /// </summary>
        /// <param name="txt">需判断的文本</param>
        /// <returns></returns>
        private static bool isLuan(string txt)
        {
            var bytes = Encoding.UTF8.GetBytes(txt);
            //239 191 189
            for (var i = 0; i < bytes.Length; i )
            {
                if (i < bytes.Length - 3)
                    if (bytes[i] == 239 && bytes[i 1] == 191 && bytes[i 2] == 189)
                    {
                        return true;
                    }
            }
            return false;
        }


        private static bool isLuan1 (string txt)
        {
            var bytes = Encoding.ASCII.GetBytes(txt);
            //239 191 189
            for (var i = 0; i < bytes.Length; i )
            {
                //if (i < bytes.Length - 3)
                //    if (bytes[i] == 239 && bytes[i 1] == 191 && bytes[i 2] == 189)
                //    {
                //        return true;
                //    }

                if (bytes[i]>255)
                {
                    return true;
                }
            }
            return false;
        }


        /**///// <summary>
        /// 判断句子中是否含有中文
        /// </summary>
        /// <param >字符串</param>
        private static bool WordsIScn(string words)
        {
            string TmmP;
            for (int i = 0; i < words.Length; i )
            {
                TmmP = words.Substring(i, 1);
                byte[] sarr = System.Text.Encoding.GetEncoding("gb2312").GetBytes(TmmP);
                if (sarr.Length == 2)
                {
                    return true;
                }
            }
            return false;
        }



        /// <summary>
        /// 获得html代码块的节点集合
        /// </summary>
        /// <param name="url"></param>
        /// <param name="xpath"></param>
        /// <returns></returns>
        public static HtmlNodeCollection GetHtmlNodes(string url, string xpath)
        {
            HtmlNodeCollection navNodes = null;
            try
            {
                //获取html源码
                string htmlStr = getHtml(url.Trim(), "");
                //实例化HtmlAgilityPack.HtmlDocument对象
                HtmlDocument doc = new HtmlDocument();
                //载入HTML
                doc.LoadHtml(htmlStr);

                //根据Xpath节点NODE的ID获取节点集
                navNodes = doc.DocumentNode.SelectNodes(xpath);
            }
            catch (Exception ex)
            {
                Helpers.WriteLog("获取节点集异常:" ex.ToString() ":" url, "Log\\error.log");
            }
            return navNodes;
        }

        /// <summary>
        /// 获得html代码的节点
        /// </summary>
        /// <param name="url"></param>
        /// <param name="xpath"></param>
        /// <returns></returns>
        public static HtmlNode GetNode(HtmlDocument doc, string xpath)
        {
            //根据节点
            HtmlNode navNode = null;
            try
            {
                navNode = doc.DocumentNode.SelectSingleNode(xpath);
            }
            catch (Exception ex)
            {
                Helpers.WriteLog("获取单节点异常:" ex.ToString(), "Log\\error.log");
            }
            return navNode;
        }








    }
}

资源截图

代码片段和文件信息

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using HtmlAgilityPack;
using System.Net;

namespace PacksModels
{
    public class HtmlAgilityPackHelper
    {
        public static string getHtml(string url string charSet)
        {
            string html = QueryHtml(url charSet);
            while (html == “isExp“||html==null)
            {
                html = QueryHtml(url charSet);
            }

            return html;
        }

        //获取网页源码
        public static string QueryHtml(string url string charSet)
        {
            bool isExp = false;

            Byte[] pageData = null;
            XWebClient wc = new XWebClient();
            try
            {
               

评论

共有 条评论