博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
高速抓取某个站点内容方法
阅读量:6994 次
发布时间:2019-06-27

本文共 825 字,大约阅读时间需要 2 分钟。

是不是有人相抓取网页上面的内容。放到别的站点上面。以下我给大家介绍一种最经常使用的方法:

HtmlAgilityPack 组件。

public String GetHtml()        {            string url = "http://t.news.fx168.com/";            HttpWebRequest request = HttpWebRequest.Create(url) as HttpWebRequest;            using (HttpWebResponse response = request.GetResponse() as HttpWebResponse)            {                using (Stream stream = response.GetResponseStream())                {                    HtmlDocument doc = new HtmlDocument();                    doc.Load(stream, System.Text.Encoding.UTF8);                    HtmlNode node = doc.DocumentNode.SelectSingleNode("//div[@class='hzh_FX168_news_main_left_listbg3']");                    return node.InnerHtml;                }            }        }

大家能够执行下试试,抓取了火线速递的内容页面新闻列表。

抓取规则是抓取DIV的CLASS为hzh_FX168_news_main_left_listbg3内的内容。

转载地址:http://kksvl.baihongyu.com/

你可能感兴趣的文章
Java-第一个Java程序
查看>>
简单介绍下Docker命令
查看>>
UWP 判断windows mobile是使用的实体键还是虚拟按键
查看>>
[CF235E]Number Challenge
查看>>
PHP——字符串统一转码为GBK,自动判断是否UTF8并转码
查看>>
python smtplib.SMTPDataError: (554
查看>>
模拟 --- 简单括号匹配
查看>>
基于python的selenium自动化测试环境搭建
查看>>
Latex
查看>>
Handler一定要在主线程实例化吗?new Handler()和new Handler(Looper.getMainLooper())的区别...
查看>>
Day14 Javascript 点击添加出弹窗,取消隐藏弹窗小练习 反选,全选,取消边框...
查看>>
解决scipy安装(pip install scipy)失败,以及其他问题
查看>>
POJ 3259 Wormholes (最短路)
查看>>
CentOS6.5配置PHP CI程序
查看>>
【ntp时间校准配置】
查看>>
实用函数及STL
查看>>
asp.net实现数据库版动态网页滑动门
查看>>
[Asp.net]Uploadify上传大文件,Http error 404 解决方案
查看>>
C#获取电脑型号、系统版本、内存大小、硬盘大小、CPU信息
查看>>
浅析Tomcat
查看>>