代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
CSharp
】
简单的网络爬虫
作者:
Dezai.CN
/ 发布于
2011/8/7
/
551
<div>/* MiniCrawler: A skeletal Web crawler. Usage: To start crawling, specify a starting URI on the command line. For example, to start at McGraw-Hill.com use this command line: MiniCrawler <a href="http://McGraw-Hill.com">http://McGraw-Hill.com</a> */ using System; using System.Net; using System.IO; class MiniCrawler { // Find a link in a content string. static string FindLink(string htmlstr, ref int startloc) { int i; int start, end; string uri = null; string lowcasestr = htmlstr.ToLower(); i = lowcasestr.IndexOf("href=\"http", startloc); if(i != -1) { start = htmlstr.IndexOf('"', i) + 1; end = htmlstr.IndexOf('"', start); uri = htmlstr.Substring(start, end-start); startloc = end; } return uri; } static void Main(string[] args) { string link = null; string str; string answer; int curloc; // holds current location in response if(args.Length != 1) { Console.WriteLine("Usage: MiniCrawler <uri>"); return ; } string uristr = args[0]; // holds current URI try { do { Console.WriteLine("Linking to " + uristr); // Create a WebRequest to the specified URI. HttpWebRequest req = (HttpWebRequest) WebRequest.Create(uristr); uristr = null; // disallow further use of this URI // Send that request and return the response. HttpWebResponse resp = (HttpWebResponse) req.GetResponse(); // From the response, obtain an input stream. Stream istrm = resp.GetResponseStream(); // Wrap the input stream in a StreamReader. StreamReader rdr = new StreamReader(istrm); // Read in the entire page. str = rdr.ReadToEnd(); curloc = 0; do { // Find the next URI to link to. link = FindLink(str, ref curloc); if(link != null) { Console.WriteLine("Link found: " + link); Console.Write("Link, More, Quit?"); answer = Console.ReadLine(); if(string.Compare(answer, "L", true) == 0) { uristr = string.Copy(link); break; } else if(string.Compare(answer, "Q", true) == 0) { break; } else if(string.Compare(answer, "M", true) == 0) { Console.WriteLine("Searching for another link."); } } else { Console.WriteLine("No link found."); break; } } while(link.Length > 0); // Close the Response. resp.Close(); } while(uristr != null); } catch(WebException exc) { Console.WriteLine("Network Error: " + exc.Message + "\nStatus code: " + exc.Status); } catch(ProtocolViolationException exc) { Console.WriteLine("Protocol Error: " + exc.Message); } catch(UriFormatException exc) { Console.WriteLine("URI Format Error: " + exc.Message); } catch(NotSupportedException exc) { Console.WriteLine("Unknown Protocol: " + exc.Message); } catch(IOException exc) { Console.WriteLine("I/O Error: " + exc.Message); } Console.WriteLine("Terminating MiniCrawler."); } } </div>
试试其它关键字
军军
同语言下
.
文件IO 操作类库
.
Check图片类型[JPEG(.jpg 、.jpeg),TIF,GIF,BMP,PNG,P
.
机器名和IP取得(IPV4 IPV6)
.
Tiff转换Bitmap
.
linqHelper
.
MadieHelper.cs
.
RegHelper.cs
.
如果关闭一个窗体后激活另一个窗体的事件或方法
.
创建日志通用类
.
串口辅助开发类
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
Dezai.CN
贡献的其它代码
(
4037
)
.
多线程Socket服务器模块
.
生成随机密码
.
清除浮动样式
.
弹出窗口居中
.
抓取url的函数
.
使用base HTTP验证
.
div模拟iframe嵌入效果
.
通过header转向的方法
.
Session操作类
.
执行sqlite输入插入操作后获得自动编号的ID
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3