代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Asp.Net
】
正文提取中用到的正则表达式
作者:
Dezai.CN
/ 发布于
2011/9/21
/
799
<div>region 相关正则表达式 /// <summary> /// 去掉所有html标签 /// </summary> private static readonly Regex FilterAll = new Regex( @"(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?<lj>(?=[^\u4E00-\u9FA5\uFE30-\uFFA0,."");])<a\s+[^>]*>[^<]{2,}</a>(?=[^\u4E00-\u9FA5\uFE30-\uFFA0,."");]))|(?<Style><style[\s\S]+?/style>)|(?<select><select[\s\S]+?/select>)|(?<Script><script[\s\S]*?/script>)|(?<Explein><\!\-\-[\s\S]*?\-\->)|(?<li><li(\s+[^>]+)?>[\s\S]*?/li>)|(?<Html></?\s*[^> ]+(\s*[^=>]+?=['""]?[^""']+?['""]?)*?[^\[<]*>)|(?<Other>&[a-zA-Z]+;)|(?<Other2>\#[a-z0-9]{6})|(?<Space>\s+)|(\&\#\d+\;)", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); //(?<Link><a[\s\S]*?</a>)| //(?<Style><style[\s\S]+?/style>)|(?<select><select[\s\S]+?/select>)|(?<Script><script[\s\S]*?/script>)|(?<Explein><\!\-\-[\s\S]*?\-\->)|(?<li><li(\s+[^>]+)?>[\s\S]*?/li>)|(?<Html></?\s*[^> ]+(\s*[^=>]+?=['""]?[^""']+?['""]?)*?[^\[<]*>)|(?<Other>&[a-zA-Z]+;)|(?<Other2>\#[a-z0-9]{6})|(?<Space>\s+) /// <summary> /// 找出title标签 /// </summary> private static readonly Regex FindTitle = new Regex( @"<\s*/?title\s*>", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出title标签内容 /// </summary> private static readonly Regex FindTitleContent = new Regex( @"<\s*/?title\s*>(?<Content>[\s\S]*?)<\s*/?title\s*>", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出h 和Strong标签 /// </summary> private static readonly Regex FindHStrong = new Regex( @"<\s*/?h\s*>|<\s*/?strong\s*>", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出p 和br标签 /// </summary> private static readonly Regex FindPB = new Regex( @"<\s*/?p\s*>|<\s*br\s*/?>|<\s*/?tr\s*>", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出nbsp标签 /// </summary> private static readonly Regex FindNbsp = new Regex( @" ", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出结尾标签 /// </summary> private static readonly Regex FindS = new Regex( @"(?<Content>[\s\S]*?)\$", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出是否为标准句 /// </summary> private static readonly Regex IsSen = new Regex( @"[,.,。!!;;::……??《》“”""]", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出是否为垃圾句[strong][h]标签过多的 /// </summary> private static readonly Regex IsWs = new Regex( @"\[\(h\)\]", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出是否为垃圾句冒号和·-过多的 /// </summary> private static readonly Regex IsWsM = new Regex( @"\[·]|[-]|[::]", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出是否为BBS特征 /// </summary> private static readonly Regex IsBbsInfo = new Regex( @"第[^楼]{1,50}楼|Powered\s*/?by[\s\S]*?Dvbbs|Powered\s*/?by[\s\S]*?Discuz", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 取KEYWORD /// </summary> private static readonly Regex mKeyWord = new Regex( @"<meta\s*name\s*=\s*['""]?keywords['""]?\s*content\s*=\s*['""]?(?<KeyWords>[^'"">]*)['""]?[^>]*>|<meta\s*content\s*=\s*['""]?(?<KeyWords>[^'"">]*)['""]?\s*name\s*=\s*['""]?keywords['""]?\s*[^>]*> ",RegexOptions.ExplicitCapture| RegexOptions.Multiline| RegexOptions.IgnoreCase); /// <summary> /// 取DESCRIPTION /// </summary> private static readonly Regex mDescription = new Regex( @"<meta\s*name\s*=\s*['""]?description['""]?\s*content\s*=\s*['""]?(?<description>[^'"">]*)['""]?[^>]*>|<meta\s*content\s*=\s*['""]?(?<description>[^'"">]*)['""]?\s*name\s*=\s*['""]?description['""]?\s*[^>]*> ",RegexOptions.ExplicitCapture| RegexOptions.Multiline| RegexOptions.IgnoreCase); /// <summary> /// 取Tags /// </summary> private static readonly Regex mTag = new Regex( @"<meta\s*name\s*=\s*['""]?tagwords['""]?\s*content\s*=\s*['""]?(?<tagwords>[^'"">]*)['""]?[^>]*>|<meta\s*content\s*=\s*['""]?(?<tagwords>[^'"">]*)['""]?\s*name\s*=\s*['""]?tagwords['""]?\s*[^>]*> ", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出是否为垃圾句:后字符号过少,:号前无“说”字,:号后无"关于" /// </summary> private static readonly Regex IsWsMM = new Regex( @"^[^说\s]{0,8}?[::].{0,10}$", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出spider写入的url标记 /// </summary> private static readonly Regex txtUrl = new Regex( @"当前URL为:http://(?<URL>.*)", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); /// <summary> /// 找出spider写入的锚点描述标记 /// </summary> private static readonly Regex txtDescription = new Regex( @"当前链接描述为:(?<Describe>.*)", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); ///// <summary> ///// 取需要a标签 ///// </summary> //private static readonly Regex cleanFirst = new Regex( // @"([\u4E00-\u9FA5]|[\uFE30-\uFFA0]|[,."");])(?<Robbish1><a\s+[^>]*>)[^<]{1,6}(?<Robbish2></a>)([\u4E00-\u9FA5]|[\uFE30-\uFFA0]|[,."");])", RegexOptions.ExplicitCapture | RegexOptions.Multiline | RegexOptions.IgnoreCase); #endregion</div>
试试其它关键字
正则表达式
同语言下
.
gzip压缩
.
实现http多线程断点续传下载文件
.
实现多线程断点续传下载大文件
.
生成字符串的 CheckSum
.
根据 UserAgent 获取浏览器的类型和版本
.
根据 Agent 判断是否是智能手机
.
隐藏手机号中间四位为*方法
.
合并图片(二维码和其他图片合并)
.
ASP.NET CORE中判断是否移动端打开网页
.
ASP.NET(C#)实现页面计时(定时)自动跳转
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
Dezai.CN
贡献的其它代码
(
4037
)
.
多线程Socket服务器模块
.
生成随机密码
.
清除浮动样式
.
弹出窗口居中
.
抓取url的函数
.
使用base HTTP验证
.
div模拟iframe嵌入效果
.
通过header转向的方法
.
Session操作类
.
执行sqlite输入插入操作后获得自动编号的ID
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3