c# 正则表达式对网页进行内容抓取-范文、应用文-IT技术专栏-网络编程-范文大全-在线学习网

网站首页汉语字词英语词汇考试资料写作素材旧版资料

标题	c# 正则表达式对网页进行内容抓取
范文	搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容。简单来说，就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分（我们这里不考虑图片）. 将HTML文本中的标记分为:注释,script ,style，以及其他标记分别去掉： 1.去注释,正则为: output = Regex.Replace(input, @"<!--[^-]-->", string.Empty, RegexOptions.IgnoreCase); 2.去script,正则为: ouput = Regex.Replace(input, @"<script[^>]?>.?</script>", string.Empty, RegexOptions.IgnoreCase \| RegexOptions.Singleline); output2 = Regex.Replace(ouput , @"<noscript[^>]?>.?</noscript>", string.Empty, RegexOptions.IgnoreCase \| RegexOptions.Singleline); 3.去style,正则为: output = Regex.Replace(input, @"<style[^>]?>.?</style>", string.Empty, RegexOptions.IgnoreCase \| RegexOptions.Singleline); 4.去其他HTML标记 result = result.Replace(" ", " "); result = result.Replace(""", "\""); result = result.Replace("<", "<"); result = result.Replace(">", ">"); result = result.Replace("&", "&"); result = result.Replace("<br>", "\r\n"); result = Regex.Replace(result, @"<[\s\S]?>", string.Empty, RegexOptions.IgnoreCase); 以上的代码中大家可以看到,我使用了RegexOptions.Singleline参数，这个参数很重要，他主要是为了让"."(小圆点)可以匹配换行符.如果没有这个参数，大多数情况下，用上面列正则表达式来消除网页HTML标记是无效的. HTML发展至今，语法已经相当复杂,上面只列出了几种最主要的标记,更多的去HTML标记的正则我将在 Rost WebSpider 的开发过程中补充进来。下面用c#实现了一个从HTML字符串中提取有效内容的类: using System; using System.Collections.Generic; using System.Text; using System.Text.RegularExpressions; class HtmlExtract { #region private attributes private string _strHtml; #endregion #region public mehtods public HtmlExtract(string inStrHtml) { _strHtml = inStrHtml } public override string ExtractText() { string result = _strHtml; result = RemoveComment(result); result = RemoveScript(result); result = RemoveStyle(result); result = RemoveTags(result); return result.Trim(); } #endregion #region private methods private string RemoveComment(string input) { string result = input; //remove comment result = Regex.Replace(result, @"<!--[^-]-->", string.Empty, RegexOptions.IgnoreCase); return result; } private string RemoveStyle(string input) { string result = input; //remove all styles result = Regex.Replace(result, @"<style[^>]?>.?</style>", string.Empty, RegexOptions.IgnoreCase \| RegexOptions.Singleline); return result; } private string RemoveScript(string input) { string result = input; result = Regex.Replace(result, @"<script[^>]?>.?</script>", string.Empty, RegexOptions.IgnoreCase \| RegexOptions.Singleline); result = Regex.Replace(result, @"<noscript[^>]?>.?</noscript>", string.Empty, RegexOptions.IgnoreCase \| RegexOptions.Singleline); return result; } private string RemoveTags(string input) { string result = input; result = result.Replace(" ", " "); result = result.Replace(""", "\""); result = result.Replace("<", "<"); result = result.Replace(">", ">"); result = result.Replace("&", "&"); result = result.Replace("<br>", "\r\n"); result = Regex.Replace(result, @"<[\s\S]?>", string.Empty, RegexOptions.IgnoreCase); return result; } #endregion
随便看	2022秋天的景色话题作文6篇最新小升初往年的满分作文10篇小升初满分作文精选10篇欢庆国庆话题作文8篇【精选】小升初满分优秀作文10篇欢度中秋作文600字20篇欢庆国庆作文600字10篇大全关于中华美德话题作文5篇合集以守望为作文600字精选春天的景色600字作文关于弘扬美德话题作文弘扬美德优秀范文美丽中国话题作文精选 2021维护民族团结优秀作文（15篇） 2021民族团结600字作文精选【10篇】 2021民族团结600字话题作文大全小学生民族团结作文大全10篇以共同抗疫作文600字合集 2022民族团结优秀作文600字左右（15篇）以我的朋友话题作文精选10篇我的朋友话题作文大全【10篇】描写长城的优秀作文300字【20篇】关于给党的一封信10篇学会了感恩600字作文小升初的满分作文5篇 stare in the face start back start for start from start in start off／out start up start with starve for starve out 围脖围腰围范围裙围裹围观围边菜围追围阻围随盐城工业职业技术学院2015年招聘拟聘用人员名单公示 2015年佛山市南海区创建办招聘政府辅助工作人员公告保山市2015年事业单位招聘报名数据每日更新怀化学院2015年第二次招聘计划及要求表 2015年佛山市南海区创建办招聘政府辅助工作人员职位表 2015年广州市萝岗区九龙镇招聘专业技术人员(土木工程/水电工程)延期报名时间公告佛山市高明区公益一类医疗卫生事业单位2014年上半年招聘拟录用工作人员(第四批)公示共青团广州市委直属事业单位2015年第一次招聘工作人员公告共青团广州市委直属事业单位2015年第一次招聘人员岗位需求表广东省气象部门2015年招聘事业单位工作人员网上报名时间及打印准考证时间

在线学习网范文大全提供好词好句、学习总结、工作总结、演讲稿等写作素材及范文模板，是学习及工作的有利工具。