正则表达式删除指定的HTML标签-范文、应用文-IT技术专栏-网页制作-考试资料-在线学习网

网站首页汉语字词英语词汇考试资料写作素材旧版资料

标题	正则表达式删除指定的HTML标签
内容	抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的HTML标签而打乱了格式,也可能它里面用了比较让人 "费解" 的HTML标签,把预订的格式搅乱. 如果全盘删除里面的 HTML 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分. 正则表达式里,判断包含某些字符串是非常容易理解的,但是如何判断不包含某些字符串 (是字符串,不是字符,是某些,不是某个) 确实是个费解的事. <(?!((/?s?li)\|(/?s?ul)\|(/?s?a)\|(/?s?img)\|(/?s?br)\|(/?s?span)\|(/?s?b)))[^>]+> 这个正则是判断HTML标签不包含 li / ul / a / img / br / span / b 的,就上面的要求来说,是要删除除这里列出的HTML标签,这也是我摸索了很长时间才搞出来的. (?!exp) 匹配后面跟的不是exp的位置 /?s? 我一开始试着把它写到最前面的 < 后面,但是测试失败了. 下面是一个简单的函数,把要保留的TAG串起来,生成一个正则表达式,然后把不需要的TAG删除... private static string RemoveSpecifyHtml(string ctx) { string[] holdTags = { "a", "img", "br", "strong", "b", "span" };//要保留的 tag // <(?!((/?s?li)\|(/?s?ul)\|(/?s?a)\|(/?s?img)\|(/?s?br)\|(/?s?span)\|(/?s?b)))[^>]+> string regStr = string.Format(@"<(?!((/?s?{0})))[^>]+>", string.Join(@")\|(/?s?", holdTags)); Regex reg = new Regex(regStr, RegexOptions.Compiled \| RegexOptions.Multiline \| RegexOptions.IgnoreCase); return reg.Replace(ctx, ""); } ---------------------------- 修正: 上面的正则,如果保留了 li , 实际运行会发现 link 也给保留下来了, 保留 a 会把 addr 也给保留下来, 解决办法就是加 b 断言. <(?!((/?s?lib)\|(/?s?ul)\|(/?s?ab)\|(/?s?imgb)\|(/?s?brb)\|(/?s?spanb)\|(/?s?bb)))[^>]+> private static string RemoveSpecifyHtml(string ctx) { string[] holdTags = { "a", "img", "br", "strong", "b", "span", "li" };//保留的 tag // <(?!((/?s?lib)\|(/?s?ulb)\|(/?s?ab)\|(/?s?imgb)\|(/?s?brb)\|(/?s?spanb)\|(/?s?bb)))[^>]+> string regStr = string.Format(@"<(?!((/?s?{0})))[^>]+>", string.Join(@"b)\|(/?s?", holdTags)); Regex reg = new Regex(regStr, RegexOptions.Compiled \| RegexOptions.Multiline \| RegexOptions.IgnoreCase); return reg.Replace(ctx, ""); }
随便看	盐城市国际交流中心2016年招聘高层次韩语人才的公告 2016年阜阳市临泉县事业单位招聘人员笔试符合加分条件服务基层项目人员公示 2016年盐城市妇幼保健院招聘学科带头人进入体检/考察环节人员名单公布佛山市南海区创建办2016年第一批拟聘用政府辅助工作人员公示盐城市第一人民医院2016年招聘硕士研究生拟聘用人员名单公示(第一批) 2016年泰州市泰州市人民政府办公室选调文字骨干人员的通告 2016上半年徐州市区属事业单位招聘工作人员进入面试公示 2016年佛山市顺德区妇幼保健院招聘第一批拟聘人员名单公示(第一期) 山东中医药大学附属医院2016年度非事业编制招聘体检名单及体检通知 2016年北京市公共卫生信息中心招聘工作人员笔试考试通知 2016年国家自然科学基金委员会重新招聘政策局法规处工作人员启事中国水利水电科学研究院2016年应届博士研究生及出站博士后拟录用人员名单公告中国水利水电科学研究院2016年招聘拟录用人员名单公告 2016年中国科学院遗传与发育生物学研究所周俭民研究组博士后招聘启事 2016年青岛市直属公立医院及部分单位招聘高级人才第一批通过网上审核人员名单 2016年广州空港经济区投资服务中心选调事业单位工作人员进入体检人员名单 2016年青岛阜外心血管病医院招聘信息公示 2016年淮南市教育局所属部分学校招聘硕士研究生专业测试分组情况表宁波市2016年贵驷街道招聘拆迁工作人员公告 2016年中国科学技术大学全日制普通高校毕业生初聘工作通知 2016年中国科学院生态环境研究中心水质净化研究组学术秘书招聘启事宁波市大榭开发区2016年度社区工作者选聘体检结果及考察对象公告 2016年华侨大学生物医学学院招聘科研助理问题说明 2016年华侨大学生物医学学院招聘科研助理待遇及咨询电话 2016年5月中国科学院成都文献情报中心招聘启事 political efficacy political elite political embarrassment political empowerment political entity political establishment political exile political figure political-football political fortune 铺地锦铺垫铺天盖地铺子铺家铺展铺床铺底铺张铺张扬厉专业技术工作总结范文供电有限责任公司技术工作总结油田钻井施工技术人员工作总结工程技术管理工作总结广播电视技术维护工作总结维修保养技术支持工作总结电脑维修工程师工作总结技术部新员工工作总结电信员工年度技术工作总结车间技术工作总结

在线学习网考试资料包含高考、自考、专升本考试、人事考试、公务员考试、大学生村官考试、特岗教师招聘考试、事业单位招聘考试、企业人才招聘、银行招聘、教师招聘、农村信用社招聘、各类资格证书考试等各类考试资料。