英文:
Looking for regex to find footer elements
问题
以下是翻译好的部分:
我想使用正则表达式来搜索epub中的所有页脚示例,如下所示:
<p class="calibre1">2 &lt;&gt; GENERAL INTRODUCTION </p>
更一般的格式如下:
<p class="calibre1">[1-1000中的页码][" &lt;&gt;"][章节标题]</p>
我的目标是使用calibre的正则表达式来查找所有这种页脚示例并删除它们,但我尝试了以下表达式,没有一个可以找到上面的示例:
<p class="calibre1">[0-9] &lt;&gt;[^>] </p>
<p class="calibre1">[0-9] &lt;&gt; [\w] </p>
甚至一般的:
<p class="calibre1">[\w--[\d_]]</p>
<p class="calibre1">[0-9] [.]</p>
<p class="calibre1">[0-9] *[.]</p>
<p class="calibre1">[0-9][*.]</p>
我对正则表达式很陌生,正在绞尽脑汁。请帮助我理解。
英文:
I would like to use regex to search for all instances of a footer in a epub like the following sample:
<p class="calibre1">2 &lt;&gt; GENERAL INTRODUCTION </p>
of the more general format:
<p class="calibre1">[page number from 1-1000][" &lt;&gt;"][Title of section]</p>
My goal is to use calibre's regex to find all instances of that footer and delete them but I've tried these expressions and none of them work to even find the one above example:
<p class="calibre1">[0-9] &lt;&gt;[^>] </p>
<p class="calibre1">[0-9] &lt;&gt; [\w] </p>
and even the general:
<p class="calibre1">[\w--[\d_]]</p>
<p class="calibre1">[0-9] [.]</p>
<p class="calibre1">[0-9] *[.]</p>
<p class="calibre1">[0-9][*.]</p>
I'm new to regex and am pulling my hair out. Please help with my (mis)understanding.
答案1
得分: 0
这应该适用于您想要的内容:
^<p[ \t]*class="calibre1">[0-9]+[^<]*&lt;&gt;[^<]*<[/]p>$
英文:
This should work for what you want:
^<p[ \t]*class="calibre1">[0-9]+[^<]*&lt;&gt;[^<]*<[/]p>$
答案2
得分: 0
请尝试以下代码:
^<p class="calibre1">\d{1,4}.*</p>$
解释:
- ^ - 锚定到行的开头
- <p class="calibre1"> - 要匹配的实际文本
- \d{1,4} - 匹配1到4位数字
- .* - 然后匹配零个或多个字符
- <\p> - 直到闭合标签
- $ - 锚定到行的末尾
英文:
Please try this:
^<p class="calibre1">\d{1,4}.*</p>$
^ - Anchor to the start of the line
<p class="calibre1"> - Actual text to match
\d{1,4} - match 1 to 4 digits
.* - then zero or more characters
<\p> - until the closing tag
$ - anchored to the end of the line
通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库,让每个人都能够通过互相帮助和分享经验来进步。
评论