|
⇤ ← 2014-06-12 15:09:06時点のリビジョン1
サイズ: 430
コメント:
|
サイズ: 499
コメント:
|
| 削除された箇所はこのように表示されます。 | 追加された箇所はこのように表示されます。 |
| 行 11: | 行 11: |
| これは... 正規表現でやるのはよくない。と思う。 |
正規表現
作るのに苦労した正規表現をメモ。
<a href=”#” …> の中から特定の属性だけを抜き出す
後で詳しく書く
これは… 正規表現でやるのはよくない。と思う。
python
ptn = r'<a((?:(?!\s+class=(?:(?:"[^"]*")|(?:[^\s>])))\s+[^\s=]+=(?:(?:"[^"]*")|(?:[^\s>]*)))*)(?:(\s+class=)(?:(?:"([^"]*)")|([^\s>]*)))?(.*?)>(.*)'