|
サイズ: 499
コメント:
|
サイズ: 538
コメント:
|
| 削除された箇所はこのように表示されます。 | 追加された箇所はこのように表示されます。 |
| 行 1: | 行 1: |
| ## page was renamed from 正規表現 |
正規表現
作るのに苦労した正規表現をメモ。
<a href=”#” …> の中から特定の属性だけを抜き出す
後で詳しく書く
これは… 正規表現でやるのはよくない。と思う。
python
ptn = r'<a((?:(?!\s+class=(?:(?:"[^"]*")|(?:[^\s>])))\s+[^\s=]+=(?:(?:"[^"]*")|(?:[^\s>]*)))*)(?:(\s+class=)(?:(?:"([^"]*)")|([^\s>]*)))?(.*?)>(.*)'