wedata:400のexampleUrlを分割した

wedata.net
まだ他のコーダーの皆さんに受け入れられるかわかりませんが、意図を書いておきます。

pageElementを基準に分割しています。以前述べたように、400のpageElementはざっくり３つに大別されます。
tanyao.hatenadiary.jp
パターン１

//article

パターン２

//*[starts-with(@id,'post-')]

パターン３

id('content')/div[contains(@class,'post')]

この３つですね。ならば３つに分ければいいのではと思われるでしょうが、重複を考慮する必要があります。具体的には１と２、２と３が両者とも同時に適用される可能性がありますから計５パターンの分岐が存在します。XPathで書くと
exampleUrl_a

//article

exampleUrl_b

//*[starts-with(@id,'post-')]

exampleUrl_c

//article[starts-with(@id,'post-')]

exampleUrl_d

id('content')/div[contains(@class,'post')]

exampleUrl_e

id('content')/div[starts-with(@id,'post-')][contains(@class,'post')]

こんな感じです。exampleUrl_cがexampleUrl_a（パターン１）とexampleUrl_b（パターン２）の重複、exampleUrl_eがexampleUrl_b（パターン２）とexampleUrl_d（パターン３）の重複です。nextLinkに関してはまったく考慮していません。

従来通りだと多すぎて管理に支障が出ると判断しました。かなりの数を削除しています。見落としがあるかもしれません。