[WIP] AniDB.net Anime Video Scraper

Code:
<?xml version="1.0" encoding="utf-8"?><scraper framework="1" date="2009-11-15" name="AniDB.net" content="tvshows" thumb="anidb.png" language="en">

    <GetSettings dest="3">

        <RegExp input="$$5" output="&lt;settings&gt;\1&lt;/settings&gt;" dest="3">

            <RegExp input="$$1" output="&lt;setting label=&quot;Enable fanart from thetvdb.org&quot; type=&quot;bool&quot; id=&quot;fanart&quot; default=&quot;true&quot;&gt;&lt;/setting&gt;" dest="5">

                <expression/>

            </RegExp>

        </RegExp>

    </GetSettings>

    <CreateSearchUrl dest="3">

        <RegExp input="$$1" output="&lt;url gzip=&quot;yes&quot;&gt;http://anidb.net/perl-bin/animedb.pl?type.web=1&amp;type.unknown=1&amp;type.tvspecial=1&amp;type.tvseries=1&amp;type.ova=1&amp;type.other=1&amp;type.musicvideo=1&amp;type.movie=1&amp;show=animelist&amp;orderby.name=0.1&amp;noalias=1&amp;do.update=update&amp;adb.search=\1&lt;/url&gt;" dest="3"> -->

            <expression>([^\)\(]+)</expression>

        </RegExp>

    </CreateSearchUrl>

    <GetSearchResults dest="8">

        <RegExp input="$$5" output="&lt;?xml version=&quot;1.0&quot; encoding=&quot;iso-8859-1&quot; standalone=&quot;yes&quot;?&gt;&lt;results&gt;\1&lt;/results&gt;" dest="8">

            <!--     Multiple Results  -->

            <RegExp input="$$1" output="&lt;entity&gt;&lt;title&gt;\3 - \4&lt;/title&gt;&lt;year&gt;\5&lt;/year&gt;&lt;url gzip=&quot;yes&quot;&gt;http://anidb.net/perl-bin/\1&lt;/url&gt;&lt;id&gt;\1&lt;/id&gt;&lt;/entity&gt;" dest="5">

                <expression repeat="yes" noclean="1">&lt;a href=&quot;(animedb.pl\?show=anime&amp;amp;aid=([0-9]*))&quot;&gt;([^&lt;]*)&lt;/a&gt;.*?&lt;td class=&quot;type[^&gt;]+&gt;([^&lt;]+)&lt;/td&gt;.*?airdate.*?([0-9]{4})?&lt;/td&gt;</expression>

            </RegExp>

            <expression noclean="1"></expression>            

            <!--     Only one Result  -->

            <RegExp input="$$1" output="&lt;entity&gt;&lt;title&gt;\1 - \3&lt;/title&gt;&lt;year&gt;\4&lt;/year&gt;&lt;url gzip=&quot;yes&quot;&gt;http://anidb.net/\2&lt;/url&gt;&lt;id&gt;\1&lt;/id&gt;&lt;/entity&gt;" dest="5">

                <expression repeat="no" noclean="1">Main Title&lt;/th&gt;.*?&gt;([^\r\n\t]+).*?href=&quot;http://anidb.net/([^&quot;]*).*?Type&lt;/th&gt;[^&gt;]+&gt;([^,&lt;]*).*?Year&lt;/th&gt;.*?([0-9]{4})?(?: till|&lt;/)</expression>

            </RegExp>

            <expression clear="yes" noclean="1"/>

        </RegExp>

    </GetSearchResults>

    <GetDetails dest="3">

        <RegExp input="$$8" output="&lt;details&gt;\1&lt;/details&gt;" dest="3">

            <RegExp input="$$1" output="&lt;title&gt;\1&lt;/title&gt;" dest="8">

                <expression trim="1">Main Title&lt;/th&gt;.*?&gt;([^\r\n\(]+)</expression>

            </RegExp>

            <RegExp input="$$1" output="&lt;year&gt;\1&lt;/year&gt;" dest="8+">

                <expression>Year&lt;/th&gt;.*?([0-9]{4})(?: till|&lt;/)</expression>

            </RegExp>

            <!--<div class="image"> \n <img src="http://img7.anidb.net/pics/anime/13614.jpg" alt="Michiko to Hatchin" />-->

            <RegExp input="$$1" output="&lt;thumb&gt;\1&lt;/thumb&gt;" dest="8+">

                <expression>&lt;div class=&quot;image&quot;.*?(http[^&quot;]*)</expression>

            </RegExp>

            <!--<a href="animedb.pl?show=animevotes&amp;aid=5779">7.74</a>-->

            <RegExp input="$$1" output="&lt;rating&gt;\1&lt;/rating&gt;" dest="8+">

                <expression>animevotes&amp;amp;aid=[0-9]*&quot;&gt;([^&lt;]*)</expression>

            </RegExp>

            <!-- <a href="animedb.pl?show=lexicon&amp;vtype=cat&amp;relid=4" title="search for other anime with this category">Action</a>,-->

            <RegExp input="$$1" output="&lt;genre&gt;\1&lt;/genre&gt;" dest="8+">

                <expression repeat="yes">animedb.pl\?show=lexicon&amp;amp;vtype=cat&amp;amp;relid=[0-9]+[^&gt;]*?&gt;([^&lt;]+)&lt;/a</expression>

            </RegExp>

            <RegExp input="$$1" output="&lt;studio&gt;\1&lt;/studio&gt;" dest="8+">

                <expression>Animation Work[^&gt;]*&gt;([^&lt;]+)&lt;/a</expression>

            </RegExp>

            <RegExp input="$$1" output="&lt;premiered&gt;\1&lt;/premiered&gt;" dest="8+">

                <expression>Year&lt;/th&gt;.*?([0-9]{4})(?: till|&lt;/)</expression>

            </RegExp>

            <RegExp input="$$1" output="&lt;plot&gt;\1&lt;/plot&gt;" dest="8+">

                <expression trim="1">class=&quot;desc&quot;&gt;\s*(.*?)\s*&lt;/div</expression>

            </RegExp>

            <!--<table id="characterlist" class="characterlist"> .. </table>-->

            <RegExp input="$$6" output="&lt;actor&gt;&lt;thumb&gt;&lt;/thumb&gt;&lt;name&gt;\2&lt;/name&gt;&lt;role&gt;\1&lt;/role&gt;&lt;/actor&gt;" dest="8+">

                <RegExp input="$$1" output="\1" dest="6">

                    <expression noclean="1">&lt;table id=&quot;characterlist&quot; class=&quot;characterlist&quot;&gt;(.*?)&lt;/table&gt;</expression>

                </RegExp>    

                <expression repeat="yes">animedb\.pl\?show=character&amp;amp;charid=[0-9]+&quot;&gt;([^&lt;]+)&lt;/a.*?animedb\.pl\?show=creator&amp;amp;creatorid=[0-9]+&quot;&gt;([^&lt;]+)&lt;/a</expression>

            </RegExp>

            <RegExp input="$$3" output="&lt;url function=&quot;GetFanart&quot;&gt;http://www.thetvdb.com/index.php?seriesname=$$3&amp;fieldlocation=1&amp;language=7&amp;genre=Animation&amp;year=&amp;order=fanartcount+desc&amp;searching=Search&amp;tab=advancedsearch&lt;/url&gt;" dest="8+">

                <RegExp input="$$1" output="\1" dest="7">

                    <expression trim="1">Main Title&lt;/th&gt;.*?&gt;([^\r\n\(]+)</expression>

                </RegExp>

                <RegExp input="$$7" output="\1+" dest="3">

                    <expression repeat="yes" trim="1">([^\s]+)</expression>

                </RegExp>

                <RegExp input="$$3" output="\1" dest="3">

                    <expression>([^\s]+)\+</expression>

                </RegExp>

                <expression noclean="1"/>

            </RegExp>            

            <!-- <input type="hidden" name="aid" value="5779" /> OR use cache ? -->

            <RegExp input="$$1" output="&lt;episodeguide&gt;&lt;url gzip=&quot;yes&quot;&gt;http://anidb.net/perl-bin/animedb.pl\?show=anime&amp;aid=\1&lt;/url&gt;&lt;/episodeguide&gt;" dest="8+">

                <expression>&lt;input type=&quot;hidden&quot; name=&quot;aid&quot; value=&quot;([0-9]+)&quot; /&gt;</expression>

            </RegExp>

            <expression noclean="1"/>

        </RegExp>

    </GetDetails>

    <GetFanart dest="5">

        <RegExp input="$$1" output="&lt;details&gt;&lt;url gzip=&quot;yes&quot; function=&quot;GetFanartData&quot;&gt;http://www.thetvdb.com/index.php?tab=series&amp;id=\1&amp;lid=\2&lt;/url&gt;&lt;/details&gt;" dest="5">

            <expression>&lt;a href=&quot;/index\.php\?tab=series&amp;amp;id=([0-9]+)&amp;amp;lid=([0-9]+)&quot;.*?[1-9]+&lt;/td&gt;&lt;/tr&gt;</expression>

        </RegExp>

    </GetFanart>

    <GetFanartData dest="5">

        <RegExp input="$$8" output="&lt;details&gt;&lt;fanart&gt;\1&lt;/fanart&gt;&lt;/details&gt;" dest="5">

            <RegExp input="$$1" output="&lt;thumb preview=&quot;http://www.thetvdb.com\1&quot;&gt;http://www.thetvdb.com/\2&lt;/thumb&gt;" dest="8">

                <expression repeat="yes">&lt;img src=&quot;(/banners/_cache/fanart/original/[^&quot;]+)&quot;.*?&lt;a href=&quot;(banners/fanart/original/[^&quot;]+)&quot;</expression>

            </RegExp>    

            <expression noclean="1"/>

        </RegExp>

    </GetFanartData>

    <GetEpisodeList dest="3">



        <RegExp input="$$8" output="&lt;episodeguide&gt;\1&lt;/episodeguide&gt;" dest="3">

            <RegExp input="$$1" output="&lt;episode&gt;&lt;url gzip=&quot;yes&quot;&gt;http://anidb.net/perl-bin/animedb.pl?show=ep&amp;eid=\1&lt;/url&gt;&lt;season&gt;1&lt;/season&gt;&lt;title&gt;\3&lt;/title&gt;&lt;epnum&gt;\2&lt;/epnum&gt;&lt;/episode&gt;" dest="8+">

                <expression repeat="yes">id=&quot;eid_([0-9]+)&quot;.*?eid=[0-9]+&quot;&gt;([0-9]+)&lt;/a.*?label[^&gt;]*&gt;([^&lt;]+)</expression>

            </RegExp>

            <expression noclean="1"></expression>

        </RegExp>

    </GetEpisodeList>

    <GetEpisodeDetails dest="3">

        <RegExp input="$$5" output="&lt;details&gt;\1&lt;/details&gt;" dest="3">

            <RegExp input="$$1" output="&lt;title&gt;\1&lt;/title&gt;" dest="5">

                <expression>Main Title&lt;/th&gt;.*?&gt;([^\r\n\(]+)</expression>

            </RegExp>                        

            <RegExp input="$$1" output="&lt;plot&gt;&lt;/plot&gt;" dest="5+">

                <expression/>

            </RegExp>

            <!--class="rating ep mid">7.74 <span-->    

            <RegExp input="$$1" output="&lt;rating&gt;\1&lt;/rating&gt;" dest="5+">

                <expression>class=&quot;rating[^&gt;]*&gt;([0-9\.]+)</expression>

            </RegExp>    

            <!--

                <th class="field">Air/Release Date</th>

                <td class="value">16.10.2008</td>

            -->

            <RegExp input="$$1" output="&lt;aired&gt;\1&lt;/aired&gt;" dest="5+">

                <expression>Air/Release.*?&gt;([0-9\.]+)&lt;/td</expression>

            </RegExp>                    

            <expression noclean="1"/>

        </RegExp>        

    </GetEpisodeDetails>

</scraper>