<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>marketing2null.de &#187; TecZoom</title>
	<atom:link href="http://www.marketing2null.de/category/teczoom/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.marketing2null.de</link>
	<description></description>
	<lastBuildDate>Thu, 28 Jan 2010 08:17:19 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
		<item>
		<title>Positionssensitives A/B Split Testing Tool &#8211; UPDATE</title>
		<link>http://www.marketing2null.de/2007/12/13/positionssensitives-ab-split-testing-tool-update/</link>
		<comments>http://www.marketing2null.de/2007/12/13/positionssensitives-ab-split-testing-tool-update/#comments</comments>
		<pubDate>Thu, 13 Dec 2007 17:45:07 +0000</pubDate>
		<dc:creator>Andreas Reiffen</dc:creator>
				<category><![CDATA[Search Marketing]]></category>
		<category><![CDATA[TecZoom]]></category>

		<guid isPermaLink="false">http://www.marketing2null.de/2007/12/13/positionssensitives-ab-split-testing-tool-update/</guid>
		<description><![CDATA[Nach einem knappen Tag gibt es schon News zu unserem A/B Split Testing Tool. Von einigen Leuten kam der Einwand, das Tool sei etwas limitiert, da die durchschnittliche Positionierung zweier Anzeigen oft eng beieinander liegt. Bisher war es nur möglich natürliche Zahlen bzw Integer-Werte für die Position einzugeben. Wenn nun eine Anzeige durchschnittlich auf Position [...]]]></description>
			<content:encoded><![CDATA[<p>Nach einem knappen Tag gibt es schon News zu unserem <a href="http://www.marketing2null.de/free-position-sensitive-ab-split-tester/">A/B Split Testing Tool</a>. Von einigen Leuten kam der Einwand, das Tool sei etwas limitiert, da die durchschnittliche Positionierung zweier Anzeigen oft eng beieinander liegt. Bisher war es nur möglich natürliche Zahlen bzw Integer-Werte für die Position einzugeben. Wenn nun eine Anzeige durchschnittlich auf Position 3,3 geschaltet wurde und die andere auf Position 3,7, dann machen Rundungsfehler den Nutzen der Berücksichtigung der Positionierung kaputt. Da der Einwand völlig korrekt ist, haben wir das das Tool nun erweitert und <strong>es werden nun auch Kommazahlen akzeptiert</strong>, was präzisere Ergebnisse erlauben sollte.</p>
<p><a href="http://my.affiliate-life.at/">Markus Burkert</a> hat Zweifel geäußert, ob das Tool tatsächlich bessere Ergebnisse liefert als herkömmliche Tools.</p>
<p><span id="more-120"></span></p>
<blockquote><p>Ich bin mir nicht ganz sicher, ob das der bessere Ansatz ist. Ausgegangen wird doch davon, dass für beide Anzeigen das selbe geboten wird, richtig?<br />
Das Ergebnis des genannten Beispieles sagt nun, dass Anzeige A eine höhere CTR hätte, wenn Sie eine bessere Position hätte. Wenn eine bessere Position mit dieser Anzeige aber nicht zu erreichen ist (etwa weil der QualityScore niedriger ist, als bei Anteige B) ist das doch hinfällig.</p></blockquote>
<p>Für alle anderen zur Wiederholung: Wir gehen davon aus, dass wir eine Anzeige haben, die schon sehr lange gelaufen ist. Wir schreiben nun eine weitere Anzeige in der gleichen Anzeigengruppe und fahren zur selben Zeit die Gebote hoch. Ich wähle diese Rahmenbedingungen, um die auftretenden Effekte klar hervorzuheben. Wir warten eine Woche und analysieren die Daten.<br />
Was ist passiert? Als Ergebnis der Gebotserhöhung wurden beide Anzeigen während der letzten Woche auf einer hohen Position geschaltet. Auf dieser höheren Position ist die zu erwartende Klickrate deutlich größer, was auf den Listeneffekt zurückzuführen ist. Die erste Anzeige ist jedoch einen Großteil ihrer Lebensdauer auf einer niedrigen Position geschaltet worden. Ihre durchschnittliche Klickrate wird maßgeblich von den alten Gegebenheiten determiniert (Schaltung auf einer niedrigen Position), die neue Performance wird von den Durchschnitten verwischt. Die Klickrate der neuen Anzeige hingegen wird zu 100% von der hohen Positionierung beeinflusst. Wenn man nun die beiden Anzeigen vergleichen möchte, muss man unbedingt gleiche Verhältnisse schaffen. Man muss sich die Frage stellen, wie beide Anzeigen performt hätten, wenn sie auf der gleichen Position geschaltet worden wären. Um die Anzeigen überhaupt vergleichbar zu machen, muss man folglich den Listeneffekt &#8220;herausrechnen&#8221;. Genau das macht unser Split Tester.</p>
<p>Was ist nun, wenn zwei Anzeigen über die gleiche Dauer parallel geschaltet worden sind? Markus bringt einen interessanten Einwand ins Spiel. Er meint, es könnte doch passieren, dass eine der beiden Anzeigen von Google als qualitativ schlechter eingestuft wird und deshalb auf einer niedrigeren Position geschaltet wird. Sagen wir, wir haben das Keyword &#8220;Digitalkamera&#8221; und zwei alternative Anzeigen, eine gute und eine schlechte. Würde Google einen Quality Score für Anzeigen vergeben, der auch die Positionierung der Anzeigen beeinflusst, so könnte es sein, dass  die beiden Anzeigen, die durch das gleiche Keyword ausgelöst werden, auf unterschiedlichen Positionen geschaltet werden. Die bessere Anzeige würde auf einer hohen Position, die schlechtere auf einer niedrigeren Position geschaltet.</p>
<p>Unsere Daten deuten darauf hin, dass die Position der Anzeigen maßgeblich vom Quality Score der Keywords determiniert wird. Alternative Anzeigen innerhalb einer Ad Group werden durchschnittlich auf der gleichen Position geschaltet &#8211; auch dann, wenn sich die Klickrate der Anzeigen (signifikant) unterscheidet.</p>
<p>Hier ein winziger Auszug aus einem Report einer unserer Kampagnen:</p>
<p align="center"><img height="325" alt="Auswertung-Split-Tester" src="http://www.marketing2null.de/wp-content/uploads/2007/12/auswertung-split-tester.jpg" width="401" /></p>
<p>Wenn man bspw. Ad Group E betrachtet, so sieht man, dass die zweite Anzeige eine signifikant niedrigere Klickrate (und damit aus G&#8217;s Perspektive &#8220;Qualität&#8221;) vorweist. Dennoch ist die Positionierung identisch. Andere Kampagnen liefern ähnliche Daten.</p>
<p>Doch selbst wenn man davon ausgeht, dass Google die Qualität von Anzeigen berücksichtigt und sie dann auf unterschiedlichen Positionen schaltet, wäre ein herkömmlicher Split Tester nicht korrekt. Er würde dann einerseits den schlechteren Anzeigentext abstrafen (das ist das Ziel) und zudem den Listeneffekt der schlechter platzierten Anzeige einfließen lassen (nicht gewollt). Ein positionssensitiver Split Tester würde den Listeneffekt eliminieren. Wenn er seine Aufgabe richtig erfüllt, sollte er dann dennoch die niedriger platzierte Anzeige schlechter einstufen, da anzunehmen ist, dass diese Anzeige von Google aufgrund einer niedrigen CTR schwächer gerankt wurde. In solch einem Fall wäre ein Split Test aber ohnehin nicht erforderlich, da man die Anzeige mit der niedrigeren Positionierung einfach löschen könnte.</p>
<p>Klar sollte aber auch sein, dass unser Split Tester seine Entscheidungen auf aggregierten Daten (unterschiedliche Branchen, Matchtypen, etc.) ableitet. Unterschiede im Verhalten der Klickrate mit Veränderung der Positionierung können Keyword spezifisch sein, werden aber nicht berücksichtigt.</p>
<p class="akst_link"><a href="http://www.marketing2null.de/?p=120&amp;akst_action=share-this"  title="eMail versenden, Link speichern, ..." id="akst_link_120" class="akst_share_link" rel="noindex nofollow">ShareThis</a>
</p>]]></content:encoded>
			<wfw:commentRss>http://www.marketing2null.de/2007/12/13/positionssensitives-ab-split-testing-tool-update/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Positionssensitives A/B Split Testing Tool</title>
		<link>http://www.marketing2null.de/2007/12/12/positionssensitives-ab-split-testing-tool/</link>
		<comments>http://www.marketing2null.de/2007/12/12/positionssensitives-ab-split-testing-tool/#comments</comments>
		<pubDate>Wed, 12 Dec 2007 12:53:57 +0000</pubDate>
		<dc:creator>Andreas Reiffen</dc:creator>
				<category><![CDATA[Search Marketing]]></category>
		<category><![CDATA[TecZoom]]></category>

		<guid isPermaLink="false">http://www.marketing2null.de/2007/12/12/positionssensitives-ab-split-testing-tool/</guid>
		<description><![CDATA[Jeder weiß, wie wichtig es beim SEM ist, mehrere Anzeigen zu verfassen und diese gegeneinander &#8220;antreten&#8221; zu lassen. Oft ist es so, dass man eine neue Anzeige, für die noch relativ wenige Daten vorhanden sind, mit einer älteren Anzeige vergleichen möchte. Leider ist es nicht immer einfach zu erkennen, welche der beiden Anzeigen im Hinblick [...]]]></description>
			<content:encoded><![CDATA[<p>Jeder weiß, wie wichtig es beim SEM ist, mehrere Anzeigen zu verfassen und diese gegeneinander &#8220;antreten&#8221; zu lassen. Oft ist es so, dass man eine neue Anzeige, für die noch relativ wenige Daten vorhanden sind, mit einer älteren Anzeige vergleichen möchte. Leider ist es nicht immer einfach zu erkennen, welche der beiden Anzeigen im Hinblick auf die Klickrate (CTR) eine bessere Leistung vorweist. An dieser Stelle werden oft Fehler gemacht. Entweder es wird nicht lang genug gewartet und Anzeigen, die möglicherweise besser performt hätten, werden ohne die notwendige statistische Signifikanz gelöscht. In anderen Fällen wird zu lange gewartet und schlechtere Anzeigen werden länger als notwendig geführt.</p>
<p>Anzeige A: Impressions 10.000, CTR 3,14%<br />
Anzeige B: Impressions 100, CTR 4%</p>
<p>Ist es sinnvoll, Anzeige A zu löschen? Sollte man lieber noch länger warten, um mehr Daten zu sammeln? Wie wahrscheinlich ist es denn, dass Anzeige B tatsächlich besser ist?</p>
<p><span id="more-116"></span></p>
<p>Um dieses Problem zu lösen, gibt es einige kommerzielle und auch frei verfügbare Tools, die entsprechende statistische Berechnungen durchführen. Im gerade aufgeführten Beispiel ist Anzeige B mit einer Wahrscheinlichkeit von 66,90% besser als Anzeige A (im Hinblick auf die CTR; ungeachtet evtl. divergierender Conversion Rate). Demzufolge wäre es vorschnell, Anzeige A schon zu löschen.</p>
<p>Grundsätzlich sind Split Testing Tools äußerst sinnvolle Entscheidungshilfen. Das Problem bisher vorhandener Tools liegt darin, dass sie einen wichtigen Faktor überhaupt nicht berücksichtigen. Neben der Gestaltung einer Anzeige (Titel, Text, Anzeige-URL), hat die <em>Position</em>, auf der eine Anzeige geschaltet wird, einen entscheidenden Einfluss auf die Klickrate. Vergleicht man nun zwei Anzeigen, die auf unterschiedlichen Positionen geschaltet wurden, so ist das in etwas so, wie wenn man Äpfel mit Birnen vergleicht. Das Ergebnis wird auf jedem Fall verzerrt und kann sogar völlig fehlerhafte Informationen liefern.</p>
<p>Gehen wir vom vorigen Beispiel aus. Nehmen wir an, dass zum Zeitpunkt, zu dem Anzeige B verfasst wurde, auch die Gebote der Keywords der entsprechenden Anzeigengruppe angehoben wurde. Während die alte Anzeige also lange Zeit durchschnittlich etwas unter der fünften Position geschaltet wurde, wird die neue Anzeige nun durchschnittlich auf der zweiten Position geschaltet. Dies führt &#8211; wie der gesunde Menschenverstand schon sagt &#8211; dazu, dass diese Anzeige allein aufgrund der besseren Positionierung deutlich stärker wahrgenommen wird. Folglich wird die Klickrate dieser Anzeige höher sein, als die der alten Anzeige. Möglicherweise ist die Klickrate sogar höher, obwohl die neue Anzeige eigentlich schlechter ist als die Alte. Herkömmliche Split Testing Tools ignorieren den Einfluss der Positionierung und liefern falsche Ergebnisse.</p>
<p>Wir möchten ein neues, frei verfügbares <a href="http://www.marketing2null.de/free-position-sensitive-ab-split-tester/">A/B Split Testing Tool</a> vorstellen, das eine eventuell unterschiedliche Positionierung mit ins Kalkül einbezieht. Wie unterschiedlich die Ergebinsse unseres Tools im Vergleich zu herkömmlichen Split Testern sind, lässt sich anhand eines Beispiels zeigen:</p>
<p>Anzeige A: 1 Mio Impressions, 30.000 Klicks, 3% CTR, Position 5 (gerundet).<br />
Anzeige B: 10.000 Impressions, 350 Klicks, 3,5% CTR, Position 1 (gerundet).</p>
<p>Ergebnis eines herkömmlichen Split Testers:</p>
<p>&#8220;Mit einer Wahrscheinlichkeit von <strong>99%</strong> ist <strong>Anzeige A schlechter</strong> als Anzeige B.&#8221;</p>
<p>Ergebnis des neuen positionssensitiven Split Testing Tools:</p>
<p>&#8220;Mit einer Wahrscheinlichkeit von <strong>89,54%</strong> ist <strong>Anzeige A besser</strong> als Anzeige B.&#8221;</p>
<p>Während ein herkömmlicher Split Tester also empfehlen würde, Anzeige A zu löschen, liefert unser Tool die Information, dass Anzeige A mit großer Wahrscheinlichkeit besser ist.</p>
<p>Viel Spass bei der Nutzung und viel Erfolg bei der Optimierung Eurer Anzeigen!</p>
<p><a href="http://www.marketing2null.de/free-position-sensitive-ab-split-tester/">Position Sensitive A/B Split Tester</a> &#8211; Check it out!</p>
<p><em>ANMERKUNG: Uns ist bewusst, dass es theoretisch sinnvoll ist, Anzeigen nicht im Hinblick auf die Klickrate zu optimieren, sondern die Conversion Rate mit zu berücksichtigen. In vielen Fällen sind einem solchen Ansatz aber Grenzen gesetzt, da es sehr lange dauern kann, bis ausreichend Daten vorliegen, um sinnvolle Entscheidungen treffen zu können. Ist der Zeithorizont von Kampagnen beschränkt oder das Klickvolumen gering, so ist diese Strategie nicht praktikabel. Dennoch, wer Anzeigen auf Klickrate optimiert, der sollte seine Intuition nicht vernachlässigen und vermeiden, in Anzeigen Versprechungen zu machen, die nicht erfüllt werden können. Ein Anbieter von Exklusivreisen sollte wissen, dass eine Anzeige, in der Pauschalreisen angepriesen werden, nicht mit einer Anzeige für anspruchsvolle Individualreisende vergleichbar ist. Sollte die Klickrate der ersten Anzeige nur leicht höher sein als die der Zweiten, so liegt dennoch auf der Hand, dass die zweite Anzeige weitaus besser konvertiert. Ein CTR Split Test liefert hier unsinnige Empfehlungen.<br />
Wer den Split Tester nutzen möchte, um Anzeigen auf die Conversion Rate zu testen, der kann das tun, indem er im Feld &#8220;Clicks&#8221; die Anzahl der Conversions angibt und das Feld &#8220;Position&#8221; unausgefüllt lässt.</em> </p>
<p class="akst_link"><a href="http://www.marketing2null.de/?p=116&amp;akst_action=share-this"  title="eMail versenden, Link speichern, ..." id="akst_link_116" class="akst_share_link" rel="noindex nofollow">ShareThis</a>
</p>]]></content:encoded>
			<wfw:commentRss>http://www.marketing2null.de/2007/12/12/positionssensitives-ab-split-testing-tool/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Keyword Research: Semantische Keyword Tools (Beispiel)</title>
		<link>http://www.marketing2null.de/2007/07/30/keyword-research-semantische-keyword-tools-anhand-eines-beispiels/</link>
		<comments>http://www.marketing2null.de/2007/07/30/keyword-research-semantische-keyword-tools-anhand-eines-beispiels/#comments</comments>
		<pubDate>Mon, 30 Jul 2007 13:55:27 +0000</pubDate>
		<dc:creator>Christof König</dc:creator>
				<category><![CDATA[Forschung]]></category>
		<category><![CDATA[Search Marketing]]></category>
		<category><![CDATA[TecZoom]]></category>

		<guid isPermaLink="false">http://www.marketing2null.de/2007/07/30/keyword-research-semantische-keyword-tools-anhand-eines-beispiels/</guid>
		<description><![CDATA[In meinem letzten Beitrag habe ich die grundsätzliche Funktionsweise semantischer Keyword Tools beschrieben. Ziel dieser Tools ist es, aus wenigen initialen Begriffen eine große Menge semantisch verwandter Begriffe zu erzeugen, die im Aggregat ein hohes Suchvolumen erzeugen und jeweils möglichst günstige Klickpreise vorweisen können. In diesem Beitrag möchte ich nun versuchen, das recht komplexe Verfahren [...]]]></description>
			<content:encoded><![CDATA[<p>In meinem <a href="http://www.marketing2null.de/2007/07/12/keyword-research-semantische-keyword-tools/">letzten Beitrag</a> habe ich die grundsätzliche Funktionsweise semantischer Keyword Tools beschrieben. Ziel dieser Tools ist es, aus wenigen initialen Begriffen eine große Menge semantisch verwandter Begriffe zu erzeugen, die im Aggregat ein hohes Suchvolumen erzeugen und jeweils möglichst günstige Klickpreise vorweisen können. In diesem Beitrag möchte ich nun versuchen, das recht komplexe Verfahren an einem kleinen Beispiel zu veranschaulichen. Die einzelnen Auswertungen erfolgten unter Verwendung eines kleinen selbstgeschriebenen Perl-Programms.</p>
<p><span id="more-56"></span></p>
<p>Für die englischen Begriffe <em>pig</em>, <em>pork</em>, <em>beef</em> und <em>vegetable</em> wurde jeweils eine Suche in Google durchgeführt und die kurze Inhaltsangabe der ersten zwei bzw. drei Treffer wurde als Dokument für die weitere Berechnung herangezogen. Die Ergebnisse werden bei längeren Dokumenten wesentlich besser. Darauf wurde aber aufgrund der Nachvollziehbarkeit und Übersichtlichkeit verzichtet. Die Suche erfolgte für englische Begriffe &#8211; ebenso wurden nur englische Ergebnisseiten berücksichtigt &#8211; da es für die englische Sprache den <a title="Porter Stemmer" href="http://www.tartarus.org/~martin/PorterStemmer/">Porter Stemmer</a> vorimplementiert gibt, der Begriffe auf ihren Wortstamm zurückführt, um z.B. Pluralendungen zu vernachlässigen.</p>
<h2>Allgemeines Vorgehen</h2>
<p>Das allgemeine Vorgehen zum Erstellen des repräsentativen Beschreibungsvektors für einen konkreten Suchbegriff sieht folgendermaßen aus (die z.T. etwas technische Beschreibung wird gleich darauf anhand eines Beispiels ausführlich vorgeführt):</p>
<ul>
<li>Suchanfrage bei einem Suchmaschinenanbieter nach dem konkreten Begriff x stellen</li>
<li>Sei R(x) die Menge der (maximal) n Ergebnisseiten d_1, d_2, &#8230;, d_n</li>
<li>Berechne für jede Ergebnisseite d_i aus R(x) einen TFIDF Vektor v_i</li>
<li>Schränke jeden Vektor v_i auf die m am höchsten bewerteten Begriffe ein</li>
<li>Berechne den Durchschnitt der normierten Vektoren v_i (euklidische Norm)</li>
<li>Normiere den gerade berechneten Durchschnitt</li>
</ul>
<h2>Berechnung am Beispiel <em>pig</em></h2>
<p>Anhand der Ergebnisdokumente für den Suchbegriff <em>pig</em> wird ein repräsentativer Beschreibungsvektor für eben diesen Suchbegriff im Folgenden berechnet. Eine Suchanfrage bei Google nach dem Begriff <em>pig</em> lieferte die folgende Ergebnisliste:</p>
<p><img height="177" alt="Ergebnisliste für Suchanfrage pig in Google" src="http://www.marketing2null.de/wp-content/uploads/2007/07/search-pig.png" width="450" /></p>
<p>Die Kurzbeschreibungen der ersten beiden Treffer dienen als Ergebnisseiten für die anschließenden Berechnungen:</p>
<ul>
<li>A pig has a snout for a nose, small eyes, and a small tail, which may be curly, kinked, or straight. It has a thick body and short legs. &#8230;</li>
<li>Its animal representation is the Pig. In Chinese culture, the pig is associated with fertility and virility. To bear children in the year of the pig &#8230;</li>
</ul>
<p>Die Menge R(x) besteht im Beispiel also aus den obigen beiden Dokumenten.</p>
<h2>Was ist ein TFIDF Vektor und wie berechnet man diesen?</h2>
<p>Ein TFIDF Vektor ordnet jedem einzelnen Begriff eines Dokuments ein Gewicht zu. Die Höhe dieses Wertes gibt an, wie relevant der Begriff bzgl. des Dokuments und der Menge der untersuchten Dokumente ist. Dabei spielen zwei Faktoren eine Rolle. Zum einen die Häufigkeit des Begriffes im gerade untersuchten Dokument (lokale Sicht, entspricht dem tf = term frequency) und in wie vielen der untersuchten Dokumente der Begriff überhaupt (globale Sicht, idf = inverse document frequency) vorkommt. Die genaue Formel lautet:</p>
<p>w_(t,i) = tf_(t,i) * log(D / df_t)</p>
<p>Dabei entspricht tf_(t,i) der Anzahl der Vorkommen des Begriffes t im Dokument d_i. Der Wert df_t gibt an, in wie vielen Dokumenten aus R(x) der Begriff t vorkommt und D ist die Anzahl der Dokumente in R(x). Die globale Sicht stellt sicher, dass Worte, die in allen Dokumenten vorkommen, mit einem sehr kleinen Gewicht gewertet werden. Damit wird sichergestellt, dass sog. Stopwörter wie <em>und</em>, <em>der</em> usw. nicht zu stark in die Bewertung miteinfließen.</p>
<p>Für unser konkretes Beispiel ergibt sich folgende Tabelle:</p>
<table>
<thead>
<tr>
<td>term</td>
<td>tf_(t,D_1)</td>
<td>tf_(t,D_2)</td>
<td>df_t</td>
<td>D/df_t</td>
<td>IDF_t</td>
<td>w_(t,D_1)</td>
<td>w_(t,D_2)</td>
</tr>
</thead>
<tr>
<td>a</td>
<td>5</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>1,5051</td>
<td>0,0000</td>
</tr>
<tr>
<td>and</td>
<td>2</td>
<td>1</td>
<td>2</td>
<td>1</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>animal</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>associated</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>be</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>bear</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>body</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>children</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>chinese</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>culture</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>curly</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>eyes</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>fertility</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>for</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>has</td>
<td>2</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,6021</td>
<td>0,0000</td>
</tr>
<tr>
<td>in</td>
<td>0</td>
<td>2</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,6021</td>
</tr>
<tr>
<td>is</td>
<td>0</td>
<td>2</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,6021</td>
</tr>
<tr>
<td>it</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>its</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>kinked</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>legs</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>may</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>nose</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>of</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>or</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>pig</td>
<td>1</td>
<td>3</td>
<td>2</td>
<td>1</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>representation</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>short</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>small</td>
<td>2</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,6021</td>
<td>0,0000</td>
</tr>
<tr>
<td>snout</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>straight</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>tail</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>the</td>
<td>0</td>
<td>4</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>1,2041</td>
</tr>
<tr>
<td>thick</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>to</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>virility</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>which</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>with</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>year</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
</table>
<p>Hierbei wurden die einzelnen Worte unverändert übernommen. Ignoriert man aber häufige Suffixe, also Wortendungen, und betrachtet nur noch den Wortstamm (<a title="Porter Stemmer" href="http://www.tartarus.org/~martin/PorterStemmer/">Porter Stemmer</a>) ergibt sich das folgende Bild:</p>
<table>
<thead>
<tr>
<td>term</td>
<td>tf_(t,D_1)</td>
<td>tf_(t,D_2)</td>
<td>df_t</td>
<td>D/df_t</td>
<td>IDF_t</td>
<td>w_(t,D_1)</td>
<td>w_(t,D_2)</td>
</tr>
</thead>
<tr>
<td>a</td>
<td>5</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>1,5051</td>
<td>0,0000</td>
</tr>
<tr>
<td>and</td>
<td>2</td>
<td>1</td>
<td>2</td>
<td>1</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>anim</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>associ</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>be</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>bear</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>bodi</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>children</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>chines</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>cultur</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>curli</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>ey</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>fertil</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>for</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>ha</td>
<td>2</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,6021</td>
<td>0,0000</td>
</tr>
<tr>
<td>in</td>
<td>0</td>
<td>2</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,6021</td>
</tr>
<tr>
<td>is</td>
<td>0</td>
<td>2</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,6021</td>
</tr>
<tr>
<td>it</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>1</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>kink</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>leg</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>mai</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>nose</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>of</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>or</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>pig</td>
<td>1</td>
<td>3</td>
<td>2</td>
<td>1</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>represent</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>short</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>small</td>
<td>2</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,6021</td>
<td>0,0000</td>
</tr>
<tr>
<td>snout</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>straight</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>tail</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>the</td>
<td>0</td>
<td>4</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>1,2041</td>
</tr>
<tr>
<td>thick</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>to</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>viril</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>which</td>
<td>1</td>
<td>0</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,3010</td>
<td>0,0000</td>
</tr>
<tr>
<td>with</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
<tr>
<td>year</td>
<td>0</td>
<td>1</td>
<td>1</td>
<td>2</td>
<td>0,3010</td>
<td>0,0000</td>
<td>0,3010</td>
</tr>
</table>
<p>Die beiden letzten Spalten geben nun die Gewichtungen der einzelnen Terme in den beiden Dokumenten wieder.</p>
<h2>Was macht man nun mit den TDIDF-Vektoren?</h2>
<p>Zunächst werden sie auf die Top m (in unserem Beispiel 10) Elemente reduziert. Die folgende Tabelle zeigt das Ergebnis:</p>
<table>
<tr>
<td>term</td>
<td>D_1</td>
<td>D_2</td>
</tr>
<tr>
<td>a</td>
<td>1,5051</td>
<td></td>
</tr>
<tr>
<td>bear</td>
<td></td>
<td>0,3010</td>
</tr>
<tr>
<td>bodi</td>
<td>0,3010</td>
<td></td>
</tr>
<tr>
<td>children</td>
<td></td>
<td>0,3010</td>
</tr>
<tr>
<td>curli</td>
<td>0,3010</td>
<td></td>
</tr>
<tr>
<td>ey</td>
<td>0,3010</td>
<td></td>
</tr>
<tr>
<td>fertil</td>
<td></td>
<td>0,3010</td>
</tr>
<tr>
<td>ha</td>
<td>0,6021</td>
<td></td>
</tr>
<tr>
<td>in</td>
<td></td>
<td>0,6021</td>
</tr>
<tr>
<td>is</td>
<td></td>
<td>0,6021</td>
</tr>
<tr>
<td>of</td>
<td></td>
<td>0,3010</td>
</tr>
<tr>
<td>or</td>
<td>0,3010</td>
<td></td>
</tr>
<tr>
<td>represent</td>
<td></td>
<td>0,3010</td>
</tr>
<tr>
<td>small</td>
<td>0,6021</td>
<td></td>
</tr>
<tr>
<td>snout</td>
<td>0,3010</td>
<td></td>
</tr>
<tr>
<td>tail</td>
<td>0,3010</td>
<td></td>
</tr>
<tr>
<td>the</td>
<td></td>
<td>1,2041</td>
</tr>
<tr>
<td>viril</td>
<td></td>
<td>0,3010</td>
</tr>
<tr>
<td>which</td>
<td>0,3010</td>
<td></td>
</tr>
<tr>
<td>with</td>
<td></td>
<td>0,3010</td>
</tr>
</table>
<p>Für jedes Dokument existiert nun ein eingeschränkter repräsentativer Vektor. Diese Vektoren stellen Richtungen in einem hoch-dimensionalen Raum dar. Dabei steht jeder Begriff für eine einzelne Dimension des Raumes. Um diese Vektoren besser untereinander vergleichen zu können, wird ihre Länge normiert. Anschließend wird aufbauend auf den normierten Vektoren der Durchschnitt berechnet, um für den ursprünglichen Suchbegriff einen repräsentativen Vektor zu gewinnen.</p>
<p>Wie wird ein Vektor normiert? Und was bedeutet das? Wie gerade erwähnt stellen Vektoren Richtungen in einem hoch-dimensionalen Raum dar. Jeder dieser Vektoren hat eine Norm (dies entspricht im geometrischen Sinne der Länge des Vektors). Beim Normieren wird jeder Eintrag des Vektors durch die Norm des Vektors geteilt. Man erhält dadurch einen äquivalenten Vektor mit der Norm 1. Wir verwenden hierbei die Euklidische Norm. Diese entspricht der Länge in der Geometrie.</p>
<p>Wie berechnet man die euklidische Norm eines m-dimensionalen Vektors? Man bildet die Summe der Quadrate der einzelnen Einträge und zieht daraus anschließend die Wurzel. Damit ergeben sich für unsere beiden Beispieldokumente die folgenden Normen:</p>
<ul>
<li>D_1: sqrt(1,5051^2 + 0,3010^2 + &#8230; + 0,3010^2) = 1,9039</li>
<li>D_2: sqrt(0,3010^2 + 0,3010^2 + &#8230; + 0,3010^2) = 1,6761</li>
</ul>
<p>In der obigen Tabelle wird also jeder Eintrag in der Spalte D_1 durch 1,9039 und in der Spalte D_2 durch 1,6761 geteilt. Damit erhält man den normierten Vektor für jedes einzelne Dokument. Über diese normierten Vektoren wird nun der Durchschnitt gebildet, d.h. alle Vektoren werden addiert und anschließend jeder Vektoreintrag durch die Anzahl der aufaddierten Vektoren geteilt. Der hierbei entstehende Ergebnisvektor kann nun wieder mehr als m Einträge enthalten. Für den Begriff <em>pig</em> ergibt sich somit folgender Durchschnittsvektor:</p>
<table>
<tr>
<td>a</td>
<td>0,3953</td>
</tr>
<tr>
<td>bear</td>
<td>0,0898</td>
</tr>
<tr>
<td>bodi</td>
<td>0,0791</td>
</tr>
<tr>
<td>children</td>
<td>0,0898</td>
</tr>
<tr>
<td>curli</td>
<td>0,0791</td>
</tr>
<tr>
<td>ey</td>
<td>0,0791</td>
</tr>
<tr>
<td>fertil</td>
<td>0,0898</td>
</tr>
<tr>
<td>ha</td>
<td>0,1581</td>
</tr>
<tr>
<td>in</td>
<td>0,1796</td>
</tr>
<tr>
<td>is</td>
<td>0,1796</td>
</tr>
<tr>
<td>of</td>
<td>0,0898</td>
</tr>
<tr>
<td>or</td>
<td>0,0791</td>
</tr>
<tr>
<td>represent</td>
<td>0,0898</td>
</tr>
<tr>
<td>small</td>
<td>0,1581</td>
</tr>
<tr>
<td>snout</td>
<td>0,0791</td>
</tr>
<tr>
<td>tail</td>
<td>0,0791</td>
</tr>
<tr>
<td>the</td>
<td>0,3592</td>
</tr>
<tr>
<td>viril</td>
<td>0,0898</td>
</tr>
<tr>
<td>which</td>
<td>0,0791</td>
</tr>
<tr>
<td>with</td>
<td>0,0898</td>
</tr>
</table>
<p>Dieser Vektor wird wiederum normiert. Die Norm ist in diesem Fall 0,7071. Das Ergebnis ist nun der endgültige Repräsentant für den Suchbegriff <em>pig</em>:</p>
<table>
<tr>
<td>a</td>
<td>0.5590</td>
</tr>
<tr>
<td>bear</td>
<td>0.1270</td>
</tr>
<tr>
<td>bodi</td>
<td>0.1118</td>
</tr>
<tr>
<td>children</td>
<td>0.1270</td>
</tr>
<tr>
<td>curli</td>
<td>0.1118</td>
</tr>
<tr>
<td>ey</td>
<td>0.1118</td>
</tr>
<tr>
<td>fertil</td>
<td>0.1270</td>
</tr>
<tr>
<td>ha</td>
<td>0.2236</td>
</tr>
<tr>
<td>in</td>
<td>0.2540</td>
</tr>
<tr>
<td>is</td>
<td>0.2540</td>
</tr>
<tr>
<td>of</td>
<td>0.1270</td>
</tr>
<tr>
<td>or</td>
<td>0.1118</td>
</tr>
<tr>
<td>represent</td>
<td>0.1270</td>
</tr>
<tr>
<td>small</td>
<td>0.2236</td>
</tr>
<tr>
<td>snout</td>
<td>0.1118</td>
</tr>
<tr>
<td>tail</td>
<td>0.1118</td>
</tr>
<tr>
<td>the</td>
<td>0.5080</td>
</tr>
<tr>
<td>viril</td>
<td>0.1270</td>
</tr>
<tr>
<td>which</td>
<td>0.1118</td>
</tr>
<tr>
<td>with</td>
<td>0.1270</td>
</tr>
</table>
<h2>Die restlichen 3 Suchbegriffe</h2>
<p>Als Ausgangsbasis für die restlichen 3 Suchbegriffe dienten die folgenden Ergebnisseiten einer Suchanfrage bei Google.</p>
<p><img height="176" alt="search beef" src="http://www.marketing2null.de/wp-content/uploads/2007/07/search-beef.png" width="450" /></p>
<p><img height="187" alt="search pork" src="http://www.marketing2null.de/wp-content/uploads/2007/07/search-pork.png" width="450" /></p>
<p><img height="186" alt="search veg" src="http://www.marketing2null.de/wp-content/uploads/2007/07/search-veg.png" width="450" /></p>
<p>Die einzelnen Ergebnistexte, die Google bei einem Treffer anzeigt, wurden als Dokumente für die entsprechenden Suchbegriffe interpretiert und mittels des Stemmers auf ihren Wortstamm reduziert.</p>
<p>Vollkommen analog kann man dann entsprechende repräsentative Vektoren für die anderen 3 Suchbegriffe berechnen:</p>
<table>
<thead>
<tr>
<td>term</td>
<td>beef</td>
<td>pig</td>
<td>pork</td>
<td>veg</td>
</tr>
</thead>
<tr>
<td>100</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1826</td>
</tr>
<tr>
<td>a</td>
<td>0,0000</td>
<td>0,5590</td>
<td>0,4249</td>
<td>0,0000</td>
</tr>
<tr>
<td>accord</td>
<td>0,1601</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>and</td>
<td>0,0928</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1601</td>
</tr>
<tr>
<td>answer</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1792</td>
<td>0,0000</td>
</tr>
<tr>
<td>barrel</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,2125</td>
<td>0,0000</td>
</tr>
<tr>
<td>base</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1826</td>
</tr>
<tr>
<td>bear</td>
<td>0,0000</td>
<td>0,1270</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>beef</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1407</td>
<td>0,0000</td>
</tr>
<tr>
<td>black</td>
<td>0,1601</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>board</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1792</td>
<td>0,0000</td>
</tr>
<tr>
<td>bodi</td>
<td>0,0000</td>
<td>0,1118</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>botan</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1379</td>
</tr>
<tr>
<td>bovin</td>
<td>0,1325</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>breed</td>
<td>0,1601</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>but</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1062</td>
<td>0,0000</td>
</tr>
<tr>
<td>cattl</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>children</td>
<td>0,0000</td>
<td>0,1270</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>commonli</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1062</td>
<td>0,0000</td>
</tr>
<tr>
<td>consum</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1407</td>
<td>0,0000</td>
</tr>
<tr>
<td>content</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1826</td>
</tr>
<tr>
<td>contradict</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1869</td>
</tr>
<tr>
<td>cook</td>
<td>0,2514</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>count</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1826</td>
</tr>
<tr>
<td>cuisin</td>
<td>0,2649</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>culinari</td>
<td>0,1325</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>curli</td>
<td>0,0000</td>
<td>0,1118</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>doe</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1601</td>
</tr>
<tr>
<td>especi</td>
<td>0,1325</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>european</td>
<td>0,1325</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>ey</td>
<td>0,0000</td>
<td>0,1118</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>fertil</td>
<td>0,0000</td>
<td>0,1270</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>for</td>
<td>0,1325</td>
<td>0,0000</td>
<td>0,1407</td>
<td>0,0000</td>
</tr>
<tr>
<td>gener</td>
<td>0,2514</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>ha</td>
<td>0,0000</td>
<td>0,2236</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>health</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1792</td>
<td>0,0000</td>
</tr>
<tr>
<td>in</td>
<td>0,0000</td>
<td>0,2540</td>
<td>0,1176</td>
<td>0,0000</td>
</tr>
<tr>
<td>includ</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,3203</td>
</tr>
<tr>
<td>industri</td>
<td>0,2514</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>inform</td>
<td>0,2514</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>is</td>
<td>0,2649</td>
<td>0,2540</td>
<td>0,2734</td>
<td>0,0000</td>
</tr>
<tr>
<td>juic</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1826</td>
</tr>
<tr>
<td>like</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1407</td>
<td>0,1601</td>
</tr>
<tr>
<td>list</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1601</td>
</tr>
<tr>
<td>liter</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1062</td>
<td>0,0000</td>
</tr>
<tr>
<td>meat</td>
<td>0,2649</td>
<td>0,0000</td>
<td>0,2814</td>
<td>0,0000</td>
</tr>
<tr>
<td>member</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1826</td>
</tr>
<tr>
<td>name</td>
<td>0,1325</td>
<td>0,0000</td>
<td>0,1407</td>
<td>0,0000</td>
</tr>
<tr>
<td>nation</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1792</td>
<td>0,0000</td>
</tr>
<tr>
<td>no</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1869</td>
</tr>
<tr>
<td>nutrit</td>
<td>0,2514</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>of</td>
<td>0,0000</td>
<td>0,1270</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>on</td>
<td>0,0928</td>
<td>0,0000</td>
<td>0,1407</td>
<td>0,1826</td>
</tr>
<tr>
<td>or</td>
<td>0,0000</td>
<td>0,1118</td>
<td>0,0000</td>
<td>0,1826</td>
</tr>
<tr>
<td>origin</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1062</td>
<td>0,0000</td>
</tr>
<tr>
<td>other</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1792</td>
<td>0,0000</td>
</tr>
<tr>
<td>plant</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1869</td>
</tr>
<tr>
<td>prefectur</td>
<td>0,1601</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>princip</td>
<td>0,1325</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>promot</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1792</td>
<td>0,0000</td>
</tr>
<tr>
<td>provid</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1792</td>
<td>0,0000</td>
</tr>
<tr>
<td>rais</td>
<td>0,1601</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>recip</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1792</td>
<td>0,0000</td>
</tr>
<tr>
<td>refer</td>
<td>0,1601</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1869</td>
</tr>
<tr>
<td>represent</td>
<td>0,0000</td>
<td>0,1270</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>sens</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1062</td>
<td>0,1601</td>
</tr>
<tr>
<td>sinc</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1869</td>
</tr>
<tr>
<td>small</td>
<td>0,0000</td>
<td>0,2236</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>snout</td>
<td>0,0000</td>
<td>0,1118</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>some</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1407</td>
<td>0,1601</td>
</tr>
<tr>
<td>spice</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1601</td>
</tr>
<tr>
<td>strict</td>
<td>0,1601</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>subgroup</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1826</td>
</tr>
<tr>
<td>tail</td>
<td>0,0000</td>
<td>0,1118</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>tajima-ushi</td>
<td>0,1601</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>term</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1869</td>
</tr>
<tr>
<td>that</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1869</td>
</tr>
<tr>
<td>the</td>
<td>0,0000</td>
<td>0,5080</td>
<td>0,2814</td>
<td>0,0000</td>
</tr>
<tr>
<td>their</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1826</td>
</tr>
<tr>
<td>there</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1869</td>
</tr>
<tr>
<td>thi</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1601</td>
</tr>
<tr>
<td>to</td>
<td>0,3203</td>
<td>0,0000</td>
<td>0,1792</td>
<td>0,1869</td>
</tr>
<tr>
<td>tradit</td>
<td>0,1601</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>viril</td>
<td>0,0000</td>
<td>0,1270</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
<tr>
<td>websit</td>
<td>0,0000</td>
<td>0,0000</td>
<td>0,1792</td>
<td>0,0000</td>
</tr>
<tr>
<td>which</td>
<td>0,0000</td>
<td>0,1118</td>
<td>0,1062</td>
<td>0,1601</td>
</tr>
<tr>
<td>with</td>
<td>0,0000</td>
<td>0,1270</td>
<td>0,0000</td>
<td>0,0000</td>
</tr>
</table>
<h2>Wie stellt man nun fest, ob sich zwei Begriffe ähnlich sind?</h2>
<p>Um festzustellen, wie semantisch ähnlich sich zwei Begriffe sind, nimmt man die beiden entsprechenden repräsentativen Vektoren und bildet das Skalarprodukt der beiden Vektoren. Dazu erweitert man zunächst die beiden Vektoren, so dass sie jeweils noch fehlende Begriffe des anderen Vektors mit dem Gewicht 0 enthalten. Die beiden Vektoren werden den Begriffen nach sortiert (siehe obige Darstellung der repräsentativen Vektoren). Das Skalarprodukt ist die Summe der Produkte zueinandergehöriger Gewichte. Je höher der Wert, desto größer ist die semantische Ähnlichkeit der verglichenen Suchbegriffe.</p>
<p>Untersucht man die vier obigen Begriffe ergeben sich folgende Werte:</p>
<ul>
<li><em>beef</em>, <em>pork</em>: 0,2547</li>
<li><em>beef</em>, <em>pig</em>: 0,0673</li>
<li><em>beef</em>, <em>veg</em>: 0,1216</li>
<li><em>pig</em>, <em>pork</em>: 0,4917</li>
<li><em>pig</em>, <em>veg</em>: 0,0383</li>
<li><em>pork</em>, <em>veg</em>: 0,1382</li>
</ul>
<h2>Fazit</h2>
<p>Wenn man sich obige Werte genauer ansieht, kann man sehr schön erkennen, dass die berechneten Werte durchaus der Realität entsprechen. Die beiden Begriffe <em>pig</em> und <em>pork</em> haben die höchste semantische Ähnlichkeit. Das ist absolut nachvollziehbar, wenn man sich die entsprechenden deutschen Begriffe ansieht: <em>Schwein</em> und <em>Schweinefleisch</em>. Betrachtet man <em>beef</em> und <em>pork</em> sind sich diese auch noch etwas ähnlich. Immerhin handelt es sich bei beiden Begriffen um unterschiedliche Fleischarten. Sowohl <em>beef</em> und <em>vegetable</em> als auch <em>pork</em> und <em>vegetable</em> sind sich noch ein klein wenig ähnlich. Bei allen drei Begriffen handelt es sich um Worte auf dem Bereich der Küche und des Kochens. Die geringste Ähnlichkeit haben in diesem Fall die beiden Begriffe <em>beef</em> und <em>pig</em>. Es handelt sich weder um das gleiche Tier noch um den gleichen Kontext (z.B. Küche).</p>
<p>Zusammenfassend kann man sagen, dass sich schon an diesem doch relativ kleinen Beispiel zeigt, dass das beschriebene Verfahren durchaus in der Lage ist, die semantische Ähnlichkeit zwischen einzelnen Begriffen zu erfassen und als Zahlenwert quantitativ zu repräsentieren.</p>
<p class="akst_link"><a href="http://www.marketing2null.de/?p=56&amp;akst_action=share-this"  title="eMail versenden, Link speichern, ..." id="akst_link_56" class="akst_share_link" rel="noindex nofollow">ShareThis</a>
</p>]]></content:encoded>
			<wfw:commentRss>http://www.marketing2null.de/2007/07/30/keyword-research-semantische-keyword-tools-anhand-eines-beispiels/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Keyword Research: Semantische Keyword Tools</title>
		<link>http://www.marketing2null.de/2007/07/12/keyword-research-semantische-keyword-tools/</link>
		<comments>http://www.marketing2null.de/2007/07/12/keyword-research-semantische-keyword-tools/#comments</comments>
		<pubDate>Thu, 12 Jul 2007 10:07:06 +0000</pubDate>
		<dc:creator>Christof König</dc:creator>
				<category><![CDATA[Forschung]]></category>
		<category><![CDATA[Search Marketing]]></category>
		<category><![CDATA[TecZoom]]></category>

		<guid isPermaLink="false">http://www.marketing2null.de/2007/07/12/keyword-research-semantische-keyword-tools/</guid>
		<description><![CDATA[Keyword Research ist für den Erfolg einer jeden Suchmaschinenmarketing-Kampagne von entscheidender Bedeutung. Durch die ständig steigende Konkurrenz im bezahlten Suchmaschinenmarketing werden häufig gesuchte und offensichtlich relevante Begriffe immer teurer und damit weniger profitabel, wenn nicht sogar gänzlich unprofitabel. Hätte man die Möglichkeit, eine große Anzahl relevanter &#8211; für andere schwer identifizierbarer &#8211; Begriffe zu erzeugen, [...]]]></description>
			<content:encoded><![CDATA[<p>Keyword Research ist für den Erfolg einer jeden Suchmaschinenmarketing-Kampagne von entscheidender Bedeutung. Durch die ständig steigende Konkurrenz im bezahlten Suchmaschinenmarketing werden häufig gesuchte und offensichtlich relevante Begriffe immer teurer und damit weniger profitabel, wenn nicht sogar gänzlich unprofitabel. Hätte man die Möglichkeit, eine große Anzahl relevanter &#8211; für andere schwer identifizierbarer &#8211; Begriffe zu erzeugen, so könnte man die Performance einer Kampagne steigern, da derartige Suchbegriffe in der Regel deutlich billiger sind. Ziel ist es also eine große Menge relevanter Schlüsselwörter zu bestimmen, die in ihrer Masse einen ähnlich hohen Traffic erzeugen aber günstiger sind. Die am Markt verfügbaren Keyword Tools (Wordtracker, Keyword Discovery, Adwords Keyword Tool,&#8230;) lösen dieses Problem nicht oder nur unzureichend. Ihnen fehlt das semantische Verständnis.</p>
<p><span id="more-35"></span><br />
Vibhanshu Abhishek veröffentlichte 2007 ein <a href="http://www2007.org/workshops/paper_87.pdf">Paper</a> [PDF], in dem er ein Verfahren beschreibt, mit Hilfe dessen sich relevante Keywords für das Search Engine Marketing (SEM) generieren lassen. Dabei nutzt er die semantische Ähnlichkeit von Begriffen aus, um anstelle weniger aber häufig angefragter Schlüsselwörter viele weniger häufig angefragte Keywords zu bestimmen. Die zugrunde liegende Annahme geht davon aus, dass häufig angefragte Keywords zu höheren Preisen ersteigert werden müssen als weniger häufig angefragte. </p>
<h2>Einführung</h2>
<p>Im SEM werden Gebote für bestimmte Keywords abgegeben, damit bei einer entsprechenden Suchanfrage zielgerichtete Werbeanzeigen geschaltet werden können. Die Position der Anzeige hängt dabei unter anderem vom Gebot ab. Die tatsächlichen Kosten hängen vom jeweiligen Keyword, für das man bietet, ab. Dabei wurde beobachtet, dass es einen großen Zusammenhang zwischen der Häufigkeit eines Begriffes in einer Suchanfrage und der Höhe des abzugebenden Gebots gibt, damit eine Anzeige tatsächlich geschaltet wird (<a href="http://www.business.ualberta.ca/kasdemir/ssa2/bartzmurthisebastian.pdf">Bartz et al. 2006</a> [PDF]). Basierend auf dieser Korrelation, wäre es sinnvoller auf sogenannte low-volume Keywords zu setzen. Das sind Schlüsselwörter, die weniger häufig angefragt werden und somit billiger zu ersteigern sind. Das Problem besteht nun darin, möglichst viele dieser relevanten aber billigen Keywords zu identifizieren.</p>
<h2>Bisherige Verfahren</h2>
<p>Als Basis zum Generieren derartiger Keywords dient normalerweise eine kleine Menge von Ausgangsbegriffen. Die verschiedenen Techniken, um aus dieser Ausgangsmenge neue Begriffe zu generieren, kann man grob in folgende Klassen aufteilen:</p>
<ul>
<li>Analyse von Suchanfragen: Diese Möglichkeit haben insbesondere die Suchmaschinenanbieter Google, Yahoo! usw selbst. Sie können auswerten, welche Suchanfragen häufig gestellt werden, die Begriffe aus der Ausgangsmenge enthalten. Sie stellen diese Information ihren Kunden auch mit Hilfe entsprechender Tools zur Verfügung.</li>
<li>Keyword-Breakdown: Man kann auswerten, welche konkreten Suchanfragen zu besonders vielen Konvertierungen geführt haben. Insbesondere bei <i>broad</i> Matches kann somit die Liste der eigenen Keywords um potentiell erfolgversprechende Kandidaten erweitert werden.</li>
<li>Analyse der Ergebnisseiten: Dabei wird nach Begriffen in der Ausgangsbasis gesucht und die Ergebnisseiten werden analysiert, um Begriffe, die sich in der Nähe der Ausgangsbegriffe befinden, als potentielle neue Kandidaten aufzunehmen.</li>
<li>Analyse der Meta-Tags der Ergebnisseiten: Es werden Suchanfragen nach den Begriffen in der Ausgangsbasis ausgeführt. Viele Ergebnisseiten enthalten in den Meta-Tags Informationen zu relevanten Schlüsselwörtern. Diese können als weitere Kandidaten für neue Keywords betrachtet werden.</li>
</ul>
<p>Keines dieser Verfahren benutzt explizit die semantische Ähnlichkeit bestimmter Begriffe.</p>
<h2>Was heißt &#8220;semantisch ähnlich&#8221;?</h2>
<p>Eine Möglichkeit besteht natürlich darin, einen Thesaurus zu nutzen, um äquivalente Begriffe zu finden. Wie aber soll ein Programm entscheiden, dass zwei Begriffe oder Phrasen semantisch ähnlich sind? Im Paper wird folgende Vorgehensweise vorgeschlagen. Basierend auf einer Menge schon generierter Keywordkandidaten, von denen man noch nicht weiss, wie relevant sie tatsächlich sind, wird für jedes dieser Keywords eine Suchanfrage ausgeführt. Anschließend werden z.B. die ersten 30 Ergebnisseiten genauer analysiert, d.h. es werden Worte oder Textphrasen gesucht, die &#8211; vereinfacht gesagt &#8211; besonders häufig vorkommen. Es wird also für jedes einzelne dieser Dokumente eine Menge besonders relevanter Begriffe ermittelt.</p>
<p>Um diese Begriffe zu finden, werden aus dem Text zunächst alle sogenannten Stopwörter entfernt. Dabei handelt es sich um sehr häufig vorkommende Begriffe wie <i>und</i>, <i>oder</i>, <i>er</i>, <i>sie</i> usw. Anschließend wird versucht von den übrig gebliebenen Begriffen den Wortstamm zu rekonstruieren, indem z.B. Pluralendungen entfernt werden. Die Komplexität dieses Schrittes ist sehr stark von der Sprache des Textes abhängig. Die Worte, die man nach diesem Schritt erhält, werden nun entsprechend ihrer Häufigkeit gewichtet und sortiert. Für jede Seite merkt man sich nun z.B. wieder die 30 häufigsten Begriffe. Basierend auf dieser Auswahl von Begriffen und ihrer Häufigkeit, kann man für jedes der generierten Schlüsselwörter einen repräsentativen Vektor berechnen.</p>
<p>Die Ähnlichkeit zweier Begriffe kann man nun als Produkt der beiden repräsentativen Vektoren definieren. Je höher das Ergebnis des Produkts, desto ähnlicher sind sich die beiden Begriffe. Etwas anschaulicher heisst das, dass sich zwei Begriffe ähnlich sind, wenn auf den Ergebnisseiten der jeweiligen Suchanfragen häufig die gleichen Begriffe vorkommen.</p>
<h2>Wie bestimmt man die Menge potentieller Schlüsselwörter?</h2>
<p>Bevor man Keywords auf ihre Ähnlichkeit hin untersuchen kann, müssen zunächst potentielle Kandidaten bestimmt werden. Die Basis <i>B</i> bildet die Menge der Webseiten, der zu bewerbenden Firma bzw. des zu bewerbenden Produkts. Für jede dieser Webseiten werden wiederum die wichtigsten Begriffe bestimmt und als potentielle Kandidaten für Schlüsselwörter vorgemerkt. Dieses initiale Verzeichnis potentieller Kandidaten kann nun noch von Hand durch relevante Begriffe ergänzt werden.</p>
<p>Für jeden dieser ersten Kandidaten wird nun eine Suchanfrage ausgeführt und z.B. die ersten 30 Dokumente werden analysiert und zur Basis <i>B</i> hinzugefügt. Aus diesen Seiten werden ebenfalls die häufigsten Begriffe extrahiert und in das Kandidatenverzeichnis aufgenommen. Dieser zweite Schritt hat zur Folge, dass evtl. allgemeinere aber immer noch relevante Begriffe in die Liste der Kandidaten aufgenommen werden.</p>
<h2>Wie extrahiert man nun die relevanten Keywords?</h2>
<p>Man hat nun ein großes Verzeichnis potentieller Schlüsselwörter und Informationen darüber, wie ähnlich sich entsprechende Schlüsselwörter sind. Mit Hilfe der Basis <i>B</i> &#8211; diese enthält alle analysierten Webseiten &#8211; kann man noch feststellen, wie häufig die einzelnen Kandidaten genau auftreten. Hierbei wird von der zusätzlichen Annahme ausgegangen, dass ein häufig vorkommendes Wort auch für Suchanfragen sehr populär ist und somit schon sehr hohe Gebote bei den einzelnen Suchmaschinen aufweist. Diese will man eher vermeiden und durch Keywords ersetzen, die immer noch relevant sind, aber weniger häufig auftreten.</p>
<p>Um diese zu identifizieren, konstruiert man aus dem Verzeichnis der Schlüsselwörter einen <a href="http://de.wikipedia.org/wiki/Graph_(Graphentheorie)">Graphen</a>. Die Knoten bestehen dabei aus den einzelnen Schlüsselwörtern und Kanten zwischen zwei Knoten geben an, wie semantisch ähnlich sich zwei Begriffe sind. Auf diesem Graphen kann man nun einen Algorithmus ausführen, welcher ausgehend von einem signifikaten aber teuren Keyword billigere Alternativen findet, indem er Kanten entlang zu weiteren Kandidaten läuft, die eine sehr hohe Ähnlichkeit haben. Dabei werden Keywords ignoriert, die in der Basis <i>B</i> sehr häufig vorgekommen sind, da man davon ausgeht, dass diese relativ teuer zu ersteigern sind. Sobald man die gewünschte Menge von Schlüsselwörtern gefunden hat, terminiert das Verfahren. Diese eingeschränkte Menge an Kandidaten kann man nun beliebig kombinieren oder auch einzeln einsetzen und als Keywords bei den entsprechenden Suchmaschinen ersteigern.</p>
<p>Die Qualität des Verfahrens hängt dabei von der Anzahl der untersuchten Webseiten und von der Anzahl der extrahierten relevanten Begriffe der einzelnen Webseiten ab. Je mehr, desto besser das Ergebnis.</p>
<h2>Und wie könnte nun so ein Ergebnis aussehen?</h2>
<p>Im Paper selbst wurden empirische Untersuchungen basierend auf 96 Webseiten einer Zahnklinik und dreier Wellness-Center durchgeführt. Dabei wurden zu Beginn die häufigsten 10 Begriffe jeder Seite extrahiert. Das Ergebnis waren 328 verschiedene Begriffe. Dieses initiale Verzeichnis wurde durch weitere Suchanfragen auf 1681 Begriffe erweitert. Für diese Begriffe wurde die semantische Ähnlichkeit anhand des hier vorgestellten Verfahren bestimmt. Im folgenden exemplarisch ein Auszug aus den gewonnen Ergebnissen:</p>
<ol>
<li>skin: skincare, facial, treatment, face, care, occitane, product, exfoliator, dermal, body</li>
<li>teeth: tooth, whitening, dentist, veneer, filling, gums, face, baby, smilesbaltimore, features</li>
<li>pedicure: manicure, leg, feet, nails, treatment, skincare, tool, smilesbaltimore, massage, facial</li>
</ol>
<h2>Fazit</h2>
<p>Semantische Keyword Tools werden in Zukunft &#8211; vor dem Hintergrund steigender Klickpreise (Bid Inflation) &#8211; für SEM-Dienstleister eine wichtige strategische Rolle spielen. Zwar ist es auch heute möglich, semantisch ähnliche und relevante Keywords zu identifizieren (der Mensch ist dafür äußerst gut geeignet), aber der dafür erforderliche Zeitaufwand limitiert die Möglichkeiten sehr stark. Semantische Keyword Tools könnten den Prozess des Keyword Research enorm verkürzen. Die Vision ist es, ein paar wenige Seed Keywords zu definieren, die durch ein semantisches Keyword Tool um relevante, aber schwer identifizierbare Begriffe automatisch ergänzt werden. In einem zweiten Schritt wird aus diesen Begriffe via Query Expansion (Analyse von Suchanfragen) eine Vielzahl speziellerer Begriffe erzeugt. Anschließend werden alle Begriffe automatisch zu verschiedenen Anzeigengruppe zusammengefasst, um dann automatisch durch Suchen der Keywords auf der Website (Scraping) Vorschläge für geeignete Landing Pages zu generieren. Zuletzt &#8211; darum wird man leider in absehbarer Ziet nicht herum kommen &#8211; muss ein Mensch (man braucht uns doch noch!) die gesamte Liste generierter Keywords und korrespondierender Landing Pages prüfen und korrigieren. </p>
<p><strong>Technology rules!</strong></p>
<p class="akst_link"><a href="http://www.marketing2null.de/?p=35&amp;akst_action=share-this"  title="eMail versenden, Link speichern, ..." id="akst_link_35" class="akst_share_link" rel="noindex nofollow">ShareThis</a>
</p>]]></content:encoded>
			<wfw:commentRss>http://www.marketing2null.de/2007/07/12/keyword-research-semantische-keyword-tools/feed/</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>Worum geht es in TecZoom?</title>
		<link>http://www.marketing2null.de/2007/06/30/was-ist-teczoom/</link>
		<comments>http://www.marketing2null.de/2007/06/30/was-ist-teczoom/#comments</comments>
		<pubDate>Sat, 30 Jun 2007 12:14:06 +0000</pubDate>
		<dc:creator>Christof König</dc:creator>
				<category><![CDATA[TecZoom]]></category>

		<guid isPermaLink="false">http://www.marketing2null.de/2007/06/30/was-ist-teczoom/</guid>
		<description><![CDATA[In dieser Kategorie werden Beiträge zu aktuellen Technologien und Trends, insbesondere im Bereich Marketing im Web 2.0 veröffentlicht. Dabei beschränken wir uns aber nicht nur auf diesen Themenbereich, sondern beschäftigen uns auch mit Software Engineering, Web Services und XML. Zusätzlich werden in dieser Kategorie wissenschaftliche Veröffentlichungen mit eher technischem bzw. algorithmischem Schwerpunkt erörtert. In den [...]]]></description>
			<content:encoded><![CDATA[<p>In dieser Kategorie werden Beiträge zu aktuellen Technologien und Trends, insbesondere im Bereich Marketing im Web 2.0 veröffentlicht. Dabei beschränken wir uns aber nicht nur auf diesen Themenbereich, sondern beschäftigen uns auch mit Software Engineering, Web Services und XML. Zusätzlich werden in dieser Kategorie wissenschaftliche <a href="forschung">Veröffentlichungen</a> mit eher technischem bzw. algorithmischem Schwerpunkt erörtert.</p>
<p><span id="more-13"></span></p>
<p>In den ersten Beiträgen wird das Hauptaugenmerk dabei auf Tools liegen, die den Softwareentwurf und die Softwareentwicklung unterstützen, etwa Softwaresysteme zur Verwaltung von Quellcode, Bugs, Feature Requests, Tools zum Entwurf von Datenbanksystemen oder aber Programme zur internen Dokumentation des Entwicklungsprozesses.</p>
<p>Solltet ihr Fragen oder Anregungen zu diesem Themenkomplex haben, könnt ihr uns jederzeit kontaktieren. Wir werden uns bemühen, auf euer Anliegen schnell und zuverlässig einzugehen.</p>
<p class="akst_link"><a href="http://www.marketing2null.de/?p=13&amp;akst_action=share-this"  title="eMail versenden, Link speichern, ..." id="akst_link_13" class="akst_share_link" rel="noindex nofollow">ShareThis</a>
</p>]]></content:encoded>
			<wfw:commentRss>http://www.marketing2null.de/2007/06/30/was-ist-teczoom/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>
