Mathias Bank hat mich angemailt und gebeten, ihm zu helfen, einen deutschsprachigen Blog-Corpus im Rahmen seiner Doktorarbeit auf die Beine zu stellen. Was das ist und wozu das dient, könnt Ihr der Mail von Mathias entnehmen:
Hallo Robert,
ich schreibe derzeit meine Doktor-Arbeit in Bezug auf Internet-Analysen. Zielsetzung ist die automatische Analyse relevanter Themen auf Community-Seiten, eben auch Blogs und Foren.Ein wesentlicher Punkt bei solchen Analysen ist es, dass man weiß, welcher Benutzertyp die Artikel schreibt. Hier ist von besonderem das Geschlecht sowie das Alter interessant. Nun gibt es in der Literatur hierzu einige Verfahren, die aber alle auf englischen Datensätzen trainiert und angepasst wurden. Hierzu wird in der Regel der Corpus von Professor Moshe Koppel verwendet. Während den ersten Jahren in meiner Diss hab ich aber vermehrt feststellen müssen, dass für englisch entwickelte Verfahren auf deutschen Texten nicht wirklich funktionieren. Leider ist es aufgrund eines fehlenden Vergleichscorpus nicht möglich, dies zu evaluieren.
Mathias hat mittlerweile ein eigenes Formular zum Erfassen der Blog-Texte auf die Beine gestellt: Deutscher Blog-Corpus. Dort wird auch erklärt, was mit Deinen Blog-Texten passiert (wiss. Weiterverwertung etcpp).
15.12.2009 um 17:01 Uhr
Kannst bei mir nen Haken dran machen ;)
15.12.2009 um 19:33 Uhr
danke:)
16.12.2009 um 00:06 Uhr
„Während den ersten Jahren in meiner Diss“
:)
Gute Sache denke ich, aber ich würde mit ungern wissenschaftlich bestätigen lassen, dass mein Blog mangelhaft ist. Denn in irgendeiner Hinsicht wird es das mindestens sein.
16.12.2009 um 08:40 Uhr
@Thomas: ich bezweifle, dass ein Algorithmus wirklich mal in der Lage sein sollte, objektiv die Qualität eines Blogs zu bewerten. Sicher, die Relevanz auf eine bestimmte Fragestellung kann man mit unterschiedlichen Faktoren bewerten (z.B. Blog-Frequenz, Verlinkung), aber einen wirklich absoluten und objektiven Qualitätswert? Von der Seite würde ich mir da keine Sorgen machen ;)
Für meine Seite ist das zumindest überhaupt nicht die Fragestellung. Eher: was zeichnet die Sprache eines 20-30-Jährigen aus. Wie unterscheidet er sich von 40-50-Jährigen. Verwenden Frauen mehr Adjektive? Wessen Sätze sind länger? Kann man auf die Berufsgruppe anhand des Schreibstils schließen? Das sind die Fragestellungen, die mich besonders interessieren und bei denen im englischsprachigen Raum bereits viel getan wurde.
16.12.2009 um 11:31 Uhr
Habe mich eingetragen.
(Trotzdem: @yeahyeahyens hat recht: es heißt das Corpus, wenn eine Textsammlung gemeint ist.)
17.12.2009 um 03:59 Uhr
@Mathias Bank:
Danke für die näheren Erläuterungen.
17.12.2009 um 10:43 Uhr
interessanter „wissenschaftlicher“ Ansatz – bin auf die Ergebnis gespannt
20.12.2009 um 23:11 Uhr
Was sind das für Amateure. Es heißt „das Korpus“ (sächlich!).
http://de.wikipedia.org/wiki/Corpus
21.12.2009 um 04:19 Uhr
hatte schon lange keine Profi-Sprachpolizisten mehr, herzlich verabschiedend:)
26.12.2009 um 08:35 Uhr
möchte höfliche auf das netzwerk „literarische weblogs deutscher sprache“ ( litblogs.net ) hinweisen , welches 14 autorenblogs und zwei foren aggregiert ,-)
07.01.2010 um 06:35 Uhr
Das wichtigste ist halt immer noch der Content und wer ihn schreibt. Das macht einen Blog aus und keine Statistiken. :-)