Bitte um Aufklärung: ü,ö,ä,ß, UTF-8, XHTML, Entites, iso-8859-1 ?

  • Hallo liebe Web-Experten,

    mir fliegen gerade ein paar Begriffe um die Ohren und ich verstehe
    die Zusammenhänge nicht so wirklich.

    In diesem Fall konnte ich die Suchfunktion nicht sinnvoll nutzen, weil ich
    gar nicht weiß, wonach ich genau suche ...


    Ich hatte EIGENTLICH etwas GANZ EINFACHES vor:


    • Ich will ein Archiv für meine Newsletter anlegen.

    Das hatte ich mir folgendermaßen vorgestellt:

    Mein Newsletter-Anbieter, Webmart, über den ich seit gestern Newsletter
    versende, bietet eine Archiv-Funktion an, in dem meine Newsletter lagern:

    http://www.webmart.de/nlhistory.cfm?id=151715&nlid=255043#NL

    Da ich aber lieber die Sachen auf MEINEM Serverplatz als Content
    lagern möchte (Suchmaschinen, mehr Klicks, alles auf einer Webseite),
    wollte ich die HTML-Dateien einfach abspeichern und auf meiner Webseite
    einfügen. Ich dachte mir das beispielsweise SO:

    http://www.bandologie.com/Newsletter_001.html

    ... Dazu könnte ich dann eine Übersichts-Seite erstellen, auf der ich auf alle
    verfügbaren HTML-Dateien verlinke. ... Ein wunderbares Archiv. Fertig.
    - - - - -

    ... ABER diese Rechnung hatte ich offenbar ohne die oben genannten
    Begriffe gemacht.

    Akutes Problem: Irgendetwas stimmt mit den Umlauten in der Darstellung nicht.
    - -

    Und als ich nach den Zeichen per Suchmaschine suchte, stieß ich auf eine ganze
    Reihe von Infos, die ich im Zusammenhang noch nicht verstanden habe.

    Stichworte: UTF-8, XHTML, Entites, iso-8859-1 ?

    Offenbar ist es auch sehr sinnvoll / notwendig(?) HTML-Dokumente mit
    einer speziellen Dokumenten-Eröffnung zu beginnen?

    Ich fand beispielsweise:
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

    ...
    - - - - -

    Also, das ist in etwa, was ich gefunden habe.
    (Wie ihr schon merkt, verstehe ich allerdings die ZUSAMMENHÄNGE dieser
    ganzen Infos nicht ...!)


    EIGENTLICH will ich erstmal nur die Sonderzeichen in meinem archivierten
    Newsletter richtig dargestellt haben.

    Ich schätze allerdings, dass da ein ganzer 'Rattenschwanz' von Kodierungs-
    Geschichten dran hängt. Richtig?


    Könnte mir jemand die wichtigsten Zusammenhänge kurz erklären
    beziehungsweise die für mich entscheidenden Informationen posten?


    Gerne auch ein aufschlußreicher Link oder Verweis auf einen anderen Thread,
    in dem das hier wahrscheinlich schon mal besprochen wurde.


    Vielen Dank und beste Grüße
    Nils

    P.S.: Ich betreibe meine Webseite über ein Joomla-System, das ein
    Webdesigner für mich aufgesetzt hat ... deswegen habe ich RELATIV wenig
    Ahnung von dieser ganzen Technik. Es wird täglich besser ... :)

  • Deiner Beispielseite fehlt der komplette Headbereich einer HTML-Datei. Hierzu musst du das "Grundgerüst" beachten.

    Füge mal zu Beginn einer jeden Seite noch dies ein:

    HTML
    <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
     "http://www.w3.org/TR/html4/loose.dtd">
    <html>
    
    
    <head>
    
    
    <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
    <title>Newsletter</title>

    Danach folgen deine Style-Angaben:

    Code
    <style type="text/css">
    a:link, a:visited, a:active {color:#0000FF;font-weight:bold  ;text-decoration:none;}
    a:hover {color:#ee0000;font-weight:bold  ;text-decoration:none;}
    td.nlbody {font-family:Arial,Helvetiva,Geneva;font-size:15px;vertical-align:top;color:#000000;}
    </style>

    Dann wird head geschlossen und body geöffnet:

    Code
    </head>
    <body>

    Und dann kommt erst der eigentliche Inhalt deiner Seite.

    Ganz am Ende des Quelltextes müssen dann body und html geschlossen werden, indem du dies einfügst:

    Code
    </body>
    </html>
  • Hallo Sejuma,

    vielen Dank für die Antwort.

    Habe das Grundgerüst jetzt entsprechend ergänzt.

    Ursache war wahrscheinlich, dass der Inhalt vorher als FRAME
    angezeigt wurde, bei Webmart, wo ich ihn raus kopiert habe.

    => Das hat allerdings noch nicht mein Problem gelöst mit den
    seltsamen Zeichen: "möchte, erhält, für, Top 10!  Kings, ausschließlich".

    Insbesondere verstehe ich nicht, wofür  steht. (?)

    Wie kriege ich diese Teile da raus?

    Beste Grüße
    Nils

  • Ursache war wahrscheinlich, dass der Inhalt vorher als FRAME
    angezeigt wurde, bei Webmart, wo ich ihn raus kopiert habe.

    Wenn eine Seite als Frame eingebunden wird ist es lange kein Grund das HTML-Grundgerüst wegzulassen.

    Zitat

    => Das hat allerdings noch nicht mein Problem gelöst mit den
    seltsamen Zeichen: "möchte, erhält, für, Top 10!  Kings, ausschließlich".

    Insbesondere verstehe ich nicht, wofür  steht. (?)

    Deine Seite hat nun einen ISO-Charset. Folglich musst Du deine Texte auch im ISO-Format speichern. Derzeit scheint es wohl utf-8 zu sein, wodurch es auch zu diesen seltsamen Zeichen kommt. Siehe auch: http://www.viomatrix.de/programmierung…eichensatz.html

  • Hallo Threadi,

    besten Dank für den Link!

    Bis gestern wusste ich nicht mal, dass man vor dem <head>
    noch etwas braucht ... aber nun verstehe ich:

    Also ...

    * Meine Webseite ist in "Iso-8859-1" kodiert.

    * Das Webmart-Zeug wird offenbar in "UTF-8" ausgespuckt,
    was ein zukunftsweisenderes Format ist.

    * Daher müsste ich mich jetzt um die HTML-Kodierung kümmern
    und die HTML Datei von "UTF-8" auf => "Iso-8859-1" kodieren.

    So weit alles richtig?
    - - - - -


    Ich nutze den HTML Editor "Smultron" und bin schon bis zu den
    "Einstellungen" vorgedrungen, wo ich nun eingestellt habe:

    "Ich nutze immer "Westeuropäisch ISO Latin 1" "
    (habe gelesen, dass das das Gleiche ist ... richtig?)

    ... und habe alle anderen Haken bei den Kodierungen im Editor entfernt.

    HATTE gehofft, dass die Datei nun automatisch in Iso-8859-1 gespeichert
    wird. Das ist allerdings nicht der Fall.

    ... Wenn ich in Smultron auf "Infos" klicke, sehe ich noch immer "Unicode (UTF-8 )".

    => Wie kann ich die Datei von UTF-8 auf iso-8859-1 konvertieren?

    ... Oder muss ich per Text-Editor mit"Suchen/Ersetzen" alle Zeichen einzeln
    austauschen??

    Beste Grüße
    Nils

    P.S.: Ich habe irgendwo gelesen, dass bei einer MySQL-Datei die Konvertierung
    im Nachhinein nicht mehr geändert werden kann.
    Kann es sein, dass das damit zu tun hat, weil die Dateien bei Webmart
    möglicherweise auf einer solchen Datenbank liegen, oder ist das eine völlig
    andere Baustelle und HTML = immer HTML = immer veränderbar?

    2 Mal editiert, zuletzt von nilss (4. April 2009 um 18:32)

  • So weit alles richtig?

    Wenn Du den ISO-Charset nutzen willst, ja.

    Zitat

    => Wie kann ich die Datei von UTF-8 auf iso-8859-1 konvertieren?

    Schau im Handbuch deines Editors nach oder frag den Hersteller. Ansonsten gibt es natürlich auch noch viele Editoren die eine solche Einstellung auf jeden Fall zulassen (Notetab Light oder RapidPHP z.B.).

    Zitat

    ... Oder muss ich per Text-Editor mit"Suchen/Ersetzen" alle Zeichen einzeln
    austauschen??

    Nein, die Mühe würde ich mir nicht machen. Zumal du ja bei jeder Bearbeitung an diese Konvertierung denken müsstest. Wechsel lieber den Editor wenn deiner keinen ISO-Charset zulässt bzw. eine Konvertierung nicht möglich ist.

    Zitat

    P.S.: Ich habe irgendwo gelesen, dass bei einer MySQL-Datei die Konvertierung im Nachhinein nicht mehr geändert werden kann.

    Eine MySQL-Datei gibt es nicht. Du meinst vermutlich die MySQL-Datenbank. Und jain: dort kann man zwar den Charset ändern muss aber auch dann alle Datensätze der Datenbank neu speichern was oftmals sehr mühselig sein kann.

    Zitat

    Kann es sein, dass das damit zu tun hat, weil die Dateien bei Webmart
    möglicherweise auf einer solchen Datenbank liegen, ...

    Ja.