O texto formatado não pode ser identificado corretamente com arquivos binários ou ser distinto do texto ASCII. Isso ocorre porque o texto formatado não é necessariamente binário, pode ser somente de texto, como arquivos de texto HTML, RTF ou enriquecer, e pode ser o ASCII. Por outro lado, um arquivo de texto sem formatação pode ser não-ASCII (em uma codificação como Unicode UTF-8). [Explicação adicional necessária] O texto formatado somente texto é obtido pela marcação que também é textual, enquanto alguns editores de texto formatado como Microsoft Palavra salvar em um formato binário.
O texto formatado tem sua gênese no uso pré-computador da sublinhamento para encorajar passagens em manuscritos datilografados. Nos primeiros sistemas interativos da tecnologia inicial do computador, não foi possível sublinhar, e os usuários compensaram essa falta (e a falta de formatação no ASCII) usando certos símbolos como substitutos. A ênfase, por exemplo, pode ser alcançada em ASCII de várias maneiras:
Capitalization: I am NOT making this up.Surrounding with underscores: I am _not_ making this up.Surrounding with asterisks: I am *not* making this up.Spacing: I am n o t making this up.Em torno do sublinhado também foi usado para títulos de livros: procure -o em _the_c_programming_language_.
A formatação pode ser marcada por tags distinguidas do texto do corpo por caracteres especiais, como colchetes de ângulo no HTML. Por exemplo, este texto:
The dog is classified as Canis familiaris in taxonomy.está marcado em HTML assim:
O CACHORRO É Classificado como Canis Familieisi> em taxonomia.p>
O texto em itálico é anexado por uma abertura e uma etiqueta de itálico final. No látex, o texto seria marcado assim:
A maioria dos idiomas de marcação pode ser editada com qualquer editor de texto, não precisando de software especial. Muitos idiomas de marcação também podem ser editados com software especializado projetado para automatizar algumas funções ou apresentar a saída como wysiwyg.
Desde a invenção do MacWrite, o primeiro processador de texto Wysiwyg, no qual o datilógrafo codifica a formatação visualmente, em vez de inserir a marcação textual, os processadores de texto tendem a economizar em arquivos binários. Abrir esses arquivos com um editor de texto os revela incorporado a vários caracteres binários, em torno do texto formatado (por exemplo, no WordPerfect) ou separado dele, no início ou no final do arquivo (por exemplo, no Microsoft Word).
Documentos de texto formatados em arquivos binários, no entanto, as desvantagens da formatação do escopo e do sigilo. Enquanto a extensão da formatação é marcada com precisão em idiomas de marcação, a formatação wysiwyg é baseada na memória, ou seja, mantendo, por exemplo, sua pressão do botão em negrito até ser cancelada. Isso pode levar à formatação de erros e problemas de manutenção. Quanto ao sigilo, os formatos de arquivo de documentos de texto formatados tendem a ser proprietários e sem documentos, levando a dificuldade em codificar a compatibilidade por terceiros e também para atualizações desnecessárias devido às mudanças de versão.
O Wordstar era um processador de texto popular que não usava arquivos binários com caracteres ocultos.
O Writer OpenOffice.org salva arquivos em um formato XML. No entanto, o arquivo resultante é binário, pois é compactado (um equivalente a tarball).
O PDF é outro formato de arquivo de texto formatado que geralmente é binário (usando compactação para o texto e armazenando gráficos e fontes em binário). Geralmente, é um formato de usuário final, escrito de um aplicativo como o Microsoft Word ou o OpenOffice.org Writer, e não é editável pelo usuário uma vez concluído.