Symbiosis of generations, backgrounds and viewpoints for powerful co-creation.

Meet The Team

Modern viewing habits on social media: 85% of your audience consumes videos on mute!
Textualisation as ‘Motion Titles’ brings more viewers, but this thoroughness
also means more manual work.

➤ The limits of AI:
Captions | Subtitles Info

Movie, TV Show, Filmmakers and Film Studio WordPress Theme.

Press Enter / Return to begin your search or hit ESC to close

By signing in, you agree to our terms and conditions and our privacy policy.

New membership are not allowed.

Captions / Subtitles
It takes a lot of work to make them effective.


Effective captions that are respectful and pleasant for the audience can only succeed if they are perceived as part of the multimedia storytelling and treated as such. In a way, you build a new narrative level, similar to video editing.

Yes, modern AI tools can transcribe and subtitle, but:

Automatic speech recognition (AI) assists the human creators of subtitles by automatically converting speech to text. Depending on the language and clarity of pronunciation (or sound quality), this has an accuracy of between 50 and 90%. Opting for cheap, quick automation instead of human attention reflects badly on your brand or product. It shows that you don’t place much importance on the audience and that care is not on your list of priorities. Ultimately, this decision can alienate not only existing viewers, but also potential new audiences.

We endeavour to avoid this and to achieve the maximum possible reach for your content. This increased workload results in extra costs for ‘Reels’.

In Detail:

To make it comprehensible; the following general errors occur frequently, regardless of the content-related circumstances such as technical language or topics:

    • Line breaks in the wrong places
    • Incorrect or imprecise word entry
    • misinterpretation of content
    • grammatical errors such as comma placement
    • inaccurate or incorrect chronological placement

These must be corrected by a person who not only knows the language, but also the content references (e.g. technical jargon). This process is tedious and requires a lot of manual labour to comply with the subtitling rules. Subtitling therefore takes a lot of time and requires certain routines.

For example, if several people are speaking at the same time, there will inevitably be confusion when the subtitles are automated. For example, a person can check where dots and commas are in order to know when a new line of subtitles should begin. Similarly, a human can recognise different speakers and treat them correctly, classifying subtitles into colours and positions.

One of the most time-consuming problems to solve is the inaccurate positioning of texts. Subtitles overlap, are too short/long or do not match the length or position of the spoken word (start/end incorrectly). The length of the subtitle is an important aspect, it must match the line deliveries of the characters on screen and at the same time be readable by the viewer in a reasonable amount of time. This sometimes means omitting words that are not necessary. Or even that content has to be rendered completely differently. However, an AI will transcribe every single word, even if this leads to confusing subtitles and a complete overload for the viewer.

©2024 CrossGeneration Media


“Nobody is excited about creating captions…
but most of us use them”

A talk by Vitaly Friedman, media consultant for the European Parliament, on how captions and subtitles improve the user experience for all if done the proper (time-consuming) way.
Video by UX Salon, 2023

Captions / Untertitel
Es braucht viel Arbeit, sie wirksam zu gestalten.


Wirksame, für das Publikum respektvolle, angenehme Untertitel (‘Captions’) gelingen nur, wenn man sie als Teil des multimedialen Storytellings wahrnimmt und auch so behandelt. Man baut in gewisser Weise eine neue Erzählebene, ähnlich eines Videoschnitts.

Ja, moderne KI-Tools können transkribieren und untertiteln, aber:

Die automatische Spracherkennung (KI) unterstützt die menschlichen Ersteller von Untertiteln durch die automatische Umwandlung von Sprache in Text. Je nach Sprache und Deutlichkeit der Aussprache (oder Tonqualität) hat dies eine Genauigkeit zwischen 50 und 90%. Die Entscheidung für eine billige, schnelle Automatisierung statt für menschliche Aufmerksamkeit wirft ein schlechtes Licht auf Ihre Marke oder Produkt. Es zeigt, dass Sie dem Publikum keine große Bedeutung beimessen und dass Sorgfalt nicht auf Ihrer Prioritätenliste steht. Letztlich können Sie mit dieser Entscheidung nicht nur bestehende Zuschauer, sondern auch potenziell neue Zielgruppen, verprellen.

Wir bemühen uns, eben dieses zu vermeiden und die maximal mögliche Reichweite für Ihre Inhalte zu erzielen. Durch diesen erhöhten Arbeitsaufwand entstehen Extrakosten bei ‘Reels’.

Im Detail:

Um es nachvollziehbar zu machen; Folgende allgemeine Fehler, noch unabhängig der inhaltlichen Gegebenheiten wie Fachsprache oder -themen, treten häufig auf:

    • Zeilenumbrüche an falschen Stellen
    • falsche oder ungenaue Worterfassung
    • inhaltliche Fehlinterpretation
    • grammatikalische Fehler wie Kommasetzung
    • ungenaue oder fehlerhafte zeitliche Platzierung

Diese müssen von einem Menschen, der nicht nur die Sprache, sondern auch inhaltliche Bezüge kennt (z.B. Fachjargon), korrigiert. Dieser Prozess ist mühsam und erfordert viel manuelle Arbeit, um den Untertitelregeln zu entsprechen. Daher nimmt die Untertitelung viel Zeit in Anspruch und setzt bestimmte Routinen voraus.

So kommt es auch, wenn mehrere Personen gleichzeitig sprechen, zwangsläufig zu Verwechslungen, wenn die Untertitel automatisiert werden. Ein Mensch kann beispielsweise überprüfen, wo Punkte und Kommas sind, um zu wissen, wann eine neue Zeile mit Untertiteln beginnen soll. Ebenso kann ein Mensch unterschiedliche SprecherInnen erkennen und richtig behandeln, Untertitel in Farben und Positionen einteilen.

Eines der am aufwändigsten zu behebenden Probleme stellt die zeitlich ungenaue Platzierung der Texte dar. Untertitel überlappen, stehen zu kurz/lang oder stimmen nicht mit der Länge bzw. Position des Gesprochenen überein (starten/enden falsch). Die Länge des Untertitels ist ein wichtiger Aspekt, sie muss mit den Zeilenlieferungen der Figuren auf dem Bildschirm übereinstimmen und gleichzeitig für den Zuschauer in angemessener Zeit lesbar sein. Das bedeutet manchmal, dass Wörter, die nicht notwendig sind, weggelassen werden. Oder auch, dass Inhalte komplett anders wiedergegeben werden müssen. Eine KI wird jedoch jedes einzelne Wort transkribieren, auch wenn dies zu unübersichtlichen Untertiteln führt und einer kompletten Überforderung er Zuseher.

©2024 CrossGeneration Media


“Nobody is excited about creating captions…
but most of us use them”

A talk by Vitaly Friedman, media consultant for the European Parliament, on how captions and subtitles improve the user experience for all if done the proper (time-consuming) way.
Video by UX Salon, 2023

YouTube Channel

Over 6M views on our own projects.

Aerial Drone Service

Professional 4K aerials, also in cities,
with our light 249g video drone.
Sample Clips


Schwedter Str. 269
10119 Berlin, Germany

TEL: +49 (0)30 44342101
MOBILE: +49 160 99190062

© 2024 CrossGeneration Media GbR