Automagisk flix-räknare 1.1


¤ Historik

Om den här sidan

Med min automagiska flix-räknare kan du snabbt få en indikation på hur lättläst eller svårtläst en text är. Gör så här:

Allmänt om flix

Jag har ägnat en stor del av mitt liv åt att läsa och skriva och analysera texter av olika slag. Ur denna verksamhet föddes idén till frekvensindex (fix) och förenat frekvens- och läsbarhetsindex (flix).

Frekvensindex (fix) anger hur vanliga eller ovanliga orden i en text i genomsnitt är. Detta anser jag är en mycket viktig faktor när man bedömer hur lättläst eller svårläst en text är. Om en text endast består av de 57 vanligaste orden (och, i, att, det, som etc.) är fix-värdet 0. Innehåller texten också ovanligare ord ökar fix-värdet. Ju ovanligare orden i texten är desto högre är fix-värdet.

Läsbarhetsindex (lix) är ett annat sätt att bedöma hur lättläst eller svårläst en text är. Lix = ord per mening i genomsnitt + procent ord med fler än 6 bokstäver. En snabb lix-räknare, som dessutom genererar utförliga rapporter, finns hos lix.se (den klarar dock bara filer som är upp till ungefär 0,7 MB stora; är filen större får man ett felmeddelande istället för ett resultat.)

Förenat frekvens- och läsbarhetsindex (flix) är ett försök att kombinera fix och lix. Än så länge kombineras fixvärdet endast med den genomsnittliga meningslängden.* Ett lägre flix-värde indikerar att en text är lättare att förstå än en text med ett högre flix-värde. Ett högre flix-värde indikerar att en text är svårare att förstå än en text med ett lägre flix-värde.

Den automagiska flix-räknaren är ett nyligen påbörjat experiment. Resultaten kan bli allt från inte helt felaktiga till fullständigt felaktiga (det senare kan inträffa periodvis när jag experimenterar med ny kod). Det krävs med andra ord en hel del utveckling innan resultaten blir vederhäftiga. De preliminära slutsatserna säger följande:

Noter

* Andelen ord med fler än 6 bokstäver vägs för närvarande inte in vid beräkningen av flix men borde kanske göra det. Eller inte. Man kan å ena sidan hävda att andelen långa ord bör vägas in i flixvärdet, eftersom längden på orden påverkar hur lättläst eller svårläst en text är. Man kan å andra sidan hävda att ovanligare ord har en tendens att vara långa och att längden på orden därmed redan vägs in i flixvärdet. Jag lutar just nu åt att inte väga in andelen långa ord i flixvärdet, men kommande tester och överväganden får avgöra frågan.

Nuläge

Vid beräkningen av frekvensindex används för närvarande ett index alias en ordlista bestående av de 26.583 vanligaste svenska orden (enligt en undersökning av 8,2 miljoner ord).* De 57 vanligaste orden får värde 0, de 29 därpå följande orden värde 1 och så vidare till de 7.332 ovanligaste orden i indexet, som får värde 11. Ord utanför indexet får värde 12.

Vilket värde ett ord får avgörs av a) hur många gånger ordet förekommer totalt i corpusen och b) i hur många av de 490 filerna i corpusen ordet förekommer. Jag tror det blir mer korrekt att väga in både hur vanligt ett ord är totalt sett och i hur många olika sammanhang ordet förekommer istället för att som tidigare endast väga in den förra faktorn. Resultatet blir ungefär så här: Värde 0-4 får ord som förekommer väldigt ofta och i väldigt många olika sammanhang. Värde 5-8 får ord som förekommer a) ofta och i många olika sammanhang, b) väldigt ofta men inte i så många olika sammanhang samt c) mindre ofta men i väldigt många olika sammanhang. Värde 9-12 får ord som förekommer mindre ofta och inte i så många olika sammanhang.

Formeln som används för att beräkna frekvensindex är:

fix = (sf / sw) * 10

fix = frekvensindex. sf = summan av alla frekvensvärden. sw = antal ord i texten som undersöks. Med andra ord tas följande steg för att räkna ut fixvärdet:

  1. Frekvensvärdena för alla ord i texten som undersöks adderas
  2. Resultatet från steg 1 divideras med antalet ord i texten som undersöks
  3. Resultatet från steg 2 multipliceras med 10 (för att undvika decimaler, vilket jag tycker blir tydligare)

Formeln som används för att beräkna förenat frekvens- och läsbarhetsindex är:

flix = fix + (ml * 3)

flix = förenat frekvens- och läsbarhetsindex. fix = frekvensindex. ml = den genomsnittliga längden på meningarna i texten som undersöks. 3 = en konstant som meningslängden multipliceras med för att fixvärdet och meningslängden ska påverka slutresultatet i ungefär lika stor utsträckning.** Med andra ord tas följande steg för att räkna ut flixvärdet:

  1. Fixvärdet räknas ut enligt formeln ovan
  2. Den genomsnittliga meningslängden räknas ut (exakt hur det görs jag tar jag inte upp här) och multipliceras med 3
  3. Resultaten från steg 1 och 2 adderas

Noter

* 3,9 miljoner av orden kommer från 404 slumpvis utvalda webbplatser. 1,1 miljoner av orden kommer från 36 nyligen skrivna skönlitterära verk. 3,2 miljoner av orden kommer från 50 äldre skönlitterära verk, skrivna för ungefär 100 år sedan. Texterna i corpusen samlades in i november och december 2008 samt juni och juli 2009.
** Enligt en undersökning av 0,8 miljoner ord (hälften från webbplatser, en fjärdedel från ny skönlitteratur, en fjärdedel från äldre skönlitteratur) är fixvärdet i genomsnitt 34. Enligt en undersökning av 1,6 miljoner ord (hälften från webbplatser, hälften från äldre skönlitteratur) är meningslängden i genomsnitt 10,8. 34 delat med 10,8 är 3,1. Om man som jag vill att fixvärdet och meningslängden ska påverka flixvärdet i ungefär lika stor utsträckning är det alltså lämpligt att multiplicera meningslängden med 3 (eller dylikt; värdet behöver antagligen korrigeras).

Kommentera den här sidan

P.g.a. problem med spam måste din kommentar godkännas innan den publiceras.

Tre vita vingar inskrivna i en cirkel fängslar ilarna.
MK Förlag
mkforlag@live.com
Timmervägen 3A
541 64 Skövde
Senaste nytt 16/1 2010: Testa nästa version av mkforlag.com (fungerar ännu bara delvis) Mats Kristiansson
rekommenderar ...
KWIC ConcordanceFler länkar ... Skaffa webbhotell Servage erbjuder 750 GB webbhotell för 0(!) - 69 kr per månad
MK Förlag ¤ mkforlag@live.com ¤ Timmervägen 3A ¤ 541 64 Skövde