Vi arbetar för att återställa Unionpedia-appen på Google Play Store
UtgåendeInkommande
🌟Vi har förenklat vår design för bättre navigering!
Instagram Facebook X LinkedIn
Din egen Unionpedia med din logotyp och domän, från 9,99 USD/månad
Skapa min Unionpedia

Datautvinning

Index Datautvinning

Databrytning, informationsutvinning eller datautvinning, av engelskans data mining, betecknar verktyg för att söka efter mönster, samband och trender i stora datamängder.

Innehållsförteckning

  1. 85 relationer: Algoritm, Anomali, Artificiell intelligens, Artificiellt neuronnät, Bayes sats, Beslutsträd, Big data, Bioinformatik, Bortfall, Business intelligence, Comma-separated values, Confounding, Data (representation), Data warehouse, Datatyp, Dendrogram, Djupinlärning, Estimator, Expertsystem, Extrapolering, Faktoranalys, Försvarets radioanstalt, Försvarsdepartementet, Filformat, FRA-lagen, Genetisk programmering, Graf (grafteori), Heuristik (datalogi), Histogram, Hypotes, Hypotesprövning, Induktion (filosofi), Interpolation, IT-forensiker, Java (programspråk), JSON, Kalkylprogram, Klassificerare, Klusteranalys (datavetenskap), Komplexitet (beräkningsvetenskap), Korrelation, Kvantitativ forskning, Maskinöversättning, Maskininlärning, Matematisk modell, Mängd, Mönsterigenkänning, Modeord, Multipel linjär regression, Multivariat statistik, ... Förläng index (35 mer) »

  2. Formalvetenskap

Algoritm

Flödesscheman ger en grafisk representation av algoritmer. sovjetiskt frimärke. En algoritm är, inom matematiken och datavetenskapen, en ändlig uppsättning (mängd) otvetydiga instruktioner som efter exekvering löser ett problem.

Se Datautvinning och Algoritm

Anomali

En anomali är en avvikelse från det normala.

Se Datautvinning och Anomali

Artificiell intelligens

Chatboten ELIZA från 1966 fick människor att konversera som med en psykoterapeut (här i en implementation från 2005). Artificiell intelligens (AI) eller maskinintelligens är förmågan hos datorprogram och robotar att efterlikna människors och andra djurs naturliga intelligens, främst kognitiva funktioner såsom förmåga att lära sig saker av tidigare erfarenheter, förstå naturligt språk, lösa problem, planera en sekvens av handlingar och att generalisera.

Se Datautvinning och Artificiell intelligens

Artificiellt neuronnät

Ett neuronnät (rekommenderad term enligt Svenska datatermgruppen) eller artificiellt neuronnät (ANN) är ett samlingsnamn på ett antal självlärande algoritmer som försöker efterlikna funktionen i biologiska neuronnät (exempelvis hjärnan).

Se Datautvinning och Artificiellt neuronnät

Bayes sats

Bayes sats eller Bayes teorem är en sats inom sannolikhetsteorin, som används för att bestämma betingade sannolikheter; sannolikheten för ett utfall givet ett annat utfall.

Se Datautvinning och Bayes sats

Beslutsträd

Ett beslutsträd är ett beslutsstödsverktyg som använder en trädliknande modell av beslut och beslutens möjliga konsekvenser, inklusive eventuella händelseresultat, resurskostnader och nytta.

Se Datautvinning och Beslutsträd

Big data

Big data utgörs av digitalt lagrad information av sådan storlek (vanligen terabyte och petabyte), att det är svårt att bearbeta den med traditionella databasmetoder.

Se Datautvinning och Big data

Bioinformatik

En av bioinformatikens triumfer är att den gett en mycket stabilare grund för systematiken och också kunnat rätta till många fel i tidigare systematik. Här visas huvudgrenarna i livets träd Bioinformatik är en tvärvetenskaplig disciplin där algoritmer för analys av biologiska (särskilt molekylärbiologi) data utvecklas.

Se Datautvinning och Bioinformatik

Bortfall

Bortfall är inom statistik andelen ogiltiga mätvärden.

Se Datautvinning och Bortfall

Business intelligence

Business intelligence, förkortat BI, på svenska även datorstödd affärsanalys, eller organiserad insamling och analys av affärsunderrättelser, är ett samlingsbegrepp för färdigheter, processer, metoder, tekniker och datorbaserade verktyg, för organisationer att bättre förstå sin verksamhet eller sitt affärsområde genom insamling av omvärldsbevakning och omvärldsanalys.

Se Datautvinning och Business intelligence

Comma-separated values

Comma-separated values (engelska för ’kommaseparerade värden’), CSV, är en grupp textfilsformat som används för att spara och överföra tabelldata.

Se Datautvinning och Comma-separated values

Confounding

Confounding (en: sammanblandning av orsaksfaktorer, ibland snedvridning) är en term inom forskningsmetodik som betecknar okontrollerade eller okända variabler som samvarierar med både beroende och oberoende faktorer.

Se Datautvinning och Confounding

Data (representation)

Data (plural) kallas den tekniska representationen av information som lagras i filer på en dator.

Se Datautvinning och Data (representation)

Data warehouse

Översikt över data warehouse Ett data warehouse, även kallat informationslager eller datalager, är en sammanställning av information från flera källor, utförd på ett sådant sätt att det underlättar en avancerad analys av informationen.

Se Datautvinning och Data warehouse

Datatyp

I programspråk är en datatyp ett attribut för data som berättar för datorn (och programmeraren) vilken sorts information data bär på.

Se Datautvinning och Datatyp

Dendrogram

Traditionell visualisering Dendrogram (grekiska: dendron, träd) är en samlingsterm för trädliknande grafer, vilka representerar ett klassificeringsschema och visualiserar en klusteranalys inom multivariat statistik.

Se Datautvinning och Dendrogram

Djupinlärning

Djup maskininlärning (engelska: deep learning, deep machine learning, deep structured learning eller hierarchical learning) är en del av området maskininlärning genom artificiella neuronnät.

Se Datautvinning och Djupinlärning

Estimator

I statistik är estimator en regel för att beräkna en skattning av en given parameter baserad på ett stickprov av observerade data.

Se Datautvinning och Estimator

Expertsystem

Ett expertsystem, ibland kallat beslutsstödsystem, är ett datorprogram som besvarar frågor från användaren genom att dra slutsatser baserade på en samling regler och i förväg lagrade fakta.

Se Datautvinning och Expertsystem

Extrapolering

Extrapolering innebär att hitta ett meningsfullt värde till den blå boxen. Extrapolering är estimering av mätvärden utanför ett mätområde.

Se Datautvinning och Extrapolering

Faktoranalys

Faktoranalys (betydelsenära med principalkomponentanalys) är en statistisk metod som används för att beskriva samvariationen mellan två eller fler variabler genom att mäta ett antal bakomliggande faktorer.

Se Datautvinning och Faktoranalys

Försvarets radioanstalt

Försvarets radioanstalt (FRA) är en svensk civil myndighet som sorterar under Försvarsdepartementet.

Se Datautvinning och Försvarets radioanstalt

Försvarsdepartementet

Försvarsdepartementet (Fö) är ett departement inom det svenska Regeringskansliet med ansvar för totalförsvaret.

Se Datautvinning och Försvarsdepartementet

Filformat

Med filformat avses den interna struktur som digitala datafiler hyser.

Se Datautvinning och Filformat

FRA-lagen

Försvarets radioanstalt är den myndighet som genom FRA-lagen får utvidgade rättigheter att bedriva spaning. FRA-lagen är den informella benämningen på en rad lagändringar i Sverige samt en ny lag, som föreslogs av regeringen i proposition 2006/07:63 – En anpassad försvarsunderrättelseverksamhet.

Se Datautvinning och FRA-lagen

Genetisk programmering

Genetisk programmering är en teknik där maskiner kan programmera sig själva genom en form av trial and error.

Se Datautvinning och Genetisk programmering

Graf (grafteori)

En graf är det grundläggande begreppet inom grafteorin.

Se Datautvinning och Graf (grafteori)

Heuristik (datalogi)

En heuristik är inom datalogi en metod eller algoritm för att lösa ett beräkningskomplext problem snabbare när klassiska metoder är för långsamma, eller för att hitta en ungefärlig lösning när klassiska metoder misslyckas med att hitta en exakt lösning.

Se Datautvinning och Heuristik (datalogi)

Histogram

Ett histogram Histogram är en sorts stapeldiagram som visar hur många det finns för varje egenskapsintervall.

Se Datautvinning och Histogram

Hypotes

En hypotes är ett ännu obevisat antagande om verkligheten.

Se Datautvinning och Hypotes

Hypotesprövning

Hypotesprövning är inom matematisk statistik en vetenskaplig metod, som används då man vill göra uttalanden om en viss parameter, fysikalisk storhet eller en stor mängd individer, baserat på experiment eller en liten delmängd av dessa individer.

Se Datautvinning och Hypotesprövning

Induktion (filosofi)

Induktion är inom vetenskapsteori en slutledningmetod som härleder generella slutsatser utifrån ett antal enskilda fall.

Se Datautvinning och Induktion (filosofi)

Interpolation

Interpolering är inom matematiken en metod för att generera nya datapunkter från en diskret mängd av befintliga datapunkter, det vill säga beräkning av funktionsvärden som ligger mellan redan kända värden.

Se Datautvinning och Interpolation

IT-forensiker

Hårddisk i närbild. IT-forensiker är inom myndigheter IT-världens motsvarighet till kriminaltekniker.

Se Datautvinning och IT-forensiker

Java (programspråk)

Java är ett objektorienterat programspråk som konstruerades av bland andra James Gosling på Sun Microsystems under 90-talets tidigare hälft.

Se Datautvinning och Java (programspråk)

JSON

JSON (JavaScript Object Notation), är ett kompakt, textbaserat format som används för att utbyta data.

Se Datautvinning och JSON

Kalkylprogram

400px Ett kalkylprogram är ett tillämpningsprogram som är konstruerat för att utföra matematiska beräkningar i tabeller.

Se Datautvinning och Kalkylprogram

Klassificerare

En klassificerare är en funktion från en godtycklig mängd till en ändlig mängd.

Se Datautvinning och Klassificerare

Klusteranalys (datavetenskap)

Klusteranalys av data som resulterat i tre kluster på ett euklidiskt plan. Inom datavetenskap och statistik innebär klusteranalys gruppering av datamängder i delmängder som kallas kluster.

Se Datautvinning och Klusteranalys (datavetenskap)

Komplexitet (beräkningsvetenskap)

Komplexitet beskriver inom beräkningsvetenskap hur omfattande och resurskrävande ett problem är.

Se Datautvinning och Komplexitet (beräkningsvetenskap)

Korrelation

Korrelation anger inom statistiken styrkan och riktningen av ett samband mellan två eller flera variabler.

Se Datautvinning och Korrelation

Kvantitativ forskning

Kvantitativ forskning är en typ av forskningsmetod som fokuserar på mätbara data som kan uttryckas med hjälp av siffror.

Se Datautvinning och Kvantitativ forskning

Maskinöversättning

Maskinöversättning avser översättning av olika mänskliga språk med hjälp av en dator.

Se Datautvinning och Maskinöversättning

Maskininlärning

Maskininlärning (engelska: machine learning) är ett område inom artificiell intelligens, och därmed inom datavetenskapen.

Se Datautvinning och Maskininlärning

Matematisk modell

Matematisk modell eller matematisk modellering, en abstrakt beskrivning av ett verkligt fenomen med matematiska uttryck.

Se Datautvinning och Matematisk modell

Mängd

En mängd är en samling av objekt.

Se Datautvinning och Mängd

Mönsterigenkänning

Mönsterbaserad igenkänning är en av flera tekniker för informationsutvinning och betecknar sökandet efter mönster i stora datamängder.

Se Datautvinning och Mönsterigenkänning

Modeord

Ett modeord är ett ord som för tillfället är särskilt vanligt.

Se Datautvinning och Modeord

Multipel linjär regression

Inom statistik är multipel linjär regression en teknik med vilken man kan undersöka om det finns ett statistiskt samband mellan en responsvariabel (Y) och två eller flera förklarande variabler (X).

Se Datautvinning och Multipel linjär regression

Multivariat statistik

Multivariat statistik är statistisk analys som behandlar mer än en variabel åt gången.

Se Datautvinning och Multivariat statistik

Naiv bayesiansk klassificerare

I maskininlärning, exempelvis datamining, är naiva bayesianska klassificerare en familj av enkla sannolikhetsbaserade klassificerare baserade på tillämpning av Bayes sats med starka (naiva) oberoende antaganden mellan funktionerna.

Se Datautvinning och Naiv bayesiansk klassificerare

Negativt prediktivt värde

Negativt prediktivt värde (npv) är ett begrepp inom statistiken som definieras som andelen av de som testas negativa för en sjukdom som verkligen är negativa.

Se Datautvinning och Negativt prediktivt värde

Norm (matematik)

Manhattannormen (röd, blå, gul) och euklidisk norm (grön) Inom matematiken är norm ett sätt att tilldela en längd till objekt, vilka vanligen är definierade som vektorrum.

Se Datautvinning och Norm (matematik)

Oberoende variabel

Oberoende variabel.

Se Datautvinning och Oberoende variabel

Optimeringslära

Optimeringslära, optimeringsteori eller optimering (läs mer om optimering i allmän betydelse) är den matematiska lära som beskriver olika metoder för hur ett optimalt värde, det vill säga ett maximum eller ett minimum, kan erhållas ur en funktion givet vissa förutsättningar samt givet vissa restriktioner, så kallade bivillkor.

Se Datautvinning och Optimeringslära

Ortogonalitet

Ortogonalitet är inom matematiken en egenskap hos par av bland annat vektorer och funktioner, som enklast kan beskrivas som att de är vinkelräta mot varandra.

Se Datautvinning och Ortogonalitet

Outlier

Outlier (ibland utliggare) är inom statistik och matematisk statistik benämning för ett avvikande värde, ett ytterlighetsvärde – ett observerat värde som skiljer sig kraftigt från andra värden.

Se Datautvinning och Outlier

P-värde

Inom statistisk hypotesprövning är p-värdet sannolikheten för att, givet att nollhypotesen är sann, ändå erhålla en teststatistika minst så extrem som den faktiskt observerade.

Se Datautvinning och P-värde

Positivt prediktivt värde

Positivt prediktivt värde (ppv) är ett begrepp inom statistiken och definieras som andelen av dem som testas positiva för en sjukdom som verkligen är positiva.

Se Datautvinning och Positivt prediktivt värde

Prediktion

Prediktion är en metod inom signalbehandlingen för att estimera framtida (okända) värden i en stokastisk process, baserat på tidigare (kända) värden.

Se Datautvinning och Prediktion

Principalkomponentanalys

kovariansmatrisen skalad med kvadratroten ur respektive egenvärde, och flyttade så att de utgår från datans medelvärde. Principalkomponentanalys, ofta förkortat PCA av engelskans principal component analysis, är en linjär ortogonal transform som gör att den transformerade datans dimensioner är ortogonala; det vill säga att de är oberoende och inte har någon kovarians (eller korrelation).

Se Datautvinning och Principalkomponentanalys

Python (programspråk)

Python är ett programspråk som lanserades 1991 av Guido van Rossum.

Se Datautvinning och Python (programspråk)

R (programspråk)

R är ett programspråk och en utvecklingmiljö som huvudsakligen används för statistiska beräkningar och datavisualisering, för artificiell intelligens inom informationsutvinning (data mining) samt inom nationalekonomi och andra ämnen som använder sig av numeriska beräkningar.

Se Datautvinning och R (programspråk)

Regressionsanalys

Regressionslinjen i blått är funktionen som bäst approximerar de röda datapunkterna Regressionsanalys, regression, är en metod inom statistik där målet är att skapa en funktion som bäst passar observerad data.

Se Datautvinning och Regressionsanalys

Relationsdatabas

En relationsdatabas är en databas där information ("data") är organiserad i relationer (även kallade tabeller) bestående av rader (kallas också poster eller tupler) och kolumner (fält).

Se Datautvinning och Relationsdatabas

Reliabilitet

Reliabilitet beskriver tillförlitligheten hos en mätning eller ett beteendevetenskaplig mätinstrument (ett prov) och används inom exempelvis mätteknik och psykometri.

Se Datautvinning och Reliabilitet

Sambandsdiagram

Tvådimensionellt sambandsdiagram som visar sambandet mellan tiden mellan utbrott och utbrottstiden för gejsern Old Faithful i Yellowstone nationalpark.Ett tredimentionellt sambandsdiagram där värdet av tre variabler indikeras med datapunktens position i rummet, och en fjärde variabel med dess färg.

Se Datautvinning och Sambandsdiagram

Sensitivitet

Sensitivitet är ett statistiskt mått som mäter tillförlitligheten hos testmetoder av typen binära klassifikationstest.

Se Datautvinning och Sensitivitet

Signifikans

Signifikans är inom statistiken ett begrepp för att ange att ett värde i en undersökning avviker från ett hypotetiskt värde eller att det sannolikt inte beror på den statistiska osäkerheten (slumpen).

Se Datautvinning och Signifikans

Skalnivå

Skalnivå, datanivå och mätskala är synonyma statistiska begrepp som används för att klassificera variabler utifrån vilka typer av svarsalternativ de har.

Se Datautvinning och Skalnivå

Skriptspråk

Skriptspråk är inom datavetenskap en benämning på "små" högnivåspråk inriktade på specialiserade uppgifter inom redan befintliga miljöer, i motsats till systemspråk, som används för programmering av tillämpningsprogram.

Se Datautvinning och Skriptspråk

Specificitet

Specificitet är ett statistiskt mått som mäter tillförlitligheten hos testmetoder av typen binära klassifikationstest.

Se Datautvinning och Specificitet

SPSS

SPSS är ett datorprogram för statistisk analys, men det är också ett företag med flera andra program i portföljen och med kontor på många platser världen över, även i Sverige.

Se Datautvinning och SPSS

Standardfel

Standardfel eller standardmätosäkerhet är ett mått på osäkerheten i en punktskattning.

Se Datautvinning och Standardfel

Stödvektormaskin

En stödvektormaskin (eng. support-vector machine) är en typ av statistisk klassificerare, närmare bestämt en generaliserad linjär klassificerare.

Se Datautvinning och Stödvektormaskin

Subjektbaserad igenkänning

Subjektbaserad igenkänning är en teknik för informationsutvinning som betecknar sökandet efter associationer mellan individer i stora datamängder.

Se Datautvinning och Subjektbaserad igenkänning

Suddig logik

Suddig logik (engelska fuzzy logic), vanligen kallad oskarp logik, utvecklad av Lotfi Zadeh under 1960- och 70-talen, är en form av logik där lagen om det uteslutna tredje inte gäller.

Se Datautvinning och Suddig logik

Text mining

Text mining eller text data mining är processen att upptäcka meningsfulla mönster och samband i ostrukturerad information/ostrukturerade data, det vill säga texter.

Se Datautvinning och Text mining

Trafikanalys (metod)

Se även Trafikanalys (myndighet).

Se Datautvinning och Trafikanalys (metod)

Träd (datastruktur)

Ett enkelt exempel på ett osorterat träd. Den översta noden med värdet 2 är trädets rotnod. Inom datavetenskap är träd en vanlig datastruktur som ordnar en mängd element hierarkiskt i ett riktat träd där varje nod bara kan ha en båge som leder in till noden.

Se Datautvinning och Träd (datastruktur)

Upptäckt

tyngden av den undanträngda vätskan. Försättsblad från "Historical and critical information about the life, inventions and writings of Archimedes of Syracuse" av den italienske greven Giammaria Mazzucchelli (1707-1765), publicerad 1737. En upptäckt är det när någon får tidigare okänd kunskap, och det är en uppfinning när någon upptäcker en användningsmöjlighet.

Se Datautvinning och Upptäckt

Vetenskaplig modell

En vetenskaplig modell är ett försök att systematiskt beskriva ett fenomen i verkligheten.

Se Datautvinning och Vetenskaplig modell

Visualisering

Visualisering innebär ett åskådliggörande av komplexa, flerdimensionella, sammanhang genom uttryckssätt som anpassats för människans synsinnen.

Se Datautvinning och Visualisering

Web service

Webbtjänster (Web services) betecknar webbaserade datorprogram som kommunicerar och samarbetar dynamiskt med andra webbtjänster på samma vis som en människa kan surfa till olika webbsidor.

Se Datautvinning och Web service

XML

Extensible Markup Language, XML, är ett universellt och utbyggbart märkspråk och en förenklad efterträdare till SGML.

Se Datautvinning och XML

Se även

Formalvetenskap

Även känd som Data mining, Databrytning, Datamining, Informationsutvinning.

, Naiv bayesiansk klassificerare, Negativt prediktivt värde, Norm (matematik), Oberoende variabel, Optimeringslära, Ortogonalitet, Outlier, P-värde, Positivt prediktivt värde, Prediktion, Principalkomponentanalys, Python (programspråk), R (programspråk), Regressionsanalys, Relationsdatabas, Reliabilitet, Sambandsdiagram, Sensitivitet, Signifikans, Skalnivå, Skriptspråk, Specificitet, SPSS, Standardfel, Stödvektormaskin, Subjektbaserad igenkänning, Suddig logik, Text mining, Trafikanalys (metod), Träd (datastruktur), Upptäckt, Vetenskaplig modell, Visualisering, Web service, XML.