maandag, februari 27, 2006

How Google Base works

I've been searching for information about how Google Base does it's grouping of attributes to provide a multi faceted search for a while now and I thought it would be useful to share a little with you guys. If you have any additional papers or information please post your comments!

After playing with Google Base for a little while I noticed that it returns the counts of the attributes only when there are 1000 results or fewer. This led me into thinking that Google may have chosen for a sampling approach to figure out which user defined attributes are common in the result set.
See for example the results for "mp3" which gives me more than 167,000 results. It allows me to narrow my results by the attributes (labels in this case) "products" and "music". It won't show counts, since the number of results exceeds 1000 and it had to sample the results to figure out which attributes are common.
I refine my search by clicking the "products" attribute, reducing my set to 145,000 results. Google now shows the refinements "Condition", "Manufacturer", "Brand", "Product type", "Location", "Book", "Capacitors" and "Amplifiers" because these occur frequently in the top 1000 results (let's assume a threshold of 10%). It also shows a drop down for the attribute "Price" which allows me to specify a price range to search for. This happens if all the records from the sample (or if the count is above a high threshold, say 90%) contain that attribute. That's as expected for products, they come with a price :)
Now I narrow down to "Search for mp3 > Products > Brand: apple > Nano", returning only 64 results. Since I have fewer than 1000 results Google has analyzed all the documents for me, so it's now able to show me the exact counts for each attribute.

Google takes the top-k results (top 1000) and analyzes each document using the document-at-a-time (DAAT) approach. Fetching the metadata for 1000 documents doesn't take much time. For each document it increases the counts of each element found in that document. After analyzing it throws away the attributes that occur only a few times, below a certain threshold. These are not interesting to show to the users because it narrows their search too much.
The paper "Sampling search-engine results" describes in-depth how this top-k sampling works and how accurate it's results are. Because Google applies some relevancy ranking algorithm to the results before taking the top-k sample it is likely to return a very good selection of relevant attributes for your search.

I hope you get the idea now of what's going on behind the scenes of Google Base. Of course the actual implementation may differ a bit, this is just my analysis of it. I wasn't able to find any papers from Google that prove this theory.

Google Base isn't rocket science as some might think - you'll see a lot of similar products within a while and it's techniques will become as common as full text indexing.
vrijdag, februari 24, 2006

Zoekdienst ilse gaat zich richten op lokale markt

MarketingFacts.nl:

Zowel Paul Molenaar als Nils Rooijmans zijn wat kryptisch in hun aankondiging dat er in dit jaar opnieuw wordt geinvesteerd in de zoekdienst ilse.

“We hebben een aantal partijen gesproken over samenwerkingsvormen op het gebied van zoektechnologie, en voor ons is het duidelijk welke koers we gaan varen. De samenwerkingen zijn nog niet bezegeld (paar weekjes nog), maar wel is duidelijk dat ilse.nl zich helemaal zal toeleggen op een eigen zoekdomein. Daarbij is kennis over het lokale domein belangrijk, maar ook op onderwerpgebieden. We zullen de brede ‘www-index’ niet langer zelf doen, maar zorgen wel dat onze kennis over het lokale domein wordt ingebracht in het geheel.” aldus Paul Molenaar, directeur ilse media op zijn weblog.

De zoekdienst van ilse media heeft de laatste jaren aan populariteit ingeboet ten gunste van marktleider Google maar de naamsbekendheid is nog steeds hoog blijkt uit recente onderzoeken (o.a. Nationale Search Engine Monitor).

Als Ilse.nl nou eerst eens gaat faciliteren dat ik vanaf elke dochterpagina (verzekering.startpagina.nl, etc) alléén websites doorzoek die op die dochterpagina gelinkt worden dan hebben ze een hoop vertical search engines. Een zoekopdracht binnen zo'n geselecteerde set aan bronnen levert behoorlijk zuivere resultaten op, en een relevante dochterpagina selecteren lukt iedere idioot wel. Ik heb me in het verleden al talloze malen geërgerd dat behalve Gigablast.com niemand iets dergelijks aanbiedt.
Paul je leest dit vast wel, dus laat me even weten wanneer we het live kunnen verwachten okay? :)

Skype komt met verbeterde PDA applicatie

Het VOIP bedrijf heeft deze week Skype voor Pocket PC 2.0 gelanceerd. Hierdoor kunnen Skype gebruikers met een PDA die een WiFI of 3G verbinding kan leggen, lekker gratis bellen. Voor Skype is dit een belangrijke stap omdat zij vooral inzetten op gebruikers van internettelefonie zonder gebruik van een PC, maar wel met een UMTS of PDA toestel.
Bron: Emerce Mobile

eBay & Marktplaats fans

Google Finance Launching? Google.com/Finance

Over the past three or four hours Search Engine Journal has noticed some interesting referrals from Google.com/finance. After visitng the URL, I saw that the live Google 404 “The requested URL /finance was not found on this server.” Error which usually leads to a hint that Google is launching a new service.

Thinking that this just may be a fluke in my referrals, I dug a bit deeper to find that SEJ has had multiple referrals from the Google.com/finance page, all for queries of “GOOG”, Google’s stock symbol.

Referral URL search strings :

http://google.com/finance?q=goog&btng=search+finance

0.frontend.sfe.scrooge.dc.borg.google.com:31853

Futhermore, all of these referrals lead to the most recent news stories on Google which we have published over the past week. The Google Finance channel or complementary search listings must be highlighting either blog or news stories related to stock ticker symbols. I’m also guessing that Google Finance Groups threads and possibly even Adwords or Google Local Maps may be included.

Adding more to my theory that Google is soon launching their Finance Channel or Google Finance, the referrals come from computers tracked back to Google.com, IP addresses 213.208.226.42, 65.57.245.11 & 80.169.137.162 (UK?) which seem to all be Google related in some form.

Given what I’ve found this morning, I’ll go out on a limb and say that Google Finance is about to launch or is going through some heavy testing.

There were some rumors about Google Finance launching last Summer as a competitor to Yahoo’s Finance channels and other ‘portal’ offerings. One of the rumors, reported by the Mercury News, was also that Google was “in talks with data vendor Revere Data, a San Francisco company — which will provide the data and analytics on U.S. public companies for the service.”

Source: Search Engine Journal

Chateau Frank op RTL Nieuws

Gevonden op Google Video:
woensdag, februari 22, 2006

Politie pakt Nigeriaanse oplichters

De politie heeft in Amsterdam en Zaandam twaalf Nigerianen aangehouden die verdacht worden van oplichting. Een woordvoerder zei woensdagochtend dat bij de arrestaties dinsdag de Amerikaanse US Postal Service was betrokken. Veel slachtoffers van de oplichting komen uit de Verenigde Staten.

De zogeheten 419-fraude, genoemd naar het artikel over oplichting in het Nigeriaanse wetboek van strafrecht, begint met een e-mail waarin de oplichters een grote geldsom beloven aan de ontvanger van de mail. Die moet dan wel een bedrag betalen om bijvoorbeeld administratieve kosten te dekken. Er zijn gevallen bekend waarbij slachtoffers voor honderdduizenden euro's het schip zijn ingegaan.

Uitlevering
De Verenigde Staten hebben verzocht om de uitlevering van vier verdachten. De anderen worden in Nederland berecht, aldus de politie, die meer aanhoudingen niet uitsluit.

De politie begon het onderzoek in september vorig jaar. Het schadebedrag dat tot nu toe is vastgesteld, is 2 miljoen dollar, maar de politie vermoedt dat dat bedrag aanzienlijk hoger kan uitvallen.

De invallen van dinsdag vonden plaats in een woning in Zaandam en zeven huizen in Amsterdam. De politie nam onder meer ongeveer 25.000 euro, computerapparatuur en valse reisdocumenten in beslag.

Spam-mailtjes
Uit onderzoek bleek dat de oplichters vanaf verschillende computers soms meer dan 100.000 spam-mailtjes stuurden. In de berichten deden ze zich voor als een hooggeplaatst persoon of familielid, waardoor de slachtoffers gemakkelijker zouden toehappen. Ze stellen in hun mail grote sommen geld in het vooruitzicht, soms wel 20 miljoen dollar. Ondanks herhaalde publicaties en waarschuwingen tuinden mensen nog steeds in deze voorstellen.

(Bron: Nu.nl)

Marktplaats.nl introduceert nieuw tip systeem

Vandaag introduceert Marktplaats.nl een nieuw tip systeem. Met deze functionaliteit kunnen bezoekers Marktplaats.nl op de hoogte brengen van bepaalde advertenties. Bezoekers kunnen advertenties tippen als deze tegen de regels zijn geplaatst, onterecht een website, vermelden, in de verkeerde rubriek staan, dubbel zijn geplaatst of als de advertentie een Marktplaats.nl topper is. Deze tip-opties staan nu onderaan iedere advertentie. Het belangrijkste verschil met het oude systeem is dat bezoekers geen e-mailadres meer hoeven in te vullen als ze een advertentie tippen. Bezoekers kunnen advertentie tippen met de volgende redenen:
  • In strijd met de regels: Als de advertentie is geplaatst in strijd met de regels.
  • Website vermelding: Als in een advertentie in een gratis rubriek een website wordt vermeldt. Deze optie wordt alleen getoond als de advertentie niet is betaald.
  • Verkeerde rubriek: Als de advertentie in de verkeerde rubriek is geplaatst.
  • Dubbel geplaatst: Als dezelfde advertentie in meerdere rubrieken is geplaatst.
  • Dit is een Topper!: Als de advertentie in aanmerking komt om vermeld te worden bij de Marktplaats Toppers.

Nederland is wereldleider

Vandaag meldt de International Herald Tribune:
"Residents of the Netherlands, armed with a tax break for computer purchases and some of Europe's lowest broadband fees, lead the world in the use of personal computers and the Internet, according to a study by the Pew Charitable Trusts released Tuesday."
Niets nieuws, wij wisten dat natuurlijk allang ;) Maar toch blijft het leuk zoiets te lezen!
Lees het artikel hier.

Verdien meer dan $16,000 met de Xbox 360 op eBay

Op de weblog Ars Magma vond ik een interessant artikel hoe de auteur meer dan 16 duizend dollar verdiende met de verkoop van de nieuwe Xbox 360 op eBay.
Lees het hier.
maandag, februari 20, 2006

EdgeIO

EdgeIO, "listings from the edge" as they call it themselves, is about to launch. EdgeIO provides a service that gives publishers the ability to generate classified listings on their own website and distribute that content across the web. Below are some early screenshots taken be me:




woensdag, februari 15, 2006

Marktplaats.nl schaft "200 euro grens" af

Marktplaats.nl meldt vandaag:
Om het gebruik van Marktplaats.nl nog gemakkelijker en aantrekkelijker te maken, schaft Marktplaats.nl per 15 februari haar “200 euro grens” af. Voor producten die 200 euro of meer waard zijn, werd voorheen een vergoeding van 6 euro gevraagd, ongeacht in welke groep of rubriek de producten stonden. Dit is vervallen. Rubrieken zijn vanaf 15 februari óf betaald óf gratis.

Het merendeel van de handel tussen consumenten, zoals kleding, elektronica en witgoed en computers, is hierdoor gratis geworden, ongeacht de waarde van de producten die verhandeld worden. Tevens zijn een aantal typische consumenten rubrieken, zoals paarden, oppas en huishoudelijke hulp volledig gratis geworden.

Rubrieken met uitsluitend producten van heel hoge waarde zoals auto’s, caravans, motoren en vakanties zijn betaald gebleven met een advertentietarief van 6 euro.

Drie categorieën die meer zakelijk georiënteerd zijn, zijn in prijs verhoogd naar 25 euro. Het gaat om de groepen: koopwoningen, banen en diensten.

Hier
vindt u een overzicht van alle betaalde rubrieken en een aantal voorbeelden van wat er verandert op Marktplaats.nl.

Wij hopen dat u nóg meer plezier en succes zult hebben in kopen en verkopen via Marktplaats.nl.



Oscar Diele
Directeur Marktplaats.nl
vrijdag, februari 10, 2006

Alexa.com over Blog.Worm

Alexa.com toont een mooie grafiek die de piek in bereik die Blog.Worm veroorzaakte laat zien: